最近需要每天提交查询一批网站的百度最近7天的收录量,网站现在还不确定数量,可能比较多。编写Python脚本,定时自动运行,将结果存入excel或者mysql数据库都可以。在网上也找了相关的代码,但是大部分都是查询所有的收录量,没有定制日期的查询。说下自己的代码思路吧。
1.将一批网站存入txt文档中,在Python中打开
2.site:本链接,发送请求,获取想要的数据
3.存到本地。
先分析了site:链接后的url:

类似这样的url,红圈部分是需要查询的网站,发现没法选择查询的时期,比如说是最近7天,还是最近24小时的收录量(我是没找到)
换了站长工具的查询收录工具,输入自己的网站链接,查看url:

http://tool.chinaz.com/baidu/?lm=7&wd=biz.ifeng.com&pn=0&pagesize=20&btime=&etime=

lm后面的参数部分可以选择查询的日期,最近7天的收录量,就是lm=7;最近24小时的收录量就是lm=1;最近一月就是lm=30,wd参数是自己的网站链接,pn参数当前的页数,pagesize参数每页显示的条数,btime参数查询的起始时间,etime结束时间。
1.获取网站链接

 def get_url(self):  # 获取with open("C:\Users\Administrator\Desktop\shoulu.txt") as file:for url in file.readlines():# print urlhtml = url.split("/")[2]yield html, url

2.打开网页,获取

    def send_request(self):print "doing send_request..............................."for data in self.get_url():tool_url = "http://tool.chinaz.com/baidu/?lm=7&wd={}&pn=0&pagesize=20&btime=&etime=".format(data[0])# print tool_urltime.sleep(random.randint(1, 3))response = requests.get(url=tool_url, headers=self.headers)content = etree.HTML(response.text)try:num = content.xpath("//span[@class='col-blue02'][3]/a/text()")[0]print data[0], response.status_code, numyield data[1], numexcept Exception as error:num = 0print error, data[0], response.status_code, num, "无收录".decode('utf-8')yield data[1], num

到这批量查询就算完成了,然后是数据的处理,本次是存到excel中
3.存到本地(存为excel)

 def keep_data(self):print "downloading the data......"# aa = 1title_file = Workbook(encoding="utf-8")table = title_file.add_sheet("web_shulu")# 写入表头table.write(0, 0, "id")     # 写入表头第一行第一列table.write(0, 1, "url")    # 表头第一行第二列table.write(0, 2, "收录量".decode("utf-8"))   # 表头第一行第三列# data = self.send_request()for data in self.send_request():table.write(self.aa, 0, self.aa)table.write(self.aa, 1, data[0])table.write(self.aa, 2, data[1])self.aa += 1title_file.save("shoulu.xls")

到此,结束。[认真滑稽脸].jpg

编写Python脚本查询最近七天或者最近1天的百度收录量相关推荐

  1. python hive mysql_[7] 编写Python脚本将Hive的运算结果保存到MySQL数据库中(1) - 摩西莫西 - ITeye技术网站...

    编写Python脚本将Hive的运算结果保存到MySQL数据库中(1) 很多情况下,需要将Hive中的运算结果保存到MySQL数据库中,可以通过简单的Python脚本来实现. 例子1:如果获取Hive ...

  2. [7] 编写Python脚本将Hive的运算结果保存到MySQL数据库中(1) - 摩西莫西 - ITeye技术网站...

    [7] 编写Python脚本将Hive的运算结果保存到MySQL数据库中(1) - 摩西莫西 - ITeye技术网站 [7] 编写Python脚本将Hive的运算结果保存到MySQL数据库中(1) - ...

  3. python编写爬虫的步骤-如何编写python脚本?教你做简单的爬虫,适合初学者

    如何编写python脚本?很多朋友学习python都希望能从爬虫开始,而网络爬虫是近年来的热门话题,学习网络爬虫的人越来越多! 其实,一般的爬虫技术具有2个功能:取数据和存数据!好像我们说了句废话.. ...

  4. python ipaddr库_用Python脚本查询纯真IP库QQWry.dat(Demon修改版)

    #!/usr/bin/env python # coding: utf-8 # from: http://linuxtoy.org/files/pyip.py # Blog: http://linux ...

  5. 用ChatGPT处理word表格数据:直接采用ChatGPt和利用ChatGPT编写python脚本两种方法

    目录 摘要 0. 测试数据生成 1. 直接使用ChatGPT进行处理. 2 使用ChatGPT生成python脚本进行处理 3对比分析 4 结束语 摘要 为测试ChatGP在word文档表格的处理能力 ...

  6. python写手机脚本脱离电脑_在手机里编写python脚本控制手机

    今天我有一个大胆的想法,想在手机里面编写python脚本自动化控制手机.既然有了这么大胆而想法,而且我还能实现,那么就有了我现在这篇文章. 如何在手机里面编程 首先先介绍一款能直接在手机里面运行代码的 ...

  7. BlueCatTools 批量查询网站的百度收录量,快照和外链的工具

    BlueCatTools 批量查询网站的百度收录量,快照和外链的工具 BlueCatTools 官方博客 http://bluecattools.zskame.com/ 具体要求: 要求可能有点多,但 ...

  8. PHP百度收录量查询接口源码,百度收录量API查询PHP源码

    百度收录量API查询PHP源码 /* Plugin Name:百度收录量 Version:1.0 Description:根据域名返回百度收录量 Author:绿游 Author URL:http:/ ...

  9. python控制台执行代码字符串_编写Python脚本以使用控制台命令执行

    研究是在底部,阅读之前...谢谢.在 我必须编写一个运行SQL查询的Python脚本.我创建了一个主类,名为SQLQuery.每个SQLQuery实例表示一个查询.脚本的结构必须如下所示:class ...

最新文章

  1. winform 异步弹窗窗体_玩转控件:重写/重绘Dev中MessageBox弹窗控件
  2. Java变量的作用域
  3. 为敏感信息设置安全屏障
  4. java对象锁与类锁区别
  5. 2019蓝桥杯省赛---java---B---3(数列求值)
  6. Linux学习笔记(三)
  7. Ubuntu 12.04 wine QQ
  8. 前端必须要有的学习能力
  9. Python pandas使用
  10. NumPy中文文档搬砖学习笔记(1)
  11. Win8驱动的兼容性问题
  12. 全国计算机自动化办公专业人才证书,办公自动化证书有什么用
  13. 三、GTK-按钮(微调按钮、复选按钮、单选按钮)、快捷键、热键
  14. 一款类似windows wallpaper engine的Mac动画壁纸软件
  15. 从威胁到整合,容器将改变openstack的未来?
  16. 链改重塑信任,打造零风险的产业生态体系!
  17. 多种乡村体验游盈利方式,助你撬动上千亿乡村旅游市场!
  18. 赋能数字经济发展的数字政府建设:内在逻辑与创新路径
  19. html怎么设置一个div可以左右移动,利用css 使div上下左右移动
  20. 2023年3月全国DAMA-CDGA/CDGP数据治理认证招生简章

热门文章

  1. Study Flex《强引用与弱引用》
  2. 数据库范式4nf什么意思_什么是第一范式(1NF)?
  3. 傲游云浏览器开创业界先例 无缝浏览增强用户体验
  4. Spring MVC原理介绍
  5. LeetCode-877 石子游戏
  6. 输入一个年份,输出是否为闰年。#闰年条件:能被4整除但不能被100整除,或者能被400整除的年份是闰年。
  7. Gradle 自定义Plugin插件之发送钉钉通知
  8. refusing to merge unrelated histories的解决方案(git 本地/远程仓库合并)
  9. tele 安卓Android版,TeleOffice
  10. 低学历又如何?这样的程序员照样可以逆袭