Python爬虫爬取博客访问量

实现功能：
查看自己活着别人CSDN中每篇博客的访问量
语言：
Python3.5
用到的库：
requests
re
步骤：
1.找到数据源：找到一个现实所有博客的页面，在一篇博客的右上方可以点击目录查看所有博客的名字和浏览次数。
2.筛选标题：审查元素找到标题对应的位置，观察标题前后的代码，找到规律编写正则表达试。
3.筛选浏览量：同上
4.取数据：爬取页面，用正则表单是匹配标题和浏览量。
5.输出：根据标题对应的访问量输出爬取的内容
结果：
如图

代码：

# -*- coding:utf-8 -*-import requests
import reheader = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.11; rv:47.0) Gecko/20100101 Firefox/47.0','Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8','Accept-Language': 'en-US,en;q=0.5','Accept-Encoding': 'gzip, deflate, br'}
#步骤1
html = requests.get('http://blog.csdn.net/boomhankers?viewmode=list',headers = header)
print('结果：',html.status_code)
print('原因：',html.reason)
#步骤2、3
rule1 = 'title="阅读次数">阅读<\/a>\((.*?)\)<\/span>'
rule2 = '<span class="link_title"><a href=".*?">(.*?)</a></span>'
patten1 = re.compile(rule1,re.S)
patten2 = re.compile(rule2,re.S)
#步骤4
tileArray = re.findall(patten2,html.text)
timeArray = re.findall(patten1,html.text)
#步骤5
i = 0
for tile in tileArray:print(tile+": "+timeArray[i])i = i+1

源码地址：点击打开链接

Python爬虫爬取博客访问量相关推荐

爬虫-爬取博客的演练-首页内容保存-首页文章列表与url
一,爬取博客的主页 import requestsurl = "https://me.csdn.net/ifubing"# https://blog.csdn.net/ifubin ...
python爬虫设计刷博客访问量（刷访问量，赞，爬取图片）
分享一下我老师大神的人工智能教程!零基础,通俗易懂!http://blog.csdn.net/jiangjunshow 也欢迎大家转载本篇文章.分享知识,造福人民,实现我们中华民族伟大复兴! 需要准备 ...
python 爬取博客访问量并且统计数据成图
update by 2018-10-01: 开通了一个公众号,多数文章会围绕python写,有兴趣的朋友可以关注哟! 萌生思路写了csdn博客已有半年之久了,虽然一直当做笔记记录自己的技术成长,但是 ...
python爬虫爬取安居客并进行简单数据分析
此篇博客为普通方式爬取安居客租房数据一共提取出1200条,但是在进行大规模的数据爬取时,不建议使用这种方式,速度太慢是最大的诟病,在进行大规模爬取时,使用分布式爬虫是第一选择爬取过程一.指定爬取数 ...
python爬虫爬取安居客房源信息
爬取安居客房源信息 Xpath插件的安装爬取重庆花溪附近的房源信息(进入正题啦~) 梳理下逻辑爬取数据的通用流程代码代码的问题 & 运行时可能出现的问题结果数据处理部分(写给我自己 ...
python 爬虫博客园_Python爬虫爬取博客园作业
分析一下他们的代码,我在浏览器中对应位置右键,然后点击检查元素,可以找到对应部分的代码.但是,直接查看当前网页的源码发现,里面并没有对应的代码.我猜测这里是根据服务器上的数据动态生成的这部分代码,所以 ...
python 爬虫可视化编程_Python爬虫爬取博客实现可视化过程解析
源码: from pyecharts import Bar import re import requests num=0 b=[] for i in range(1,11): link='https ...
python爬取学校题库_如何使用 Python 爬虫爬取牛客网 Java 题库？
[原文链接]http://www.changxuan.top/?p=146 由于"打怪"失败,最近一直在牛客网上刷题复习备战春招.其中有个 Java专题复习题库,我刷着刷着就想把它 ...
如何使用 Python 爬虫爬取牛客网 Java 题库？
[原文链接]http://www.changxuan.top/?p=146 由于"打怪"失败,最近一直在牛客网上刷题复习备战春招.其中有个 Java专题复习题库,我刷着刷着就想把它 ...

Python爬虫爬取博客访问量

Python爬虫爬取博客访问量相关推荐

最新文章

热门文章