简单CSDN爬虫，实现博客访问量记录

看到别人用Java写了一个CSDN爬虫，监控访问量。

看完之后就写了一个Python的。

Python小白，代码有点垃圾，大神莫喷。

要爬CSDN，首先要学会违装成浏览器。

再用正则表达式就可以了。

先上效果图：

思路：

首先爬取目前的访问量，积分和排名，然后写到文件。访问量增加情况要保存上一次的访问量，相减就可以了

。

架构：

在当前目录新建一个Data文件夹，用于保存数据

在在下面建一个rank的文件夹，用于记录每一天的具体访问情况

还有有个last.txt文件，用于保存上一次的访问量。

在在rank文件夹下面建文件，保存每天的访问记录。

下面直接上代码吧：

#coding=utf-8
import time,urllib2,re,os,thread,time,datetime
def fun():headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.57 Safari/537.36'}req = urllib2.Request('http://blog.csdn.net/hurmishine?viewmode=contents', headers=headers)response = urllib2.urlopen(req)html = response.read()#print htmlvisitcount = r'<li>访问：<span>(\d+)次</span></li>' cnt=re.findall(visitcount,html);print cnt[0]times=int(cnt[0])visitcount = r' <li>积分：<span>(\d+)</span> </li> ' cnt=re.findall(visitcount,html);  #print cnt[0]grade=cnt[0]visitcount = r'<li>排名：<span>第(\d+)名</span></li>'cnt=re.findall(visitcount,html);rankk=cnt[0]#print cnt[0]t = datetime.datetime.now()t=str(t)print t[:-7]today=str(t[:10])t=t[:-7]if os.path.exists('data')==False:os.makedirs('data')File=open('data/last.txt','w')File.write('0')File.close()last = open("data/last.txt").read()#print file.split(',')last_cnt=int(last)#print last_cntif os.path.exists('data/rank')==False:os.makedirs('data/rank')if os.path.exists('data/rank/'+today+'.txt')==False:rank=open('data/rank/'+today+'.txt','w')rank.write('--------------------------------------------------------------\n')rank.write('|时间\t\t\t|访问量\t|积分\t|排名\t|访问量增加  |\n')rank.write('|------------------------------------------------------------|\n')rank.close()if times>=last_cnt+10:File=open('data/last.txt','w+')File.write(str(times))File.close()deta=times-last_cntr=open('data/rank/'+today+'.txt','a')r.write('|'+t+'\t|'+str(times)+'\t|'+grade+'\t|'+rankk+'\t|'+str(deta)+'\t     |\n')r.write('|------------------------------------------------------------|\n')r.close()
if __name__=='__main__':while True:fun()time.sleep(1)

代码写好了，每次用IDLE运行不是很方便，那就编译成exe文件吧。
pyInstaller 可以将.py文件编译成.exe文件。

pyInstaller 免积分下载地址：http://download.csdn.net/detail/hurmishine/9672939

其他的地方找不到，CSDN要积分，我上传的就不要积分。

另外还要安装pywin32,那个网上自己找吧。

尊重原创，转载请注明出处：http://blog.csdn.net/hurmishine

简单CSDN爬虫，实现博客访问量记录相关推荐

如何在 CSDN 中增加博客访问量史上最简单的博客教程学会之后博客访问量直线上升。
蹭热度如何蹭是问题.下面分几点你发布的有关技术是什么你发布的是否是别人发布过的东西你发布的东西在别人是怎样搜索的. 其实重点在流量,也就是点击.点击到位了,无论你文章来自哪里,或者说抄自哪里, ...
用python刷网页浏览量_python爬虫刷博客访问量教程一：直接请求
import requests import time import random # 随机获取浏览器标识 def get_UA(): UA_list = [ "Mozilla/5.0 (L ...
【爬虫+数据可视化】Python爬取CSDN博客访问量数据并绘制成柱状图
以下内容为本人原创,欢迎大家观看学习,禁止用于商业及非法用途,谢谢合作! ·作者:@Yhen ·原文网站:CSDN ·原文链接:https://blog.csdn.net/Yhen1/article/ ...
python爬虫设计刷博客访问量（刷访问量，赞，爬取图片）
分享一下我老师大神的人工智能教程!零基础,通俗易懂!http://blog.csdn.net/jiangjunshow 也欢迎大家转载本篇文章.分享知识,造福人民,实现我们中华民族伟大复兴! 需要准备 ...
java 模拟登陆exe_Java简单模拟登陆和爬虫实例---博客园老牛大讲堂
鉴于有人说讲的不清楚,我这里再详细补充一下:更新日期:2017-11-23 本片文章适合初学者,只简单说了一下爬虫怎么用,和一个简单的小实例.不适合你的就可以不看了.----博客园老牛大讲堂 1.什么 ...
【流量】一觉醒来发现CSDN博客访问量增加十倍！原来是这个原因
想必点击来的同学都是想提高自己博文访问量的,而具体的方法相信你已经掌握了,此时我的博客访问量+1 咳咳,这样写就真的太扯淡了,毕竟咱也是搞技术的,虽然现在是流量之上,但是CSDN毕竟还是一个技术社区嘛 ...
每天定时查询CSDN博客访问量，并通过echarts进行展示
效果展示 Github链接:https://github.com/qushencn/springboot Csdn下载链接:https://download.csdn.net/download/wei ...
不知不觉，二哥 CSDN 博客访问量破 1000 万了，这个成绩，全网也没几个吧？
不知不觉,二哥 CSDN 博客访问量破 1000 万了,这个成绩,全网也没几个吧? 虽然CSDN 被很多人鄙视过,二哥甚至也发过牢骚,但滴水之恩,当涌泉相报!二哥是从这里出发的,那就应该更加深爱着这个 ...
开通CSDN博客。记录对magento 105se模版的修改。以防以后忘记
开通CSDN博客.记录对magento 105se模版的修改.仅仅为了以防以后忘记现在se105模版已经很流行了.以前2500块一套的模版,现在基本上都免费了. 如果有需要的朋友,可以联系我.我免费 ...

简单CSDN爬虫，实现博客访问量记录

简单CSDN爬虫，实现博客访问量记录相关推荐

最新文章

热门文章