简单CSDN爬虫,实现博客访问量记录
看到别人用Java写了一个CSDN爬虫,监控访问量。
看完之后就写了一个Python的。
Python小白,代码有点垃圾,大神莫喷。
要爬CSDN,首先要学会违装成浏览器。
再用正则表达式就可以了。
先上效果图:
思路:
首先爬取目前的访问量,积分和排名,然后写到文件。访问量增加情况要保存上一次的访问量,相减就可以了
。
架构:
在当前目录新建一个Data文件夹,用于保存数据
在在下面建一个rank的文件夹,用于记录每一天的具体访问情况
还有有个last.txt文件,用于保存上一次的访问量。
在在rank文件夹下面建文件,保存每天的访问记录。
下面直接上代码吧:
#coding=utf-8
import time,urllib2,re,os,thread,time,datetime
def fun():headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.57 Safari/537.36'}req = urllib2.Request('http://blog.csdn.net/hurmishine?viewmode=contents', headers=headers)response = urllib2.urlopen(req)html = response.read()#print htmlvisitcount = r'<li>访问:<span>(\d+)次</span></li>' cnt=re.findall(visitcount,html);print cnt[0]times=int(cnt[0])visitcount = r' <li>积分:<span>(\d+)</span> </li> ' cnt=re.findall(visitcount,html); #print cnt[0]grade=cnt[0]visitcount = r'<li>排名:<span>第(\d+)名</span></li>'cnt=re.findall(visitcount,html);rankk=cnt[0]#print cnt[0]t = datetime.datetime.now()t=str(t)print t[:-7]today=str(t[:10])t=t[:-7]if os.path.exists('data')==False:os.makedirs('data')File=open('data/last.txt','w')File.write('0')File.close()last = open("data/last.txt").read()#print file.split(',')last_cnt=int(last)#print last_cntif os.path.exists('data/rank')==False:os.makedirs('data/rank')if os.path.exists('data/rank/'+today+'.txt')==False:rank=open('data/rank/'+today+'.txt','w')rank.write('--------------------------------------------------------------\n')rank.write('|时间\t\t\t|访问量\t|积分\t|排名\t|访问量增加 |\n')rank.write('|------------------------------------------------------------|\n')rank.close()if times>=last_cnt+10:File=open('data/last.txt','w+')File.write(str(times))File.close()deta=times-last_cntr=open('data/rank/'+today+'.txt','a')r.write('|'+t+'\t|'+str(times)+'\t|'+grade+'\t|'+rankk+'\t|'+str(deta)+'\t |\n')r.write('|------------------------------------------------------------|\n')r.close()
if __name__=='__main__':while True:fun()time.sleep(1)
代码写好了,每次用IDLE运行不是很方便,那就编译成exe文件吧。
pyInstaller 可以将.py文件编译成.exe文件。
pyInstaller 免积分下载地址:http://download.csdn.net/detail/hurmishine/9672939
其他的地方找不到,CSDN要积分,我上传的就不要积分。
另外还要安装pywin32,那个网上自己找吧。
尊重原创,转载请注明出处:http://blog.csdn.net/hurmishine
简单CSDN爬虫,实现博客访问量记录相关推荐
- 如何在 CSDN 中增加博客访问量 史上最简单的博客教程 学会之后博客访问量直线上升。
蹭热度 如何蹭是问题.下面分几点 你发布的有关技术是什么 你发布的是否是别人发布过的东西 你发布的东西在别人是怎样搜索的. 其实重点在流量,也就是点击.点击到位了,无论你文章来自哪里,或者说抄自哪里, ...
- 用python刷网页浏览量_python爬虫刷博客访问量教程一:直接请求
import requests import time import random # 随机获取浏览器标识 def get_UA(): UA_list = [ "Mozilla/5.0 (L ...
- 【爬虫+数据可视化】Python爬取CSDN博客访问量数据并绘制成柱状图
以下内容为本人原创,欢迎大家观看学习,禁止用于商业及非法用途,谢谢合作! ·作者:@Yhen ·原文网站:CSDN ·原文链接:https://blog.csdn.net/Yhen1/article/ ...
- python爬虫设计刷博客访问量(刷访问量,赞,爬取图片)
分享一下我老师大神的人工智能教程!零基础,通俗易懂!http://blog.csdn.net/jiangjunshow 也欢迎大家转载本篇文章.分享知识,造福人民,实现我们中华民族伟大复兴! 需要准备 ...
- java 模拟登陆exe_Java简单模拟登陆和爬虫实例---博客园老牛大讲堂
鉴于有人说讲的不清楚,我这里再详细补充一下:更新日期:2017-11-23 本片文章适合初学者,只简单说了一下爬虫怎么用,和一个简单的小实例.不适合你的就可以不看了.----博客园老牛大讲堂 1.什么 ...
- 【流量】一觉醒来发现CSDN博客访问量增加十倍!原来是这个原因
想必点击来的同学都是想提高自己博文访问量的,而具体的方法相信你已经掌握了,此时我的博客访问量+1 咳咳,这样写就真的太扯淡了,毕竟咱也是搞技术的,虽然现在是流量之上,但是CSDN毕竟还是一个技术社区嘛 ...
- 每天定时查询CSDN博客访问量,并通过echarts进行展示
效果展示 Github链接:https://github.com/qushencn/springboot Csdn下载链接:https://download.csdn.net/download/wei ...
- 不知不觉,二哥 CSDN 博客访问量破 1000 万了,这个成绩,全网也没几个吧?
不知不觉,二哥 CSDN 博客访问量破 1000 万了,这个成绩,全网也没几个吧? 虽然CSDN 被很多人鄙视过,二哥甚至也发过牢骚,但滴水之恩,当涌泉相报!二哥是从这里出发的,那就应该更加深爱着这个 ...
- 开通CSDN博客。记录对magento 105se模版的修改。以防以后忘记
开通CSDN博客.记录对magento 105se模版的修改.仅仅为了以防以后忘记 现在se105模版已经很流行了.以前2500块一套的模版,现在基本上都免费了. 如果有需要的朋友,可以联系我.我免费 ...
最新文章
- WebApi的安全性及其解决方案
- SpringCloud 在每次使用缓存的请求前后对HystrixRequestContext进行初始化和关闭,否则会出现异常
- java显示临时变量目录默认路径
- nacos 本地测试_Nacos集群配置实例(windows下测试)
- 字符串转换为整数的源码atoi()
- 泛型类 0104 c#
- Linux7安装硬盘显示错误,【原创文章】centos7 badblocks检测硬盘出现Value too large for defined data type错误的原因和解决办法...
- 电商数据分析方法和指标整理
- hash表 C++的使用以及理解
- [软件笔试] 2014暴风影音校招技术笔试题(长春站)
- 先马后看!详解线性回归、朴素贝叶斯、随机森林在R和Python中的实现应用!(附代码)...
- 计算机组成二进制除法,计算机组成原理:3.4.1 定点原码 除法器
- 计算机辅助技术衡量国家,机械计算机辅助技术(CAD)及其发展趋势
- 为什么只有T字型人才实用价值才比较大?
- VS-Code的使用
- 微软一个罕为人知的无敌命令
- 如何选择一款适合自己的医疗险,看保通来详解
- 基于Java实现(PC)民航订票管理系统【100010185】
- 论文翻译[Deep Residual Learning for Image Recognition]
- 第34课:彻底解密Spark 2.1.X中Shuffle 中SortShuffleWriter排序源码内幕解密