实现功能:
查看自己活着别人CSDN中每篇博客的访问量
语言:
Python3.5
用到的库:
requests
re
步骤:
1.找到数据源:找到一个现实所有博客的页面,在一篇博客的右上方可以点击目录查看所有博客的名字和浏览次数。
2.筛选标题:审查元素找到标题对应的位置,观察标题前后的代码,找到规律编写正则表达试。
3.筛选浏览量:同上
4.取数据:爬取页面,用正则表单是匹配标题和浏览量。
5.输出:根据标题对应的访问量输出爬取的内容
结果:
如图


代码

# -*- coding:utf-8 -*-import requests
import reheader = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.11; rv:47.0) Gecko/20100101 Firefox/47.0','Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8','Accept-Language': 'en-US,en;q=0.5','Accept-Encoding': 'gzip, deflate, br'}
#步骤1
html = requests.get('http://blog.csdn.net/boomhankers?viewmode=list',headers = header)
print('结果:',html.status_code)
print('原因:',html.reason)
#步骤2、3
rule1 = 'title="阅读次数">阅读<\/a>\((.*?)\)<\/span>'
rule2 = '<span class="link_title"><a href=".*?">(.*?)</a></span>'
patten1 = re.compile(rule1,re.S)
patten2 = re.compile(rule2,re.S)
#步骤4
tileArray = re.findall(patten2,html.text)
timeArray = re.findall(patten1,html.text)
#步骤5
i = 0
for tile in tileArray:print(tile+": "+timeArray[i])i = i+1

源码地址:点击打开链接

Python爬虫爬取博客访问量相关推荐

  1. 爬虫-爬取博客的演练-首页内容保存-首页文章列表与url

    一,爬取博客的主页 import requestsurl = "https://me.csdn.net/ifubing"# https://blog.csdn.net/ifubin ...

  2. python爬虫设计刷博客访问量(刷访问量,赞,爬取图片)

    分享一下我老师大神的人工智能教程!零基础,通俗易懂!http://blog.csdn.net/jiangjunshow 也欢迎大家转载本篇文章.分享知识,造福人民,实现我们中华民族伟大复兴! 需要准备 ...

  3. python 爬取博客访问量并且统计数据成图

    update by 2018-10-01: 开通了一个公众号,多数文章会围绕python写,有兴趣的朋友可以关注哟! 萌生思路 写了csdn博客已有半年之久了,虽然一直当做笔记记录自己的技术成长,但是 ...

  4. python爬虫爬取安居客并进行简单数据分析

    此篇博客为普通方式爬取安居客租房数据一共提取出1200条,但是在进行大规模的数据爬取时,不建议使用这种方式,速度太慢是最大的诟病,在进行大规模爬取时,使用分布式爬虫是第一选择 爬取过程 一.指定爬取数 ...

  5. python爬虫爬取安居客房源信息

    爬取安居客房源信息 Xpath插件的安装 爬取重庆花溪附近的房源信息(进入正题啦~) 梳理下逻辑 爬取数据的通用流程 代码 代码的问题 & 运行时可能出现的问题 结果 数据处理部分(写给我自己 ...

  6. python 爬虫 博客园_Python爬虫爬取博客园作业

    分析一下他们的代码,我在浏览器中对应位置右键,然后点击检查元素,可以找到对应部分的代码.但是,直接查看当前网页的源码发现,里面并没有对应的代码.我猜测这里是根据服务器上的数据动态生成的这部分代码,所以 ...

  7. python 爬虫可视化编程_Python爬虫爬取博客实现可视化过程解析

    源码: from pyecharts import Bar import re import requests num=0 b=[] for i in range(1,11): link='https ...

  8. python爬取学校题库_如何使用 Python 爬虫爬取牛客网 Java 题库?

    [原文链接]http://www.changxuan.top/?p=146 由于"打怪"失败,最近一直在牛客网上刷题复习备战春招.其中有个 Java专题复习题库,我刷着刷着就想把它 ...

  9. 如何使用 Python 爬虫爬取牛客网 Java 题库?

    [原文链接]http://www.changxuan.top/?p=146 由于"打怪"失败,最近一直在牛客网上刷题复习备战春招.其中有个 Java专题复习题库,我刷着刷着就想把它 ...

最新文章

  1. maven多个web模块进行合并
  2. jedis常用API
  3. LeetCode 678. 有效的括号字符串(栈)
  4. 学习echarts需要先学习java 吗_Echarts和Echarts-java类库简单使用方法
  5. 存到mysql的中文乱码_web项目存数据到数据库,中文乱码,解决过程
  6. 基于Python网络爬虫的设计与实现毕业设计
  7. C/C++编程学习 - 第2周 ③ 反向输出一个三位数
  8. 软件资源版权声明与免责声明
  9. 计算机毕业论文怎样写系统的意义,毕业论文写作的目的意义及步骤-计算机论文...
  10. 学以致用——Java源码——员工薪酬系统功能增强(Payroll System Modification)
  11. 中标麒麟5.0安装(内含安装包)-小白手把手史上最全教程!
  12. GBase 8c发布(一)
  13. 差动直流放大电路仿真 -- 单端输入,双端输入,共模,差模(附Multisim)
  14. 语音翻译成文字的翻译方法
  15. Karamata 不等式
  16. 南京理工大学计算机学院教务,南京理工大学紫金学院教务管理系统入口http://zj.njust.edu.cn/jwc/...
  17. 学了python可以做什么兼职,学python真的能做兼职吗??
  18. 请大lao帮我康康代码(拜托拜托)一元多项式求和的c++代码
  19. 新浪微博api(js|php)
  20. 2023,特斯拉、比亚迪王者之争

热门文章

  1. 具有IE内核的浏览器
  2. 【Proteus仿真】STC15单片机+LCD1602驱动显示时间(DEMO)示例
  3. linux定时关机shutdown,windows定时关机和linux定时关机的方法(shutdown命令)
  4. 区块链安全之交易所测试--信息收集-社会工程学
  5. 邮箱项目学习之二nbsp;IMAP命令学习
  6. 微型计算机从多少年,从世界上第一台电子计算机诞生到现在,电子计算机的发展已经历了哪几个阶段(或称几代),微型计算机的发展...
  7. 职场7种的工作方式方法工具汇总
  8. 环洋市场调研-2021年全球反垄断咨询行业调研及趋势分析报告
  9. Linux主机名和系统内置变量
  10. Python 八荣八耻