爬取自己博客的访问量,积分,排名的信息

学python不久,前一个月看见了一篇爬取csdn的文章,一直想自己试试,今天总算完成了一个比较low的版本了吧

from requests import *
import os
import time
from bs4 import BeautifulSoup
try:headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.103 Safari/537.36'}#headers伪装成浏览器访问url = "http://blog.csdn.net/bestsort"r = get(url = url,headers = headers,timeout = 3)if r.status_code != 200:print("爬取失败\n")else:for Time in range(5,0,-1):#这里因为不知道怎么调整光标位置和删除,所以直接用cls清屏然后重新打印了html = r.textsoup = BeautifulSoup(html, "html.parser")items = soup.find_all('div',attrs={'class':'gradeAndbadge gradewidths'})#查看csdn源码发现我们需要的信息都在这个gradeAndbadge gradewidths里面print(soup.find('a',attrs={'href':'http://blog.csdn.net/bestsort'}).string)#这个是我们的博客名信息for i in items:items = str(i.find_all('span'))print(items.replace('</span>','').replace('<span>','').replace(', <span class="num odd-overhidden">',''))# 这里因为博主比较Low不会用正则匹配,就暴力转化为str然后删除指定字符串了print('系统将在 %d秒 后自动退出' %Time)time.sleep(1)Time -= 1s = os.system('cls')except:print('抓取失败')time.sleep(3)

转载于:https://www.cnblogs.com/bestsort/p/10588900.html

爬取自己的csdn访问排名信息相关推荐

  1. 【爬虫】爬取我的CSDN中的信息

    爬取博客标题 from urllib import request from lxml import etree page=1 total=0 while page<=2:request_url ...

  2. (爬取猫眼电影TOP100的电影信息(含图片、评分等))

    爬取猫眼电影TOP100的电影信息(含图片.评分等) 让我们直接进入正题 1.导入需要的库 2.获取页面 3.分析页面 4.保存文件 全部代码 让我们直接进入正题 对猫眼电影的网站进行分析 其链接为: ...

  3. 中国大学排名python爬虫_Python爬虫入门实例三之爬取软科中国大学排名

    写在前面 这个例子是笔者今天在中国大学MOOC(嵩天 北京理工大学)上学习的时候写下来的.但是很快写完之后我就发现不对劲,首先课程给的例子是中国好大学网站的排名,但是现在这个网站已经重构了,原来的链接 ...

  4. 五十七、爬取链家网北京二手房信息,并进行线性回归建模

    @Author : By Runsen @Date:2020/5/31 作者介绍:Runsen目前大三下学期,专业化学工程与工艺,大学沉迷日语,Python, Java和一系列数据分析软件.导致翘课严 ...

  5. Python爬取马蜂窝-推荐小众城市旅游及爬取某一城市的景点信息和游记信息

    目的: 推荐小众城市旅游及爬取某一城市的景点信息和游记信息. 第一部分 首先从目的地页面获得各省专属5位数字编号,之后进入各省城市列表获得热门城市专属5位数字编号. 1.获得直辖市编号和热门省编号,h ...

  6. 北京房租到底有多高? | 爬取北京海淀区一居室租房信息

    图片来源:花瓣网 文章来源 人工智能与大数据生活 如需转载,请联系原作者授权 最近北京房租成了热门话题,到底北京的房租有多高? 本次实战是爬取北京海淀区一居室的租房信息,共爬取了300套房源信息,看一 ...

  7. python爬房源信息_用python爬取链家网的二手房信息

    题外话:这几天用python做题,算是有头有尾地完成了.这两天会抽空把我的思路和方法,还有代码贴出来,供python的初学者参考.我python的实战经历不多,所以代码也是简单易懂的那种.当然过程中还 ...

  8. 使用python爬取猎聘网的职位信息

    闲来无事,就像看看现在各个行业找工作的情况,写了个简单的爬虫,爬取猎聘网的职位信息. 话不多说,直接上代码. #-*- coding:utf-8 -*- # 抓取猎聘的职位 import time i ...

  9. Python爬取豆瓣电影top250的电影信息

    Python爬取豆瓣电影top250的电影信息 前言 一.简介 二.实例源码展示 小结 前言 相信很多小伙伴在学习网络爬虫时,老师们会举一些实例案例讲解爬虫知识,本文介绍的就是经典爬虫实际案例–爬取豆 ...

  10. 使用python+Selenium动态爬取《率土之滨》藏宝阁账号信息

    目录 准备工具python + Selenium 使用Selenium打开<率土之滨>藏宝阁主页 爬取第一个商品的信息 收集武将数量,战法数量,宝物数量 收集价格.收藏人数.客户端类型.典 ...

最新文章

  1. nginx大量TIME_WAIT的解决办法(转载)
  2. Mybatis与Spring整合之配置文件方式
  3. Spring-- ApplicationContext
  4. SAP 电商云 Spartacus UI 如何自定义 SeoMetaService
  5. 如何安装mysql5.5.6_centos6安装mysql5.5.53
  6. Mongoose 数据校验
  7. ListView的adapter中getView方法一直调用
  8. 虚短虚断以及部分运放电路
  9. 香港科大研发出Germagic杀菌涂层,可杀灭新冠病毒
  10. 安路FPGA学习之有趣的下载方式
  11. sql怎么撤回update_如何写好5000行的SQL代码
  12. 数据之道读书笔记-03差异化的企业数据分类管理框架
  13. IO复用模型同步,异步,阻塞,非阻塞及实例详解
  14. 扒站,仿站,下载网页,工具,软件,神器,无脑傻瓜版,一键操作
  15. 什么是 “并查集” ?
  16. php网页源码财务管理系统mysql数据库web结构html布局
  17. 舵机的问与答及故障分析
  18. 有效降低医院网站改版对SEO的影响
  19. 【ICLR 2022】 10篇机器学习研究论文推荐
  20. 基于神经网络的模式识别

热门文章

  1. day 4 基本数据类型/list列表的操作/元组/range数数
  2. 为何AI也学会了种族和性别歧视?
  3. 通过字符创调用接口中实现类的方法,SpringBean自动注入,
  4. Ubuntu 14 中给 APACHE2安装 SSL 模块 Enable SSL site on Ubuntu 14 LTS, Apache 2.4.7:
  5. 细说Oracle11g RAC的IP地址
  6. 基于jsp+servlet图书管理系统之后台用户信息修改操作
  7. AsnycTask的内部的实现机制
  8. C# 全局唯一标识符 (GUID)
  9. 学完Linux之后学什么语言,学习C语言一段时间后我们能做什么?
  10. yum安装php解析,详解Centos下YUM安装PHP的两种方式