Python爬虫学习3----xpath爬取哔哩哔哩排行榜
爬取哔哩哔哩月排行榜,并输出csv格式文件。
import requests
import lxml.html
import csvsource = requests.get('https://www.bilibili.com/ranking/all/0/0/30').content.decode('utf-8')
selector = lxml.html.fromstring(source)
items = selector.xpath('//ul[@class="rank-list"]/li')
item_dict_list = []
for item in items:video_ranking = item.xpath('div[@class="num"]/text()')[0]video_name = item.xpath('div[@class="content"]/div[@class="info"]/a/text()')[0]#normalize-space 去掉\r\n\tvideo_view_counts = item.xpath('normalize-space(div[@class="content"]/div[@class="info"]/div[@class="detail"]/span[1]/text())')video_comments_counts = item.xpath('normalize-space(div[@class="content"]/div[@class="info"]/div[@class="detail"]/span[2]/text())')video_composite_scores = item.xpath('div[@class="content"]/div[@class="info"]/div[@class="pts"]/div/text()')[0]video_url = item.xpath('div[@class="content"]/div[@class="info"]/a/@href')[0]item_dict = {'video_ranking':video_ranking,'video_name': video_name,'video_view_counts': video_view_counts,'video_comments_counts': video_comments_counts,'video_composite_scores': video_composite_scores,'video_url':video_url}item_dict_list.append(item_dict)
with open('E:\\哔哩哔哩月排行.csv','w',encoding='utf-8-sig',newline='') as f:writer = csv.DictWriter(f,fieldnames=['video_ranking','video_name','video_view_counts','video_comments_counts','video_composite_scores','video_url'])writer.writeheader()writer.writerows(item_dict_list)
Python爬虫学习3----xpath爬取哔哩哔哩排行榜相关推荐
- python爬虫学习 之 定向爬取 淘宝商品价格
python爬虫学习 之 定向爬取 淘宝商品价格 import requests import redef getHTMLText(url):try:r = requests.get(url, tim ...
- Python爬虫如何实用xpath爬取豆瓣音乐
前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取 python免费学习资 ...
- Python爬虫之利用xpath爬取ip代理网站的代理ip
爬虫工具 python3 pycharm edge/chrome requests库的用法 requests库是python中简单易用的HTTP库 用命令行安装第三方库 pip install req ...
- 爬虫爬评书吧_爬虫学习:xpath爬取评书网
在家闲着,想找点评书听,但找了很久都没找到方便打包下载的地方.于是就拿起自学的python爬虫,自己动手丰衣足食. 运行环境:Windows7,python3.7 操作步骤: 1.打开选好的评书主页面 ...
- Python爬虫学习,批量爬取下载抖音视频
这篇文章主要为大家详细介绍了python批量爬取下载抖音视频,具有一定的参考价值,感兴趣的小伙 项目源码展示 ''' 注:如果你对python感兴趣,我这有个学习Python基地,里面有很多学习资料, ...
- python爬取web漫画网站_[Python爬虫学习]利用selenuim爬取漫画网站
注意事项 版本 Python版本为 Python-3.8.3 系统为 Windows10 浏览器为 Firefox-77.0 前置 \(selenium\) \(BeautifulSoup\) \(r ...
- Python爬虫学习---------使用beautifulSoup4爬取名言网
爬取名言网top10标签对应的名言,并存储到mysql中,字段(名言,作者,标签) #! /usr/bin/python3 # -*- coding:utf-8 -*-from urllib.requ ...
- Python 爬虫学习08 将爬取到的数据保存到SQL
import pymssql #引入pymssql模块 import sys from bs4 import BeautifulSoup # 网页解析,获取数据 import re # 正则表达式,进 ...
- python爬虫-----学习bs,爬取丁香园特定帖子的所有回复内容
beautifsoup----爬虫数据挖掘又一大利器 – 安装: conda install beautifulsoup4 或者 pip install beautifulsoup4(这个4代表着bs ...
- 爬虫学习4——Xpath爬取网页信息
xpath是在XML文档中搜索内容的一门语言,我们常见的html是xml的一个子集 目录 安装lxml模块 获取网页数据 text()拿文本 .xpath使用[1]选择同种标签的第一个./a[@hre ...
最新文章
- 微信小程序地图标记点,点击标记点显示详细信息源码加效果图
- 英语语法总结--连词
- 关于Azure存储账户中存储虚拟机VHD文件的注意事项
- sqoop2从hdfs导入mysql_sqoop2相关实例:hdfs和mysql互相导入(转)
- BZOJ 1951: [Sdoi2010]古代猪文 [Lucas定理 中国剩余定理]
- 确保对象的唯一性——单例模式
- SAP Spartacus 升级时关于 schematics 的更新
- 我计划搞直播了,欢迎来一起聊一聊
- 转换json_使用Java将JSON转换为POJO
- 特朗普前竞选经理犯罪证据曝光,竟是因不会 PDF 转换!
- c语言单片机循环程序,单片机c语言教程:C51循环语句
- 阿里云Linux服务器Tomcat9.0的安装及配置
- 申宝公司-两利好提振股市
- 使用pinyin4j完成中文拼音转换
- linux下分配磁盘空间,linux如何分配磁盘空间
- surface哪些可以升级win11
- 郭靖大侠的IT为学之路
- App通过(后台返回apk链接)下载apk并且安装
- 权限系统的设计模式 ACL RBAC ABAC
- unity3d摄像机