python豆瓣250爬取
import requests
from bs4 import BeautifulSoup
from lxml import etree
# qianxiao996精心制作
#博客地址:https://blog.csdn.net/qq_36374896url = "https://movie.douban.com/top250"
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:34.0) Gecko/20100101 Firefox/34.0"
}
def Getbyxml(url):data = requests.get(url,headers = headers).textname = []star_con = []score =[]info = []comment_list = []response = etree.HTML(data)result = response.xpath('/html/body/div[3]/div[1]/div/div[1]/ol/li')for item in result:name_item = item.xpath("./div/div[2]/div[1]/a/span[1]/text()")[0].strip()info_name = item.xpath("./div/div[2]/div[2]/p[1]/text()")[0].strip()score_item = item.xpath("./div/div[2]/div[2]/div/span[2]/text()")[0].strip()star_item = item.xpath("./div/div[2]/div[2]/div/span[4]/text()")[0].strip()try:comment = item.xpath("./div/div[2]/div[2]/p[2]/span/text()")[0].strip()comment_list.append(comment)except:comment_list.append('无')score.append(score_item)name.append(name_item)star_con.append(star_item)info.append(info_name)return name,info,score,star_con,comment_listt=Getbyxml(url)
print(t)
python豆瓣250爬取相关推荐
- [python]豆瓣网爬取图书图片信息教程
[python]豆瓣网爬取图书图片信息教程 1.准备工作:已经爬取了图片的URL,图书的相关信息,以便后期进行标记. 画圈处为图片链接和图书ID(用于匹配图片) 2.定义url数组和id数组 作用同上 ...
- python豆瓣爬虫爬取评论做成词云
前言 前一段时间学校有个project,做一个电影购票系统,当时就用springboot做了系统,用python抓了一些电影的基本信息.后来发现如果把评论做成词云那展示起来不是很酷炫么.于是乎把这个过 ...
- python用bs4爬取豆瓣电影排行榜 Top 250的电影信息和电影图片,分别保存到csv文件和文件夹中
python用bs4爬取豆瓣电影排行榜 Top 250的电影信息和图片,分别保存到csv文件和文件夹中. 爬取的数据包括每个电影的电影名 , 导演 ,演员 ,评分,推荐语,年份,国家,类型. py如果 ...
- python爬取豆瓣电影top250_用Python爬虫实现爬取豆瓣电影Top250
用Python爬虫实现爬取豆瓣电影Top250 #爬取 豆瓣电影Top250 #250个电影 ,分为10个页显示,1页有25个电影 import urllib.request from bs4 imp ...
- python爬虫之xpath和lxml应用—爬取豆瓣评分爬取
python爬虫之豆瓣评分爬取 1 第一步 获取网页源码 2 第二步 获取电影信息 3 第三步 保存数据 4 综合 ''' 需求:爬取电影的名字 评分 引言 详情页的url,每一页都爬取并且把数据保存 ...
- python豆瓣影评_教你用python登陆豆瓣并爬取影评
教你用python登陆豆瓣并爬取影评 一起来 日常学python 这是我的第二篇原创文章 在上篇文章爬取豆瓣电影top250后,想想既然爬了电影,干脆就连影评也爬了,这样可以看看人们评价的电影,再加上 ...
- python爬去百度文库_利用Python语言轻松爬取数据[精品文档]
利用 Python 语言轻松爬取数据 对于小白来说,爬虫可能是一件非常复杂. 技术门槛很高的事情. 比如有人认为学爬虫必须精通 Python ,然后哼哧哼哧系统学习 Python 的每个知识点,很久之 ...
- html登录界面设计代码_Python登录豆瓣并爬取影评
Cookie是为了交互式web而诞生的,它主要用于以下三个方面: 会话状态管理(如用户登录状态.购物车.游戏分数或其它需要记录的信息) 个性化设置(如用户自定义设置.主题等) 浏览器行为跟踪(如跟踪分 ...
- python爬取百度文库_利用Python语言轻松爬取数据
利用 Python 语言轻松爬取数据 对于小白来说,爬虫可能是一件非常复杂. 技术门槛很高的事情. 比如有人认为学爬虫必须精通 Python ,然后哼哧哼哧系统学习 Python 的每个知识点,很久之 ...
- Python爬虫 - scrapy - 爬取妹子图 Lv1
0. 前言 这是一个利用python scrapy框架爬取网站图片的实例,本人也是在学习当中,在这做个记录,也希望能帮到需要的人.爬取妹子图的实例打算分成三部分来写,尝试完善实用性. 系统环境 Sys ...
最新文章
- nginx的详细使用说明(下)
- linux y脚本,Linux中脚本的使用方法
- Php魔术函数学习与应用 __construct() __destruct() __get()等
- java 读取文件 二进制_JAVA中读取文件(二进制,字符)内容的几种方法总结
- Android 应用启动速度优化
- php jquery 实例教程,php jquery 多文件上传简单实例
- linux 命令的高级用法(chmod+find 批量授权)(转载)
- 计算机驱动空间的c盘不足怎么办,C盘磁盘空间不足怎么解决
- ie11无法播放html,IE11无法显示flash?IE11无法播放视频的解决方法
- GWT(Google Web Toolkit)是干嘛用的
- Win7不支持此接口的修复方法
- 第一部分 知己知彼
- OpenGL学习笔记(七)-深度测试-模板测试-混合
- 生活随记 - 老王和老万
- 浅析eBay联盟营销的上下文广告机制
- CentOS 8 安装MySQL(各版本完美解决方案)
- asp.net921旅游博客网站系统
- VNCTF2023-misc方向wp
- 无限互联学习连载六 SVN使用
- Backtrader-Date Feeds之如何加载数据
热门文章
- unity中旋转的总结
- jsdroid 教程_安卓10 ROM编译教程(六):清除编译与更新源码
- C++ sting字符串函数详解
- 7-2 整数的因子 (10 分)
- 实现单片机通过传感器获取信息,并且将信息通过wifi模块发送信息给PC端,并在pyqt5界面上显示(PC端部分)
- ps渐变怎么用和渐变工具技巧
- 《研究生英语科技论文写作》学习笔记
- Python爬虫系列之poizon爬虫newSign、sign、data加解密算法
- b站直播html 延迟弹幕,在B站直播的正确姿势 一步解决弹幕问题
- 计算机配件价格上涨,显卡涨价风声再起 PC配件涨价什么时候是个头