如何爬取《破冰行动》豆瓣短评

1 前言
2 准备条件
3 Python实现
- 3.1 导入库
- 3.2 评论爬取
- 3.3 评分
- 3.4 有用人数
- 3.5 评论时间
- 3.6 用户首页网址
- 3.7 拼接成数据框
- 3.8 翻页功能的实现
4 封装成整体进行数据爬取
- 4.1 往list里面逐个添加元素
- 4.2 两个list直接相加
- 4.3 主代码
- 4.4 拼接成数据框
- 4.5 导出
5 读入数据-补充爬取用户首页信息
- 5.1 读入数据
- 5.2 地址
- 5.3 加入时间
- 5.4 批量爬取
- 5.5 测试demo
- 5.6 将数据添加到原有数据框
参考

1 前言

最近有需求要爬取《破冰行动》豆瓣短评，已经爬取ok，现在记录总结一下~

2 准备条件

本篇博客使用Python的selenium库实现数据的爬取，需要准备的环境和工具有：

anaconda套件，推荐使用jupyter工具来写代码以及整理。
三件套：Google浏览器 + xpath插件 + chromedriver
愉快地爬数据！

1、xpath插件的安装

在谷歌浏览器打开应用商店进行安装，如果打开不ok 就使用自己加载的方式
xpath文件
在windows电脑安装可能会出现一些错误，可以参考这篇链接进行解决：https://blog.csdn.net/wst0717/article/details/88867047

2、chromedriver下载及放置的位置

下载链接：http://chromedriver.chromium.org/downloads
根据自己Google浏览器版本选择相应的chromedriver版本即可！
下载ok之后解压放置到anaconda的scripts文件夹下！【可以自启动 chrome 然后无需设置路径】

3 Python实现

先说一下爬取过程中遇到的坑以及如何解决：

第一个坑：必须登录，不然只能爬取11页
第二个坑登录状态下也只能爬取25页即500条短评！

下面展示具体代码过程：

3.1 导入库

常规操作

# 导入相应的模块
import time
import pandas as pd
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium import webdriver

注：需要先安装库selenium！

方法1：在cmd窗口输入 pip install selenium
方法2：在jupyter直接安装 !pip install selenium

!pip install selenium

Requirement already satisfied: selenium in /Users/apple/anaconda3/lib/python3.6/site-packages (3.141.0)
Requirement already satisfied: urllib3 in /Users/apple/anaconda3/lib/python3.6/site-packages (from selenium) (1.21.1)
[33mYou are using pip version 19.0.3, however version 19.1.1 is available.
You should consider upgrading via the 'pip install --upgrade pip' command.[0m

# 1 启动浏览器
driver = webdriver.Chrome() # 因为放到了scripts文件夹下 所以不用指定位置了！
driver.get('https://movie.douban.com/subject/27052168/comments?status=P')

3.2 评论爬取

列表表达式：

a = list(range(10))
a

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

现在要对每个元素加1，有两种方法

# 方法1 循环遍历
for j in a:a[j] = a[j] + 1
a

[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]

# 方法2 列表表达式
a = [x+1 for x in a]
a

[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]

comments = driver.find_elements_by_xpath("//div[@class='comment']/p/span[@class='short']")
all_commons = [c.text for c in comments]
all_commons

['终于看到一部实实在在的缉毒剧了，那种披着正剧外衣谈恋爱的真的接受无能！','罪案剧让观众忍不住按快进键是最大的失败。','以汕尾博社村为原型改编的，当初这个仅仅1.4万人口，占地才20多平方公里的小村子，有着18个特大制毒团伙，77个制毒工厂，整个博社村在生产最高峰的时候冰毒产量占了全国的40%，想想真是太恐怖了。政府为了彻底地清剿掉这个毒品窝点，出动了武警3000多名，甚至还出动了海警和空警，三位一体式围剿，终于彻底端掉了这个毒品窝。最近最期待的是这部剧，有吴刚、王劲松、任达华这三个戏骨，期待值简直就是要满分。','一般，中规中矩，没什么新意。前两集已经出现不少基本警务bug了。我想问下那些打五星还说什么画面电影质感的人，你们指的电影是地道战那种吗？说剧情紧张充满悬疑的你们是没看过美剧嘛？一眼就能猜出正反派的片子哪来的悬疑。','太久没这种缉毒刑侦题材了，还挺新鲜。不会用叙事和影像做悬念，线索和各利益关系的交代也不利索，看起来干巴巴的。年轻演员愣头青，老演员脸谱化得不行，还是《人民的名义》那种演法——各部门请注意，镜头推上去，我要表演内心戏了——根本没法和强动作性的剧情调性相匹配。主创可能没看过《法国缉毒网》，即便是《毒战》，学到点皮毛，也不会拍成这德性。这种题材，要不往写实拍，要不把职业性拍地特别酷炫，位于这二者之间，最尴尬。','这个题材的剧真的太喜欢了，我要吹爆这神仙阵容，第一集无敌了太燃太炸太刺激了，打戏看得我惊心动魄超级过瘾，不敢相信这个演李飞的演员居然就是红海行动的顾顺进步真的好大，等着各位老戏骨 飙戏','扫毒版《人民的名义》。剧情迅猛推进，一环套一环。人物关系错综复杂，演员表演也立得住，下了一盘狼人杀。国剧只要尺度能放开，格局也就跟着撑开了。是爽剧，有望成爆款。黄景瑜这种奶凶强悍路线挺准确。','电影质感演员每个毛孔都看的见，一开始就高潮迭起演员演技都不错吴刚老师往那里一站就是戏，黄景瑜也不错看着就是个警察。希望后续不会崩吧冲一冲很多年没看过好看的缉毒剧了。','原来不是我一个人觉得没有男女主存在的必要，演技尴尬，第一集领便当之后，养父亲爹给报仇的设定更好，没有男女主应该能上四星','一直都非常喜欢看这个题材的作品，觉得缉毒警是最值得敬佩的勇士，他们的家人也牺牲很多，刚看觉得还不错，阵容强大，值得期待！','黄景瑜身手挺好啊，打戏太帅了_(:з)∠)_就是这才两集就这么惨，后面可咋整……不过剧情好看，付出也是值得的。','世界上居然有像李飞这样莫名其妙拎不清令人讨厌的男主角……','黄景瑜制服美男诱惑A爆了！让毛孔自由呼吸不作妖的滤镜看着真得劲儿！','陈珂败笔，李飞可有可无，尤其是陈珂，使得有些剧情跟弱智一样，黄景瑜台词跟吴亦凡样，我都怀疑是吴亦凡配音的了，其他的都挺好','这庞大阵容、制作规模、剧本立意本身就赢了，但影片质量依旧槽点满满。 导演：采用老少搭配组合，刘璋牧摄影出身，对影像把握更胜一筹；傅东育，老资历，目前行业中，没办法，必须有老导演来执行，这样制片才能放心。但在成片中，明显感到两种思维冲突，年轻导演精心设计的影像，被老导演最终权剪得分崩离析，在剪辑点的把握上，老导演落伍太多，叙事线影像思维老套，根本不懂怎样在影像基础上配合剪辑节奏。 演员：黄景瑜自从《红海行动》后，人设有了“硬汉”的标签，动作片的邀约团队自然不会放过。这部剧中，动作指导差太多，虽说要符合地方缉毒警人设，但未免差距太大。另外，黄景瑜本身是模特出身，对台词的节奏、气息把握太稚嫩，一有比较长的台词，气息口条就全乱了。（原声好评，在真诚、认真度上就把隔壁小鲜肉们比下去了）','真的是非常棒的国产剧了，从故事到人物，都是不一样的国产警匪剧，不再是好坏分明，而是充满了政治纠纷，明争暗斗，如果只看前面20几集这部剧完全可以给满分，但是，非常非常非常可惜，结局依旧烂尾了，影片后段好像从导演编剧都换掉了，甚至演员也不在闪光，放在当今国产电视剧背景下，只能说，可看。','男女主以一己之力拉低评分也是实在了不起','整体感觉还是很精彩的，黄景瑜资源居然这么好，班底太强大，就是女主居然配音，而且是很尬的配音。','剧情跌宕起伏反转再反转 一众大咖在线飙戏 好久没看过那么大制作的正剧了 拍出了电影既视感今年最硬正剧预定 PS：黄景瑜真的太适合演警察了（我果然还是颜控）','好看目前最喜欢李局马局水伯不喜欢陈珂 黄景瑜还需要锻炼']

3.3 评分

列表表达式：

all_score = driver.find_elements_by_xpath("//div[@class='comment']/h3/span[@class='comment-info']/span[2]")
score = [x.get_attribute('title') for x in all_score]
score

['力荐','还行','推荐','还行','较差','推荐','推荐','力荐','还行','推荐','推荐','还行','还行','还行','还行','推荐','还行','推荐','力荐','推荐']

循环

all_score = driver.find_elements_by_xpath("//div[@class='comment']/h3/span[@class='comment-info']/span[2]")
score = []
for x in all_score:score.append(x.get_attribute('title'))
score

['力荐','还行','推荐','还行','较差','推荐','推荐','力荐','还行','推荐','推荐','还行','还行','还行','还行','推荐','还行','推荐','力荐','推荐']

3.4 有用人数

num_useful = driver.find_elements_by_xpath("//div[@class='comment']/h3/span[@class='comment-vote']/span[@class='votes']")
num_useful = [int(num.text) for num in num_useful]
num_useful

[2356,4523,2542,1553,1091,1969,1755,1234,946,627,292,692,361,234,132,0,80,174,856,101]

3.5 评论时间

times = driver.find_elements_by_xpath("//div[@class='comment']/h3/span[@class='comment-info']/span[@class='comment-time ']")
time_com = [x.text for x in times]
time_com

['2019-05-07','2019-05-11','2019-05-07','2019-05-08','2019-05-07','2019-05-07','2019-05-08','2019-05-07','2019-05-22','2019-05-07','2019-05-07','2019-05-23','2019-05-09','2019-05-16','2019-05-12','2019-05-07','2019-05-24','2019-05-07','2019-05-07','2019-05-08']

3.6 用户首页网址

links = driver.find_elements_by_xpath("//div[@id='comments']/div[@class='comment-item']/div[@class='avatar']/a")
link = [x.get_attribute('href') for x in links]
link

['https://www.douban.com/people/155841956/','https://www.douban.com/people/34011099/','https://www.douban.com/people/74196076/','https://www.douban.com/people/131496196/','https://www.douban.com/people/afeidemimi/','https://www.douban.com/people/161423939/','https://www.douban.com/people/juwujian/','https://www.douban.com/people/159336357/','https://www.douban.com/people/59958082/','https://www.douban.com/people/73056364/','https://www.douban.com/people/3853064/','https://www.douban.com/people/minglang11/','https://www.douban.com/people/121108591/','https://www.douban.com/people/152291838/','https://www.douban.com/people/zheng-jia-cheng/','https://www.douban.com/people/181134846/','https://www.douban.com/people/104519594/','https://www.douban.com/people/Edwin-Zhang/','https://www.douban.com/people/153966583/','https://www.douban.com/people/183890484/']

3.7 拼接成数据框

df = pd.DataFrame({'comment':all_commons,'score':score,'num_useful':num_useful,'time':time_com,'link':link})
print(df.shape)
df.head()

(20, 5)

	comment	score	num_useful	time	link
0	终于看到一部实实在在的缉毒剧了，那种披着正剧外衣谈恋爱的真的接受无能！	力荐	2356	2019-05-07	https://www.douban.com/people/155841956/
1	罪案剧让观众忍不住按快进键是最大的失败。	还行	4523	2019-05-11	https://www.douban.com/people/34011099/
2	以汕尾博社村为原型改编的，当初这个仅仅1.4万人口，占地才20多平方公里的小村子，有着18个...	推荐	2542	2019-05-07	https://www.douban.com/people/74196076/
3	一般，中规中矩，没什么新意。前两集已经出现不少基本警务bug了。我想问下那些打五星还说什么画...	还行	1553	2019-05-08	https://www.douban.com/people/131496196/
4	太久没这种缉毒刑侦题材了，还挺新鲜。不会用叙事和影像做悬念，线索和各利益关系的交代也不利索，...	较差	1091	2019-05-07	https://www.douban.com/people/afeidemimi/

3.8 翻页功能的实现

上面用到了两个获取selenium的内容的方式：

.tetx
get_attribute

现在增加一个 click 实现点击

而且是一个元素所以不用加s 直接find_element_by_xpath

button = driver.find_element_by_xpath("//div[@id='comments']/div[@id='paginator']/a[@class='next']")
button.click()

4 封装成整体进行数据爬取

[] + ['a', 'b', 'c']

['a', 'b', 'c']

代码逻辑：

一页信息爬取ok 每个存到list
翻页
继续爬取本页信息继续添加到上面的list
循环终止条件

4.1 往list里面逐个添加元素

a = list(range(10))
a

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

for j in range(10,20):a.append(j)
a

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19]

4.2 两个list直接相加

a = list(range(10))
b = list(range(10,20))
print(a + b)
print(b + a)

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19]
[10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

4.3 主代码

print('开始爬取数据')
t0 = time.time()# 1 启动浏览器
driver = webdriver.Chrome()
driver.get('https://movie.douban.com/subject/27052168/comments?status=P')# 登录 如果不登录账号只能爬取11页 所以一开始进行登录
time.sleep(10)# 定义需要的变量
all_commons = []
score = []
num_useful = []
time_com = []
link = []# 循环遍历爬取
'''
思路1：直接循环 没有拼接网址 点击下一页！最后发现问题：只能爬25页 所以到最后一页 没有下一页选项了
思路2：发现了网页规律 直接拼接网址！
'''pages = 3 # 应该是25页 3页作为示例
for i in range(pages):# 拼接网址url = "https://movie.douban.com/subject/27052168/comments?start=%d&limit=20&sort=new_score&status=P" % (20*i)driver.get(url)t2 = time.time()# 2 信息爬取## 2.1 评论comments = driver.find_elements_by_xpath("//div[@class='comment']/p/span[@class='short']")all_commons += [c.text for c in comments]## 2.2 评分all_score = driver.find_elements_by_xpath("//div[@class='comment']/h3/span[@class='comment-info']/span[2]")score = [x.get_attribute('title') for x in all_score]## 2.3 有用人数num_usefuls = driver.find_elements_by_xpath("//div[@class='comment']/h3/span[@class='comment-vote']/span[@class='votes']")num_useful += ([int(num.text) for num in num_usefuls])## 2.4 评论时间times = driver.find_elements_by_xpath("//div[@class='comment']/h3/span[@class='comment-info']/span[@class='comment-time ']")time_com += [x.text for x in times]## 2.5 用户首页网址links = driver.find_elements_by_xpath("//div[@id='comments']/div[@class='comment-item']/div[@class='avatar']/a")link += [x.get_attribute('href') for x in links]# 作用：等待某一个元素出现 如果不出现等30秒 不行就报错了！智能等待！
#     element = WebDriverWait(driver, 30).until(lambda x: x.find_element_by_xpath("//div[@id='comments']/div[@id='paginator']/a[@class='next']"))# 3 点击下一页 之前的思路！
#     button = driver.find_element_by_xpath("//div[@id='comments']/div[@id='paginator']/a[@class='next']")
#     button.click()t3 = time.time()print('第 %d 页信息爬取ok 所需时间为 %.2f s' % (i+1, t3 - t2))# 休息几秒
#     time.sleep(5)t1 = time.time()
print('爬虫结束，页数为 %d 所需时间为 %.2f s ' % (pages, t1-t0))

开始爬取数据
第 1 页信息爬取ok 所需时间为 0.89 s
第 2 页信息爬取ok 所需时间为 0.90 s
第 3 页信息爬取ok 所需时间为 0.91 s
爬虫结束，页数为 3 所需时间为 18.57 s

4.4 拼接成数据框

# 拼接成数据框
df_0_24 = pd.DataFrame({'comment':all_commons,'score':score,'num_useful':num_useful,'time':time_com,'link':link})

df_0_24.shape

(500, 5)

df_0_24.head()

	comment	score	num_useful	time	link
0	以汕尾博社村为原型改编的，当初这个仅仅1.4万人口，占地才20多平方公里的小村子，有着18个...	推荐	2542	2019-05-07	https://www.douban.com/people/74196076/
1	罪案剧让观众忍不住按快进键是最大的失败。	还行	4520	2019-05-11	https://www.douban.com/people/34011099/
2	一般，中规中矩，没什么新意。前两集已经出现不少基本警务bug了。我想问下那些打五星还说什么画...	还行	1552	2019-05-08	https://www.douban.com/people/131496196/
3	这个题材的剧真的太喜欢了，我要吹爆这神仙阵容，第一集无敌了太燃太炸太刺激了，打戏看得我惊心动...	推荐	1969	2019-05-07	https://www.douban.com/people/161423939/
4	太久没这种缉毒刑侦题材了，还挺新鲜。不会用叙事和影像做悬念，线索和各利益关系的交代也不利索，...	较差	1091	2019-05-07	https://www.douban.com/people/afeidemimi/

4.5 导出

df_0_24.to_csv('Thunder_data.csv', encoding='utf-8', index=False, quoting=1)

df_0_24['time'].max()

'2019-07-11'

df_0_24['time'].min()

'2019-05-07'

5 读入数据-补充爬取用户首页信息

5.1 读入数据

df = pd.read_csv('Thunder_data.csv')
print(df.shape)
df.head()

(500, 5)

	comment	score	num_useful	time	link
0	以汕尾博社村为原型改编的，当初这个仅仅1.4万人口，占地才20多平方公里的小村子，有着18个...	推荐	2542	2019-05-07	https://www.douban.com/people/74196076/
1	罪案剧让观众忍不住按快进键是最大的失败。	还行	4520	2019-05-11	https://www.douban.com/people/34011099/
2	一般，中规中矩，没什么新意。前两集已经出现不少基本警务bug了。我想问下那些打五星还说什么画...	还行	1552	2019-05-08	https://www.douban.com/people/131496196/
3	这个题材的剧真的太喜欢了，我要吹爆这神仙阵容，第一集无敌了太燃太炸太刺激了，打戏看得我惊心动...	推荐	1969	2019-05-07	https://www.douban.com/people/161423939/
4	太久没这种缉毒刑侦题材了，还挺新鲜。不会用叙事和影像做悬念，线索和各利益关系的交代也不利索，...	较差	1091	2019-05-07	https://www.douban.com/people/afeidemimi/

# 1 启动浏览器
driver = webdriver.Chrome()
driver.get(df['link'][0])

5.2 地址

locations = driver.find_element_by_xpath("//div[@class='basic-info']/div[@class='user-info']/a")
location = locations.text
location

'广东深圳'

5.3 加入时间

time_user_joins = driver.find_element_by_xpath("//div[@class='basic-info']/div[@class='user-info']/div[@class='pl']")
time_user_join = time_user_joins.text.split('\n')[1]
time_user_join

'2013-06-20加入'

5.4 批量爬取

t0_all = time.time()
# 1 启动浏览器
driver = webdriver.Chrome()
driver.get('https://movie.douban.com/')# 登录一下
# time.sleep(10)# 定义变量
location = []
time_user_join = []num_user = 3 # 应该是len(df) 5页爬取作为示例for i in range(num_user):t0 = time.time()# 2 定位到每个用户的首页网址url = df['link'][i]driver.get(df['link'][i])# 3 爬取信息# 3.1 爬取地址try:locations = driver.find_element_by_xpath("//div[@class='basic-info']/div[@class='user-info']/a")location.append(locations.text)except Exception as e:print(e)location.append('未知')# 3.2 加入时间time_user_joins = driver.find_element_by_xpath("//div[@class='basic-info']/div[@class='user-info']/div[@class='pl']")time_user_join.append(time_user_joins.text.split('\n')[1])t1 = time.time()print('第%d个用户首页信息爬取ok 所需时间为 %.2f s' % (i+1, t1-t0))time.sleep(3)t1_all = time.time()
print(' %d 用户信息爬取ok 所需时间为 %.2f s ' % (num_user, t1_all-t0_all))

第1个用户首页信息爬取ok 所需时间为 3.62 s
Message: no such element: Unable to locate element: {"method":"xpath","selector":"//div[@class='basic-info']/div[@class='user-info']/a"}(Session info: chrome=75.0.3770.142)第2个用户首页信息爬取ok 所需时间为 1.19 s
第3个用户首页信息爬取ok 所需时间为 3.26 s3 用户信息爬取ok 所需时间为 23.06 s

5.5 测试demo

print(len(location))
print(len(time_user_join))

500
500

print((location[:5]))
print((time_user_join[:5]))

['广东深圳', '未知', '未知', '未知', '四川成都']
['2013-06-20加入', '2010-01-28加入', '2015-07-16加入', '2017-05-15加入', '2011-12-02加入']

5.6 将数据添加到原有数据框

import copy
df_2 = copy.deepcopy(df)
df_2['location'] = location
df_2['time_user_join'] = time_user_join
print(df_2.shape)
df_2.head()

(500, 7)

	comment	score	num_useful	time	link	location	time_user_join
0	以汕尾博社村为原型改编的，当初这个仅仅1.4万人口，占地才20多平方公里的小村子，有着18个...	推荐	2542	2019-05-07	https://www.douban.com/people/74196076/	广东深圳	2013-06-20加入
1	罪案剧让观众忍不住按快进键是最大的失败。	还行	4520	2019-05-11	https://www.douban.com/people/34011099/	未知	2010-01-28加入
2	一般，中规中矩，没什么新意。前两集已经出现不少基本警务bug了。我想问下那些打五星还说什么画...	还行	1552	2019-05-08	https://www.douban.com/people/131496196/	未知	2015-07-16加入
3	这个题材的剧真的太喜欢了，我要吹爆这神仙阵容，第一集无敌了太燃太炸太刺激了，打戏看得我惊心动...	推荐	1969	2019-05-07	https://www.douban.com/people/161423939/	未知	2017-05-15加入
4	太久没这种缉毒刑侦题材了，还挺新鲜。不会用叙事和影像做悬念，线索和各利益关系的交代也不利索，...	较差	1091	2019-05-07	https://www.douban.com/people/afeidemimi/	四川成都	2011-12-02加入

df_2.to_csv('douban_comment.csv', index=False, encoding='utf-8', quoting=1)

参考

爬虫 | selenium动态爬取美团商家图片
Python | 编辑器推荐：Jupyter
https://blog.csdn.net/qq_27782503/article/details/93140112
Selenium - 元素等待与智能等待
主流视频网站弹幕下载

爬虫 |《破冰行动》豆瓣短评爬取相关推荐

Python爬虫入门之豆瓣短评爬取
采用工具pyCharm,python3,工具的安装在这就不多说了,之所以采用python3是因为python2只更新维护到2020年. 新建python项目 File-Settings-project ...
《恶魔人crybaby》豆瓣短评爬取
作业要求来源:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3159 爬虫综合大作业选择一个热点或者你感兴趣的主题. 选择爬取的对象 ...
python怎么爬取电影海报_Python 爬虫“王者”：豆瓣海报爬取
我这里就以女神王祖贤的海报来作为例子. 翻页分析在豆瓣电影中搜索"王祖贤",进入王祖贤主页后,点击全部影人图片,进入到影人图片页面. 在该页面点击下一页,可以看到浏览器的 URL ...
Python 爬虫“王者”：豆瓣海报爬取
我这里就以女神王祖贤的海报来作为例子. 翻页分析在豆瓣电影中搜索"王祖贤",进入王祖贤主页后,点击全部影人图片,进入到影人图片页面. 在该页面点击下一页,可以看到浏览器的 URL ...
⚡豆瓣告诉你《扫黑风暴》如何【短评爬取+词云】 ⚡
⚡豆瓣告诉你<扫黑风暴>如何[短评爬取+词云] ⚡ 一.前言二.环境准备三.具体实现 1.短评获取并保存 2.词云制作 3 成果四.最后 ⚡豆瓣告诉你<扫黑风暴>如何[短 ...
Python爬虫开源项目代码（爬取微信、淘宝、豆瓣、知乎、新浪微博、QQ、去哪网等等）...
文章目录 1.简介 2.开源项目Github 2.1.WechatSogou [1]– 微信公众号爬虫 2.2.DouBanSpider [2]– 豆瓣读书爬虫 2.3.zhihu_spider [3 ...
python爬取豆瓣电影信息可行性分析_Python爬虫实现的根据分类爬取豆瓣电影信息功能示例...
本文实例讲述了Python爬虫实现的根据分类爬取豆瓣电影信息功能.分享给大家供大家参考,具体如下: 代码的入口:if __name__ == '__main__': main()#! /usr/bin ...
Python爬虫开源项目代码（爬取微信、淘宝、豆瓣、知乎、新浪微博、QQ、去哪网等等）
文章目录 1.简介 2.开源项目Github 2.1.WechatSogou [1]– 微信公众号爬虫 2.2.DouBanSpider [2]– 豆瓣读书爬虫 2.3.zhihu_spider [3 ...
Python爬虫初探（九）——爬虫之Beautifulsoup4实战（爬取豆瓣信息）
前面两章咱们介绍了Beautifuisoup4模块的简单使用,今天就用它来爬取豆瓣信息.话不多说,咱们开始吧. 一.拿到url地址二.获取豆瓣数据三.保存文件需求: 爬取标题.评分.详情页的地址 ...

爬虫 |《破冰行动》豆瓣短评爬取