如何爬取《破冰行动》豆瓣短评

  • 1 前言
  • 2 准备条件
  • 3 Python实现
    • 3.1 导入库
    • 3.2 评论爬取
    • 3.3 评分
    • 3.4 有用人数
    • 3.5 评论时间
    • 3.6 用户首页网址
    • 3.7 拼接成数据框
    • 3.8 翻页功能的实现
  • 4 封装成整体进行数据爬取
    • 4.1 往list里面逐个添加元素
    • 4.2 两个list直接相加
    • 4.3 主代码
    • 4.4 拼接成数据框
    • 4.5 导出
  • 5 读入数据-补充爬取用户首页信息
    • 5.1 读入数据
    • 5.2 地址
    • 5.3 加入时间
    • 5.4 批量爬取
    • 5.5 测试demo
    • 5.6 将数据添加到原有数据框
  • 参考

1 前言

最近有需求要爬取《破冰行动》豆瓣短评,已经爬取ok,现在记录总结一下~

2 准备条件

本篇博客使用Python的selenium库实现数据的爬取,需要准备的环境和工具有:

  • anaconda套件,推荐使用jupyter工具来写代码以及整理。
  • 三件套:Google浏览器 + xpath插件 + chromedriver
  • 愉快地爬数据!

1、xpath插件的安装

  • 在谷歌浏览器打开应用商店进行安装,如果打开不ok 就使用自己加载的方式
  • xpath文件
  • 在windows电脑安装可能会出现一些错误,可以参考这篇链接进行解决:https://blog.csdn.net/wst0717/article/details/88867047

2、chromedriver下载及放置的位置

  • 下载链接:http://chromedriver.chromium.org/downloads
  • 根据自己Google浏览器版本选择相应的chromedriver版本即可!

  • 下载ok之后解压放置到anaconda的scripts文件夹下!【可以自启动 chrome 然后无需设置路径】

3 Python实现

先说一下爬取过程中遇到的坑以及如何解决:

  • 第一个坑:必须登录,不然只能爬取11页
  • 第二个坑 登录状态下也只能爬取25页 即500条短评!

下面展示具体代码过程:

3.1 导入库

常规操作

# 导入相应的模块
import time
import pandas as pd
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium import webdriver

注:需要先安装库selenium!

  • 方法1:在cmd窗口输入 pip install selenium
  • 方法2:在jupyter直接安装 !pip install selenium
!pip install selenium
Requirement already satisfied: selenium in /Users/apple/anaconda3/lib/python3.6/site-packages (3.141.0)
Requirement already satisfied: urllib3 in /Users/apple/anaconda3/lib/python3.6/site-packages (from selenium) (1.21.1)
[33mYou are using pip version 19.0.3, however version 19.1.1 is available.
You should consider upgrading via the 'pip install --upgrade pip' command.[0m
# 1 启动浏览器
driver = webdriver.Chrome() # 因为放到了scripts文件夹下 所以不用指定位置了!
driver.get('https://movie.douban.com/subject/27052168/comments?status=P')

3.2 评论爬取

列表表达式:

a = list(range(10))
a
[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

现在要对每个元素加1,有两种方法

# 方法1 循环遍历
for j in a:a[j] = a[j] + 1
a
[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
# 方法2 列表表达式
a = [x+1 for x in a]
a
[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
comments = driver.find_elements_by_xpath("//div[@class='comment']/p/span[@class='short']")
all_commons = [c.text for c in comments]
all_commons
['终于看到一部实实在在的缉毒剧了,那种披着正剧外衣谈恋爱的真的接受无能!','罪案剧让观众忍不住按快进键是最大的失败。','以汕尾博社村为原型改编的,当初这个仅仅1.4万人口,占地才20多平方公里的小村子,有着18个特大制毒团伙,77个制毒工厂,整个博社村在生产最高峰的时候冰毒产量占了全国的40%,想想真是太恐怖了。政府为了彻底地清剿掉这个毒品窝点,出动了武警3000多名,甚至还出动了海警和空警,三位一体式围剿,终于彻底端掉了这个毒品窝。最近最期待的是这部剧,有吴刚、王劲松、任达华这三个戏骨,期待值简直就是要满分。','一般,中规中矩,没什么新意。前两集已经出现不少基本警务bug了。我想问下那些打五星还说什么画面电影质感的人,你们指的电影是地道战那种吗?说剧情紧张充满悬疑的你们是没看过美剧嘛?一眼就能猜出正反派的片子哪来的悬疑。','太久没这种缉毒刑侦题材了,还挺新鲜。不会用叙事和影像做悬念,线索和各利益关系的交代也不利索,看起来干巴巴的。年轻演员愣头青,老演员脸谱化得不行,还是《人民的名义》那种演法——各部门请注意,镜头推上去,我要表演内心戏了——根本没法和强动作性的剧情调性相匹配。主创可能没看过《法国缉毒网》,即便是《毒战》,学到点皮毛,也不会拍成这德性。这种题材,要不往写实拍,要不把职业性拍地特别酷炫,位于这二者之间,最尴尬。','这个题材的剧真的太喜欢了,我要吹爆这神仙阵容,第一集无敌了太燃太炸太刺激了,打戏看得我惊心动魄超级过瘾,不敢相信这个演李飞的演员居然就是红海行动的顾顺进步真的好大,等着各位老戏骨 飙戏','扫毒版《人民的名义》。剧情迅猛推进,一环套一环。人物关系错综复杂,演员表演也立得住,下了一盘狼人杀。国剧只要尺度能放开,格局也就跟着撑开了。是爽剧,有望成爆款。黄景瑜这种奶凶强悍路线挺准确。','电影质感演员每个毛孔都看的见,一开始就高潮迭起演员演技都不错吴刚老师往那里一站就是戏,黄景瑜也不错看着就是个警察。希望后续不会崩吧冲一冲很多年没看过好看的缉毒剧了。','原来不是我一个人觉得没有男女主存在的必要,演技尴尬,第一集领便当之后,养父亲爹给报仇的设定更好,没有男女主应该能上四星','一直都非常喜欢看这个题材的作品,觉得缉毒警是最值得敬佩的勇士,他们的家人也牺牲很多,刚看觉得还不错,阵容强大,值得期待!','黄景瑜身手挺好啊,打戏太帅了_(:з)∠)_就是这才两集就这么惨,后面可咋整……不过剧情好看,付出也是值得的。','世界上居然有像李飞这样莫名其妙拎不清令人讨厌的男主角……','黄景瑜制服美男诱惑A爆了!让毛孔自由呼吸不作妖的滤镜看着真得劲儿!','陈珂败笔,李飞可有可无,尤其是陈珂,使得有些剧情跟弱智一样,黄景瑜台词跟吴亦凡样,我都怀疑是吴亦凡配音的了,其他的都挺好','这庞大阵容、制作规模、剧本立意本身就赢了,但影片质量依旧槽点满满。 导演:采用老少搭配组合,刘璋牧摄影出身,对影像把握更胜一筹;傅东育,老资历,目前行业中,没办法,必须有老导演来执行,这样制片才能放心。但在成片中,明显感到两种思维冲突,年轻导演精心设计的影像,被老导演最终权剪得分崩离析,在剪辑点的把握上,老导演落伍太多,叙事线影像思维老套,根本不懂怎样在影像基础上配合剪辑节奏。 演员:黄景瑜自从《红海行动》后,人设有了“硬汉”的标签,动作片的邀约团队自然不会放过。这部剧中,动作指导差太多,虽说要符合地方缉毒警人设,但未免差距太大。另外,黄景瑜本身是模特出身,对台词的节奏、气息把握太稚嫩,一有比较长的台词,气息口条就全乱了。(原声好评,在真诚、认真度上就把隔壁小鲜肉们比下去了)','真的是非常棒的国产剧了,从故事到人物,都是不一样的国产警匪剧,不再是好坏分明,而是充满了政治纠纷,明争暗斗,如果只看前面20几集这部剧完全可以给满分,但是,非常非常非常可惜,结局依旧烂尾了,影片后段好像从导演编剧都换掉了,甚至演员也不在闪光,放在当今国产电视剧背景下,只能说,可看。','男女主以一己之力拉低评分也是实在了不起','整体感觉还是很精彩的,黄景瑜资源居然这么好,班底太强大,就是女主居然配音,而且是很尬的配音。','剧情跌宕起伏反转再反转 一众大咖在线飙戏 好久没看过那么大制作的正剧了 拍出了电影既视感今年最硬正剧预定 PS:黄景瑜真的太适合演警察了(我果然还是颜控)','好看目前最喜欢李局马局水伯不喜欢陈珂 黄景瑜还需要锻炼']

3.3 评分

列表表达式:

all_score = driver.find_elements_by_xpath("//div[@class='comment']/h3/span[@class='comment-info']/span[2]")
score = [x.get_attribute('title') for x in all_score]
score
['力荐','还行','推荐','还行','较差','推荐','推荐','力荐','还行','推荐','推荐','还行','还行','还行','还行','推荐','还行','推荐','力荐','推荐']

循环

all_score = driver.find_elements_by_xpath("//div[@class='comment']/h3/span[@class='comment-info']/span[2]")
score = []
for x in all_score:score.append(x.get_attribute('title'))
score
['力荐','还行','推荐','还行','较差','推荐','推荐','力荐','还行','推荐','推荐','还行','还行','还行','还行','推荐','还行','推荐','力荐','推荐']

3.4 有用人数

num_useful = driver.find_elements_by_xpath("//div[@class='comment']/h3/span[@class='comment-vote']/span[@class='votes']")
num_useful = [int(num.text) for num in num_useful]
num_useful
[2356,4523,2542,1553,1091,1969,1755,1234,946,627,292,692,361,234,132,0,80,174,856,101]

3.5 评论时间

times = driver.find_elements_by_xpath("//div[@class='comment']/h3/span[@class='comment-info']/span[@class='comment-time ']")
time_com = [x.text for x in times]
time_com
['2019-05-07','2019-05-11','2019-05-07','2019-05-08','2019-05-07','2019-05-07','2019-05-08','2019-05-07','2019-05-22','2019-05-07','2019-05-07','2019-05-23','2019-05-09','2019-05-16','2019-05-12','2019-05-07','2019-05-24','2019-05-07','2019-05-07','2019-05-08']

3.6 用户首页网址

links = driver.find_elements_by_xpath("//div[@id='comments']/div[@class='comment-item']/div[@class='avatar']/a")
link = [x.get_attribute('href') for x in links]
link
['https://www.douban.com/people/155841956/','https://www.douban.com/people/34011099/','https://www.douban.com/people/74196076/','https://www.douban.com/people/131496196/','https://www.douban.com/people/afeidemimi/','https://www.douban.com/people/161423939/','https://www.douban.com/people/juwujian/','https://www.douban.com/people/159336357/','https://www.douban.com/people/59958082/','https://www.douban.com/people/73056364/','https://www.douban.com/people/3853064/','https://www.douban.com/people/minglang11/','https://www.douban.com/people/121108591/','https://www.douban.com/people/152291838/','https://www.douban.com/people/zheng-jia-cheng/','https://www.douban.com/people/181134846/','https://www.douban.com/people/104519594/','https://www.douban.com/people/Edwin-Zhang/','https://www.douban.com/people/153966583/','https://www.douban.com/people/183890484/']

3.7 拼接成数据框

df = pd.DataFrame({'comment':all_commons,'score':score,'num_useful':num_useful,'time':time_com,'link':link})
print(df.shape)
df.head()
(20, 5)
comment score num_useful time link
0 终于看到一部实实在在的缉毒剧了,那种披着正剧外衣谈恋爱的真的接受无能! 力荐 2356 2019-05-07 https://www.douban.com/people/155841956/
1 罪案剧让观众忍不住按快进键是最大的失败。 还行 4523 2019-05-11 https://www.douban.com/people/34011099/
2 以汕尾博社村为原型改编的,当初这个仅仅1.4万人口,占地才20多平方公里的小村子,有着18个... 推荐 2542 2019-05-07 https://www.douban.com/people/74196076/
3 一般,中规中矩,没什么新意。前两集已经出现不少基本警务bug了。我想问下那些打五星还说什么画... 还行 1553 2019-05-08 https://www.douban.com/people/131496196/
4 太久没这种缉毒刑侦题材了,还挺新鲜。不会用叙事和影像做悬念,线索和各利益关系的交代也不利索,... 较差 1091 2019-05-07 https://www.douban.com/people/afeidemimi/

3.8 翻页功能的实现

上面用到了两个获取selenium的内容的方式:

  • .tetx
  • get_attribute

现在增加一个 click 实现点击

而且是一个元素 所以不用加s 直接find_element_by_xpath

button = driver.find_element_by_xpath("//div[@id='comments']/div[@id='paginator']/a[@class='next']")
button.click()

4 封装成整体进行数据爬取

[] + ['a', 'b', 'c']
['a', 'b', 'c']

代码逻辑:

  • 一页信息爬取ok 每个存到list
  • 翻页
  • 继续爬取本页信息 继续添加到上面的list
  • 循环终止条件

4.1 往list里面逐个添加元素

a = list(range(10))
a
[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
for j in range(10,20):a.append(j)
a
[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19]

4.2 两个list直接相加

a = list(range(10))
b = list(range(10,20))
print(a + b)
print(b + a)
[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19]
[10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

4.3 主代码

print('开始爬取数据')
t0 = time.time()# 1 启动浏览器
driver = webdriver.Chrome()
driver.get('https://movie.douban.com/subject/27052168/comments?status=P')# 登录 如果不登录账号只能爬取11页 所以一开始进行登录
time.sleep(10)# 定义需要的变量
all_commons = []
score = []
num_useful = []
time_com = []
link = []# 循环遍历爬取
'''
思路1:直接循环 没有拼接网址 点击下一页!最后发现问题:只能爬25页 所以到最后一页 没有下一页选项了
思路2:发现了网页规律 直接拼接网址!
'''pages = 3 # 应该是25页 3页作为示例
for i in range(pages):# 拼接网址url = "https://movie.douban.com/subject/27052168/comments?start=%d&limit=20&sort=new_score&status=P" % (20*i)driver.get(url)t2 = time.time()# 2 信息爬取## 2.1 评论comments = driver.find_elements_by_xpath("//div[@class='comment']/p/span[@class='short']")all_commons += [c.text for c in comments]## 2.2 评分all_score = driver.find_elements_by_xpath("//div[@class='comment']/h3/span[@class='comment-info']/span[2]")score = [x.get_attribute('title') for x in all_score]## 2.3 有用人数num_usefuls = driver.find_elements_by_xpath("//div[@class='comment']/h3/span[@class='comment-vote']/span[@class='votes']")num_useful += ([int(num.text) for num in num_usefuls])## 2.4 评论时间times = driver.find_elements_by_xpath("//div[@class='comment']/h3/span[@class='comment-info']/span[@class='comment-time ']")time_com += [x.text for x in times]## 2.5 用户首页网址links = driver.find_elements_by_xpath("//div[@id='comments']/div[@class='comment-item']/div[@class='avatar']/a")link += [x.get_attribute('href') for x in links]# 作用:等待某一个元素出现 如果不出现等30秒 不行就报错了!智能等待!
#     element = WebDriverWait(driver, 30).until(lambda x: x.find_element_by_xpath("//div[@id='comments']/div[@id='paginator']/a[@class='next']"))# 3 点击下一页 之前的思路!
#     button = driver.find_element_by_xpath("//div[@id='comments']/div[@id='paginator']/a[@class='next']")
#     button.click()t3 = time.time()print('第 %d 页信息爬取ok 所需时间为 %.2f s' % (i+1, t3 - t2))# 休息几秒
#     time.sleep(5)t1 = time.time()
print('爬虫结束,页数为 %d 所需时间为 %.2f s ' % (pages, t1-t0))
开始爬取数据
第 1 页信息爬取ok 所需时间为 0.89 s
第 2 页信息爬取ok 所需时间为 0.90 s
第 3 页信息爬取ok 所需时间为 0.91 s
爬虫结束,页数为 3 所需时间为 18.57 s

4.4 拼接成数据框

# 拼接成数据框
df_0_24 = pd.DataFrame({'comment':all_commons,'score':score,'num_useful':num_useful,'time':time_com,'link':link})
df_0_24.shape
(500, 5)
df_0_24.head()
comment score num_useful time link
0 以汕尾博社村为原型改编的,当初这个仅仅1.4万人口,占地才20多平方公里的小村子,有着18个... 推荐 2542 2019-05-07 https://www.douban.com/people/74196076/
1 罪案剧让观众忍不住按快进键是最大的失败。 还行 4520 2019-05-11 https://www.douban.com/people/34011099/
2 一般,中规中矩,没什么新意。前两集已经出现不少基本警务bug了。我想问下那些打五星还说什么画... 还行 1552 2019-05-08 https://www.douban.com/people/131496196/
3 这个题材的剧真的太喜欢了,我要吹爆这神仙阵容,第一集无敌了太燃太炸太刺激了,打戏看得我惊心动... 推荐 1969 2019-05-07 https://www.douban.com/people/161423939/
4 太久没这种缉毒刑侦题材了,还挺新鲜。不会用叙事和影像做悬念,线索和各利益关系的交代也不利索,... 较差 1091 2019-05-07 https://www.douban.com/people/afeidemimi/

4.5 导出

df_0_24.to_csv('Thunder_data.csv', encoding='utf-8', index=False, quoting=1)
df_0_24['time'].max()
'2019-07-11'
df_0_24['time'].min()
'2019-05-07'

5 读入数据-补充爬取用户首页信息

5.1 读入数据

df = pd.read_csv('Thunder_data.csv')
print(df.shape)
df.head()
(500, 5)
comment score num_useful time link
0 以汕尾博社村为原型改编的,当初这个仅仅1.4万人口,占地才20多平方公里的小村子,有着18个... 推荐 2542 2019-05-07 https://www.douban.com/people/74196076/
1 罪案剧让观众忍不住按快进键是最大的失败。 还行 4520 2019-05-11 https://www.douban.com/people/34011099/
2 一般,中规中矩,没什么新意。前两集已经出现不少基本警务bug了。我想问下那些打五星还说什么画... 还行 1552 2019-05-08 https://www.douban.com/people/131496196/
3 这个题材的剧真的太喜欢了,我要吹爆这神仙阵容,第一集无敌了太燃太炸太刺激了,打戏看得我惊心动... 推荐 1969 2019-05-07 https://www.douban.com/people/161423939/
4 太久没这种缉毒刑侦题材了,还挺新鲜。不会用叙事和影像做悬念,线索和各利益关系的交代也不利索,... 较差 1091 2019-05-07 https://www.douban.com/people/afeidemimi/
# 1 启动浏览器
driver = webdriver.Chrome()
driver.get(df['link'][0])

5.2 地址

locations = driver.find_element_by_xpath("//div[@class='basic-info']/div[@class='user-info']/a")
location = locations.text
location
'广东深圳'

5.3 加入时间

time_user_joins = driver.find_element_by_xpath("//div[@class='basic-info']/div[@class='user-info']/div[@class='pl']")
time_user_join = time_user_joins.text.split('\n')[1]
time_user_join
'2013-06-20加入'

5.4 批量爬取

t0_all = time.time()
# 1 启动浏览器
driver = webdriver.Chrome()
driver.get('https://movie.douban.com/')# 登录一下
# time.sleep(10)# 定义变量
location = []
time_user_join = []num_user = 3 # 应该是len(df) 5页爬取作为示例for i in range(num_user):t0 = time.time()# 2 定位到每个用户的首页网址url = df['link'][i]driver.get(df['link'][i])# 3 爬取信息# 3.1 爬取地址try:locations = driver.find_element_by_xpath("//div[@class='basic-info']/div[@class='user-info']/a")location.append(locations.text)except Exception as e:print(e)location.append('未知')# 3.2 加入时间time_user_joins = driver.find_element_by_xpath("//div[@class='basic-info']/div[@class='user-info']/div[@class='pl']")time_user_join.append(time_user_joins.text.split('\n')[1])t1 = time.time()print('第%d个用户首页信息爬取ok 所需时间为 %.2f s' % (i+1, t1-t0))time.sleep(3)t1_all = time.time()
print(' %d 用户信息爬取ok 所需时间为 %.2f s ' % (num_user, t1_all-t0_all))
第1个用户首页信息爬取ok 所需时间为 3.62 s
Message: no such element: Unable to locate element: {"method":"xpath","selector":"//div[@class='basic-info']/div[@class='user-info']/a"}(Session info: chrome=75.0.3770.142)第2个用户首页信息爬取ok 所需时间为 1.19 s
第3个用户首页信息爬取ok 所需时间为 3.26 s3 用户信息爬取ok 所需时间为 23.06 s

5.5 测试demo

print(len(location))
print(len(time_user_join))
500
500
print((location[:5]))
print((time_user_join[:5]))
['广东深圳', '未知', '未知', '未知', '四川成都']
['2013-06-20加入', '2010-01-28加入', '2015-07-16加入', '2017-05-15加入', '2011-12-02加入']

5.6 将数据添加到原有数据框

import copy
df_2 = copy.deepcopy(df)
df_2['location'] = location
df_2['time_user_join'] = time_user_join
print(df_2.shape)
df_2.head()
(500, 7)
comment score num_useful time link location time_user_join
0 以汕尾博社村为原型改编的,当初这个仅仅1.4万人口,占地才20多平方公里的小村子,有着18个... 推荐 2542 2019-05-07 https://www.douban.com/people/74196076/ 广东深圳 2013-06-20加入
1 罪案剧让观众忍不住按快进键是最大的失败。 还行 4520 2019-05-11 https://www.douban.com/people/34011099/ 未知 2010-01-28加入
2 一般,中规中矩,没什么新意。前两集已经出现不少基本警务bug了。我想问下那些打五星还说什么画... 还行 1552 2019-05-08 https://www.douban.com/people/131496196/ 未知 2015-07-16加入
3 这个题材的剧真的太喜欢了,我要吹爆这神仙阵容,第一集无敌了太燃太炸太刺激了,打戏看得我惊心动... 推荐 1969 2019-05-07 https://www.douban.com/people/161423939/ 未知 2017-05-15加入
4 太久没这种缉毒刑侦题材了,还挺新鲜。不会用叙事和影像做悬念,线索和各利益关系的交代也不利索,... 较差 1091 2019-05-07 https://www.douban.com/people/afeidemimi/ 四川成都 2011-12-02加入
df_2.to_csv('douban_comment.csv', index=False, encoding='utf-8', quoting=1)

参考

  • 爬虫 | selenium动态爬取美团商家图片
  • Python | 编辑器推荐:Jupyter
  • https://blog.csdn.net/qq_27782503/article/details/93140112
  • Selenium - 元素等待与智能等待
  • 主流视频网站弹幕下载

爬虫 |《破冰行动》豆瓣短评爬取相关推荐

  1. Python爬虫入门之豆瓣短评爬取

    采用工具pyCharm,python3,工具的安装在这就不多说了,之所以采用python3是因为python2只更新维护到2020年. 新建python项目 File-Settings-project ...

  2. 《恶魔人crybaby》豆瓣短评爬取

    作业要求来源:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3159 爬虫综合大作业 选择一个热点或者你感兴趣的主题. 选择爬取的对象 ...

  3. python怎么爬取电影海报_Python 爬虫“王者”:豆瓣海报爬取

    我这里就以女神王祖贤的海报来作为例子. 翻页分析 在豆瓣电影中搜索"王祖贤",进入王祖贤主页后,点击全部影人图片,进入到影人图片页面. 在该页面点击下一页,可以看到浏览器的 URL ...

  4. Python 爬虫“王者”:豆瓣海报爬取

    我这里就以女神王祖贤的海报来作为例子. 翻页分析 在豆瓣电影中搜索"王祖贤",进入王祖贤主页后,点击全部影人图片,进入到影人图片页面. 在该页面点击下一页,可以看到浏览器的 URL ...

  5. ⚡豆瓣告诉你《扫黑风暴》如何【短评爬取+词云】 ⚡

    ⚡豆瓣告诉你<扫黑风暴>如何[短评爬取+词云] ⚡ 一.前言 二.环境准备 三.具体实现 1.短评获取并保存 2.词云制作 3 成果 四.最后 ⚡豆瓣告诉你<扫黑风暴>如何[短 ...

  6. Python爬虫开源项目代码(爬取微信、淘宝、豆瓣、知乎、新浪微博、QQ、去哪网 等等)...

    文章目录 1.简介 2.开源项目Github 2.1.WechatSogou [1]– 微信公众号爬虫 2.2.DouBanSpider [2]– 豆瓣读书爬虫 2.3.zhihu_spider [3 ...

  7. python爬取豆瓣电影信息可行性分析_Python爬虫实现的根据分类爬取豆瓣电影信息功能示例...

    本文实例讲述了Python爬虫实现的根据分类爬取豆瓣电影信息功能.分享给大家供大家参考,具体如下: 代码的入口:if __name__ == '__main__': main()#! /usr/bin ...

  8. Python爬虫开源项目代码(爬取微信、淘宝、豆瓣、知乎、新浪微博、QQ、去哪网 等等)

    文章目录 1.简介 2.开源项目Github 2.1.WechatSogou [1]– 微信公众号爬虫 2.2.DouBanSpider [2]– 豆瓣读书爬虫 2.3.zhihu_spider [3 ...

  9. Python爬虫初探(九)——爬虫之Beautifulsoup4实战(爬取豆瓣信息)

    前面两章咱们介绍了Beautifuisoup4模块的简单使用,今天就用它来爬取豆瓣信息.话不多说,咱们开始吧. 一.拿到url地址 二.获取豆瓣数据 三.保存文件 需求: 爬取标题.评分.详情页的地址 ...

最新文章

  1. 启动模式 和 任务栈
  2. MATLAB利用串口接收数据,并实时显示图形
  3. [机器学习] LightGBM on Spark (MMLSpark) 使用完全手册
  4. java method_JAVA Method的解析
  5. rxjava 循环发送事件_使用RxJava和SseEmitter进行服务器发送的事件
  6. linux域文件夹权限设置密码,如何配置Linux 文件权限(经典详细版本: rwxst)
  7. [Node.js] 模块化 -- path路径模块
  8. Kubernetes学习总结(15)—— Kubernetes 实战之部署 Mysql 集群
  9. Q76:仿射变换(Affine Transformation)
  10. 725.分隔链表(力扣leetcode) 博主可答疑该问题
  11. Ajax回调函数中return不生效问题
  12. 测试经典名言100句
  13. ISTQB认证-关于ISTQB一些知识点总结
  14. 《数据结构》:中缀表达式合法性判断
  15. 创建OE Order报Pre_Write_Process错误
  16. dataframe如何定义列名称
  17. android的异步任务与handler分析与初步实战
  18. 没有苹果手机制作上架截图
  19. 盘点那些令人闻风丧胆的DDoS攻击事件
  20. 逆变电源的计算机控制系统,一种专用三相逆变电源控制系统研究

热门文章

  1. 弘一大师是如何教导不听课的学生-转载
  2. 31515端口matlab,【物理应用】计算油气井井底压力【Matlab 315期】
  3. Xshell+docker镜像/容器+tensorflow环境下的模型训练全过程
  4. web笔记day14
  5. 我的世界颜色代码服务器不显示,《我的世界》颜色代码快速指南
  6. java jcombobox enum_的JComboBox设置标签和值
  7. 计算机技术小学语文教学,如何进行小学语文教学与信息技术的整合
  8. 恐惧焦虑抑郁症的治疗神方!!!,亲身经历。希望能帮助到有需要的人。
  9. Java线程、Java多线程详细介绍
  10. 米线店结账程序 装饰着模式_装饰者模式的运用