总体思路

思路

找出所有获奖者的豆瓣id
将获奖者豆瓣id顺序排列
对于表格内每一个数据逐行读取
进行豆瓣电影搜索，进入搜索页面，拉取导演和前三个演员id
在获奖者列表中二分法匹配
只要能匹配到一个，就标注1，停止匹配，4个id全都匹配过后，没有匹配的，标注0
读取下一行进行搜索，重复step4-6

内容

变量

变量名	描述	来源
mov_name	电影名	excel
mov_name_en	UrlEncode电影名	quote(name)
mov_id	电影豆瓣id	搜索后在页面处理
id_dir	导演id	电影页面处理
id_act1	主演id1	电影页面处理
id_act2	主演id2	电影页面处理
id_act3	主演id3	电影页面处理
mov_info	电影数组: mov_name, mov_id, id_dir, id_act1, id_act2, id_act3, ismat	存储电影名、id，导演和主演、是否匹配的数组
pri_id	获奖影人id数组	搜索获得
ismat	是否匹配	查看id是否在列表里

采集过程

豆瓣电影搜索

扬名立万 - 电影 - 豆瓣搜索

https://search.douban.com/movie/subject_search?search_text=[urlEncode:mov_name]

UrlEncode方法：

from urllib.parse import quote,unquote
quote('汉字')
unquote('百分号编码')

在搜索页面中找到第一个

%E7%83%AD%E5%A4%A9%E5%8D%88%E5%90%8E',subject_id:'
[mov_id]
&#39

电影页面

热天午后 (豆瓣)

https://movie.douban.com/subject/[mov_id]/

在页面中找到

  "director": [{"@type": "Person","url": "/celebrity/1320453/","name": "刘循子墨 Xunzimo Liu"}]

  "actor": [{"@type": "Person","url": "/celebrity/1332934/","name": "尹正 Zheng Yin"},{"@type": "Person","url": "/celebrity/1274361/","name": "邓家佳 Jiajia Deng"},{"@type": "Person","url": "/celebrity/1274271/","name": "喻恩泰 Entai Yu"}

得到4个人物id

电影数组

将4个人物id组成一个电影数组mov_info[mov_name, mov_id, id_dir, id_act1, id_act2, id_act3, ismat=0 ]

分隔以后，存入csv01

比较过程

数据格式

csv01中获取电影，一行为一条电影记录mov_info[mov_name, mov_id, id_dir, id_act1, id_act2, id_act3, ismat=0 ]

csv02中获取获奖影人信息，pri_id

排序

将pri_id顺序排列

比较

对于每一行，读入数组mov_info [mov_name, mov_id, id_dir, id_act1, id_act2, id_act3, ismat=0 ]

for j in range(1,2001):mov_info = line[j] #读入第j行for i in range(2,5): #4大影人idif (mov_info[i] in pri_id ): #匹配影人idmov_info[6]=1 #ismat=1break #读入下一行else:continue #匹配下一个影人id

开始努力

问题1：等待时间

requests包不能进行打开网页并等待的操作，所以决定使用selenium包完成。

from time import sleep
from selenium import webdriverdriver = webdriver.Chrome()
driver.get(url)
sleep(3)
element = driver.find_element_by_xpath("//body")

问题2：路径获得

用find_element_by_xpath获得元素，但是对于xpath的内容获取总有点问题，于是使用chopath插件完成xpath路径获取。

python爬虫学习记录相关推荐

python爬虫学习记录（1）基本库的使用——urllib
一.使用urllib库 python内置HTTP请求库,包含如下四个模块: request:模拟发送请求 error:异常处理模块 parse:工具模块,提供url处理方法 robotparser:识 ...
Python爬虫学习记录（3）——用Python获取虾米加心歌曲，并获取MP3下载地址
在第一篇里记录了获取虾米热门歌曲,听了一段时间后,加心了很多歌曲,因此想要批量下载加心过的虾米收藏夹歌曲. 虾米好评歌曲页只保存最近的2000首..之前star过的3k首歌有1k首都不在了.所以起了备 ...
Python爬虫学习记录（2）——LDA处理歌词
百度空间关闭了, 本系列文章从 hi.baidu.com/cwyalpha 转移过来想看看某类歌词里哪些词用的比较多. 1. 歌词及类别从这里来 http://music.baidu.com/tag ...
【python爬虫学习记录持续更新】多线程多进程，带线程池爬取实例
文章目录简介多线程codingFrame 多进程codingFrame 线程池与进程池线程池爬取实例(主页url隐了主要看思路和如何使用线程池框架) 简介进程是资源单位线程是执行单位每 ...
Python爬虫学习系列教程
大家好哈,我呢最近在学习Python爬虫,感觉非常有意思,真的让生活可以方便很多.学习过程中我把一些学习的笔记总结下来,还记录了一些自己实际写的一些小爬虫,在这里跟大家一同分享,希望对Python爬虫 ...
Python爬虫学习系列教程-----------爬虫系列你值的收藏
静觅 » Python爬虫学习系列教程:http://cuiqingcai.com/1052.html 大家好哈,我呢最近在学习Python爬虫,感觉非常有意思,真的让生活可以方便很多.学习过程中我把 ...
从入门到入土：Python爬虫学习|实例练手|爬取LOL全英雄信息及技能||异步加载|初级难度反扒处理|寻找消失的API
此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 本人博客所有文章纯属学习之用,不涉及商业利益.不合适引用,自当删除! 若 ...
从入门到入土：Python爬虫学习|实例练手|详细讲解|爬取腾讯招聘网|一步一步分析|异步加载|初级难度反扒处理|寻找消失的API来找工作吧
此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 本人博客所有文章纯属学习之用,不涉及商业利益.不合适引用,自当删除! 若 ...
从入门到入土：Python爬虫学习|实例练手|爬取猫眼榜单|Xpath定位标签爬取|代码
此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 本人博客所有文章纯属学习之用,不涉及商业利益.不合适引用,自当删除! 若 ...

python爬虫学习记录