总体思路

思路

  1. 找出所有获奖者的豆瓣id

  2. 将获奖者豆瓣id顺序排列

  3. 对于表格内每一个数据逐行读取

  4. 进行豆瓣电影搜索,进入搜索页面,拉取导演和前三个演员id

  5. 在获奖者列表中二分法匹配

  6. 只要能匹配到一个,就标注1,停止匹配,4个id全都匹配过后,没有匹配的,标注0

  7. 读取下一行进行搜索,重复step4-6

内容

变量

变量名 描述 来源
mov_name 电影名 excel
mov_name_en UrlEncode电影名 quote(name)
mov_id 电影豆瓣id 搜索后在页面处理
id_dir 导演id 电影页面处理
id_act1 主演id1 电影页面处理
id_act2 主演id2 电影页面处理
id_act3 主演id3 电影页面处理
mov_info 电影数组: mov_name, mov_id, id_dir, id_act1, id_act2, id_act3, ismat 存储电影名、id,导演和主演、是否匹配的数组
pri_id 获奖影人id数组 搜索获得
ismat 是否匹配 查看id是否在列表里

采集过程

豆瓣电影搜索

扬名立万 - 电影 - 豆瓣搜索

https://search.douban.com/movie/subject_search?search_text=[urlEncode:mov_name]

UrlEncode方法:

from urllib.parse import quote,unquote
quote('汉字')
unquote('百分号编码')

在搜索页面中找到第一个

%E7%83%AD%E5%A4%A9%E5%8D%88%E5%90%8E',subject_id:'
[mov_id]
&#39

电影页面

热天午后 (豆瓣)

https://movie.douban.com/subject/[mov_id]/

在页面中找到

  "director": [{"@type": "Person","url": "/celebrity/1320453/","name": "刘循子墨 Xunzimo Liu"}]
  "actor": [{"@type": "Person","url": "/celebrity/1332934/","name": "尹正 Zheng Yin"},{"@type": "Person","url": "/celebrity/1274361/","name": "邓家佳 Jiajia Deng"},{"@type": "Person","url": "/celebrity/1274271/","name": "喻恩泰 Entai Yu"}

得到4个人物id

电影数组

将4个人物id组成一个电影数组mov_info[mov_name, mov_id, id_dir, id_act1, id_act2, id_act3, ismat=0 ]

分隔以后,存入csv01

比较过程

数据格式

csv01中获取电影,一行为一条电影记录mov_info[mov_name, mov_id, id_dir, id_act1, id_act2, id_act3, ismat=0 ]

csv02中获取获奖影人信息,pri_id

排序

将pri_id顺序排列

比较

对于每一行,读入数组mov_info [mov_name, mov_id, id_dir, id_act1, id_act2, id_act3, ismat=0 ]

for j in range(1,2001):mov_info = line[j] #读入第j行for i in range(2,5): #4大影人idif (mov_info[i] in pri_id ): #匹配影人idmov_info[6]=1 #ismat=1break #读入下一行else:continue #匹配下一个影人id

开始努力

问题1:等待时间

requests包不能进行打开网页并等待的操作,所以决定使用selenium包完成。

from time import sleep
from selenium import webdriverdriver = webdriver.Chrome()
driver.get(url)
sleep(3)
element = driver.find_element_by_xpath("//body")

问题2:路径获得

用find_element_by_xpath获得元素,但是对于xpath的内容获取总有点问题,于是使用chopath插件完成xpath路径获取。

python爬虫学习记录相关推荐

  1. python爬虫学习记录(1)基本库的使用——urllib

    一.使用urllib库 python内置HTTP请求库,包含如下四个模块: request:模拟发送请求 error:异常处理模块 parse:工具模块,提供url处理方法 robotparser:识 ...

  2. Python爬虫学习记录(3)——用Python获取虾米加心歌曲,并获取MP3下载地址

    在第一篇里记录了获取虾米热门歌曲,听了一段时间后,加心了很多歌曲,因此想要批量下载加心过的虾米收藏夹歌曲. 虾米好评歌曲页只保存最近的2000首..之前star过的3k首歌有1k首都不在了.所以起了备 ...

  3. Python爬虫学习记录(2)——LDA处理歌词

    百度空间关闭了, 本系列文章从 hi.baidu.com/cwyalpha 转移过来 想看看某类歌词里哪些词用的比较多. 1. 歌词及类别从这里来 http://music.baidu.com/tag ...

  4. 【python爬虫学习记录 持续更新】多线程多进程,带线程池爬取实例

    文章目录 简介 多线程codingFrame 多进程codingFrame 线程池与进程池 线程池爬取实例(主页url隐了 主要看思路 和如何使用线程池框架) 简介 进程是资源单位 线程是执行单位 每 ...

  5. Python爬虫学习系列教程

    大家好哈,我呢最近在学习Python爬虫,感觉非常有意思,真的让生活可以方便很多.学习过程中我把一些学习的笔记总结下来,还记录了一些自己实际写的一些小爬虫,在这里跟大家一同分享,希望对Python爬虫 ...

  6. Python爬虫学习系列教程-----------爬虫系列 你值的收藏

    静觅 » Python爬虫学习系列教程:http://cuiqingcai.com/1052.html 大家好哈,我呢最近在学习Python爬虫,感觉非常有意思,真的让生活可以方便很多.学习过程中我把 ...

  7. 从入门到入土:Python爬虫学习|实例练手|爬取LOL全英雄信息及技能||异步加载|初级难度反扒处理|寻找消失的API

    此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 本人博客所有文章纯属学习之用,不涉及商业利益.不合适引用,自当删除! 若 ...

  8. 从入门到入土:Python爬虫学习|实例练手|详细讲解|爬取腾讯招聘网|一步一步分析|异步加载|初级难度反扒处理|寻找消失的API来找工作吧

    此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 本人博客所有文章纯属学习之用,不涉及商业利益.不合适引用,自当删除! 若 ...

  9. 从入门到入土:Python爬虫学习|实例练手|爬取猫眼榜单|Xpath定位标签爬取|代码

    此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 本人博客所有文章纯属学习之用,不涉及商业利益.不合适引用,自当删除! 若 ...

最新文章

  1. 从零开始搭建一个vue项目 -- vue-cli/cooking-cli(一)
  2. 【转】【iOS知识学习】_视图控制对象生命周期-init、viewDidLoad、viewWillAppear、viewDidAppear、viewWillDisappear等的区别及用途...
  3. 怎么做应力应变曲线_做冲压材质分析很重要,材料性能分析汇总~
  4. caffe学习笔记--跑个SampleCode
  5. getSlotFromBufferLocked: unknown buffer: 0xf3d94ca0
  6. 2017php行情,2017年蔬菜行情特点及未来蔬菜价格走势分析
  7. 百度人脸识别离线SDK_Android版_在线激活失败:not enough param_解决方案---百度人脸识别技术应用005
  8. 爱情是碗 不开盖的红烧肉----转载
  9. 奇异值分解SVD与在降维中的应用
  10. git 设置忽略文件类型 gitignore
  11. 安卓网页离线保存_Android webView 缓存 Cache + HTML5离线功能 解决
  12. 联想计算机拆机,Lenovo(联想)Y470笔记本电脑拆机清灰图文教程
  13. 计算机中word2007,Word中2007版在电脑里发现打不开的解决方法
  14. 由膳食纤维选择性促进的肠道细菌缓解二型糖尿病
  15. 前后端滑块验证码实例附源码(java jquery)
  16. 两张表格数据匹配删除
  17. 【正点原子FPGA连载】第十二章 呼吸灯实验 -摘自【正点原子】领航者ZYNQ之FPGA开发指南_V2.0
  18. 智能插座_如何重置您的ConnectSense智能插座
  19. uTorrent及PT进阶功能篇(转载)
  20. 会计毕业实习报告模板

热门文章

  1. 高性价比办公笔记本推荐(202003)
  2. RNG战队LPL春季赛夺冠 中国电竞产业未来如何实现“破与立”?
  3. 2018年全国姓名报告发布:新生儿起名用这50个字最多
  4. 研招网:@2021推免生:关于推免,你必须要知道的三件事
  5. HTML:一种标记语言而不是编程语言(6.0)
  6. 民办院校招生乱象调查
  7. 苹果电脑锁屏忘记密码
  8. html如何设置四个链接,HTML基础(四)——设置超链接的样式示例
  9. VUE+Element实现草稿箱
  10. Android开发:App点击跳转到网页的实现