python爬虫学习记录
总体思路
思路
找出所有获奖者的豆瓣id
将获奖者豆瓣id顺序排列
对于表格内每一个数据逐行读取
进行豆瓣电影搜索,进入搜索页面,拉取导演和前三个演员id
在获奖者列表中二分法匹配
只要能匹配到一个,就标注1,停止匹配,4个id全都匹配过后,没有匹配的,标注0
读取下一行进行搜索,重复step4-6
内容
变量
变量名 | 描述 | 来源 |
---|---|---|
mov_name | 电影名 | excel |
mov_name_en | UrlEncode电影名 | quote(name) |
mov_id | 电影豆瓣id | 搜索后在页面处理 |
id_dir | 导演id | 电影页面处理 |
id_act1 | 主演id1 | 电影页面处理 |
id_act2 | 主演id2 | 电影页面处理 |
id_act3 | 主演id3 | 电影页面处理 |
mov_info | 电影数组: mov_name, mov_id, id_dir, id_act1, id_act2, id_act3, ismat | 存储电影名、id,导演和主演、是否匹配的数组 |
pri_id | 获奖影人id数组 | 搜索获得 |
ismat | 是否匹配 | 查看id是否在列表里 |
采集过程
豆瓣电影搜索
扬名立万 - 电影 - 豆瓣搜索
https://search.douban.com/movie/subject_search?search_text=[urlEncode:mov_name]
UrlEncode方法:
from urllib.parse import quote,unquote quote('汉字') unquote('百分号编码')
在搜索页面中找到第一个
%E7%83%AD%E5%A4%A9%E5%8D%88%E5%90%8E',subject_id:' [mov_id] '
电影页面
热天午后 (豆瓣)
https://movie.douban.com/subject/[mov_id]/
在页面中找到
"director": [{"@type": "Person","url": "/celebrity/1320453/","name": "刘循子墨 Xunzimo Liu"}]
"actor": [{"@type": "Person","url": "/celebrity/1332934/","name": "尹正 Zheng Yin"},{"@type": "Person","url": "/celebrity/1274361/","name": "邓家佳 Jiajia Deng"},{"@type": "Person","url": "/celebrity/1274271/","name": "喻恩泰 Entai Yu"}
得到4个人物id
电影数组
将4个人物id组成一个电影数组mov_info[mov_name, mov_id, id_dir, id_act1, id_act2, id_act3, ismat=0 ]
分隔以后,存入csv01
比较过程
数据格式
csv01中获取电影,一行为一条电影记录mov_info[mov_name, mov_id, id_dir, id_act1, id_act2, id_act3, ismat=0 ]
csv02中获取获奖影人信息,pri_id
排序
将pri_id顺序排列
比较
对于每一行,读入数组mov_info [mov_name, mov_id, id_dir, id_act1, id_act2, id_act3, ismat=0 ]
for j in range(1,2001):mov_info = line[j] #读入第j行for i in range(2,5): #4大影人idif (mov_info[i] in pri_id ): #匹配影人idmov_info[6]=1 #ismat=1break #读入下一行else:continue #匹配下一个影人id
开始努力
问题1:等待时间
requests包不能进行打开网页并等待的操作,所以决定使用selenium包完成。
from time import sleep
from selenium import webdriverdriver = webdriver.Chrome()
driver.get(url)
sleep(3)
element = driver.find_element_by_xpath("//body")
问题2:路径获得
用find_element_by_xpath获得元素,但是对于xpath的内容获取总有点问题,于是使用chopath插件完成xpath路径获取。
python爬虫学习记录相关推荐
- python爬虫学习记录(1)基本库的使用——urllib
一.使用urllib库 python内置HTTP请求库,包含如下四个模块: request:模拟发送请求 error:异常处理模块 parse:工具模块,提供url处理方法 robotparser:识 ...
- Python爬虫学习记录(3)——用Python获取虾米加心歌曲,并获取MP3下载地址
在第一篇里记录了获取虾米热门歌曲,听了一段时间后,加心了很多歌曲,因此想要批量下载加心过的虾米收藏夹歌曲. 虾米好评歌曲页只保存最近的2000首..之前star过的3k首歌有1k首都不在了.所以起了备 ...
- Python爬虫学习记录(2)——LDA处理歌词
百度空间关闭了, 本系列文章从 hi.baidu.com/cwyalpha 转移过来 想看看某类歌词里哪些词用的比较多. 1. 歌词及类别从这里来 http://music.baidu.com/tag ...
- 【python爬虫学习记录 持续更新】多线程多进程,带线程池爬取实例
文章目录 简介 多线程codingFrame 多进程codingFrame 线程池与进程池 线程池爬取实例(主页url隐了 主要看思路 和如何使用线程池框架) 简介 进程是资源单位 线程是执行单位 每 ...
- Python爬虫学习系列教程
大家好哈,我呢最近在学习Python爬虫,感觉非常有意思,真的让生活可以方便很多.学习过程中我把一些学习的笔记总结下来,还记录了一些自己实际写的一些小爬虫,在这里跟大家一同分享,希望对Python爬虫 ...
- Python爬虫学习系列教程-----------爬虫系列 你值的收藏
静觅 » Python爬虫学习系列教程:http://cuiqingcai.com/1052.html 大家好哈,我呢最近在学习Python爬虫,感觉非常有意思,真的让生活可以方便很多.学习过程中我把 ...
- 从入门到入土:Python爬虫学习|实例练手|爬取LOL全英雄信息及技能||异步加载|初级难度反扒处理|寻找消失的API
此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 本人博客所有文章纯属学习之用,不涉及商业利益.不合适引用,自当删除! 若 ...
- 从入门到入土:Python爬虫学习|实例练手|详细讲解|爬取腾讯招聘网|一步一步分析|异步加载|初级难度反扒处理|寻找消失的API来找工作吧
此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 本人博客所有文章纯属学习之用,不涉及商业利益.不合适引用,自当删除! 若 ...
- 从入门到入土:Python爬虫学习|实例练手|爬取猫眼榜单|Xpath定位标签爬取|代码
此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 本人博客所有文章纯属学习之用,不涉及商业利益.不合适引用,自当删除! 若 ...
最新文章
- 从零开始搭建一个vue项目 -- vue-cli/cooking-cli(一)
- 【转】【iOS知识学习】_视图控制对象生命周期-init、viewDidLoad、viewWillAppear、viewDidAppear、viewWillDisappear等的区别及用途...
- 怎么做应力应变曲线_做冲压材质分析很重要,材料性能分析汇总~
- caffe学习笔记--跑个SampleCode
- getSlotFromBufferLocked: unknown buffer: 0xf3d94ca0
- 2017php行情,2017年蔬菜行情特点及未来蔬菜价格走势分析
- 百度人脸识别离线SDK_Android版_在线激活失败:not enough param_解决方案---百度人脸识别技术应用005
- 爱情是碗 不开盖的红烧肉----转载
- 奇异值分解SVD与在降维中的应用
- git 设置忽略文件类型 gitignore
- 安卓网页离线保存_Android webView 缓存 Cache + HTML5离线功能 解决
- 联想计算机拆机,Lenovo(联想)Y470笔记本电脑拆机清灰图文教程
- 计算机中word2007,Word中2007版在电脑里发现打不开的解决方法
- 由膳食纤维选择性促进的肠道细菌缓解二型糖尿病
- 前后端滑块验证码实例附源码(java jquery)
- 两张表格数据匹配删除
- 【正点原子FPGA连载】第十二章 呼吸灯实验 -摘自【正点原子】领航者ZYNQ之FPGA开发指南_V2.0
- 智能插座_如何重置您的ConnectSense智能插座
- uTorrent及PT进阶功能篇(转载)
- 会计毕业实习报告模板