我的第一个博客:爬取豆瓣top250电影名
我采用了requests模块和Xpath。
关键点1:XPATH的分析和综合,xpath通过chrome浏览器复制,具体方法网上很多,这里不再赘述。以下是前3条电影名称的xpath:
//*[@id="content"]/div/div[1]/ol/li[1]/div/div[2]/div[1]/a/span[1]
//*[@id="content"]/div/div[1]/ol/li[2]/div/div[2]/div[1]/a/span[1]
//*[@id="content"]/div/div[1]/ol/li[3]/div/div[2]/div[1]/a/span[1]
观察发现li后面的数字随电影序号递增。至此规律找出,此外,要获得电影名称,需要在其后面加上/text()表示获取内容。
【补充点废话,电影名字还有英文名,甚至有另外一个中文名,其xpath的区别就是span后面的数字】
关键点2:如果没有headers,方法requests.get()很难成功。
我这里的headers是在网上随便复制了一个。网上有很多,有那种headers集,准确的说是user_agent 集。可以用来模拟不同浏览器访问某一个网址。我这里就只用了一个headers。没有报错。
废话少说,上代码(Python版本:3.8.2;系统:win10系统64位):
import requests
from lxml import etreeuser_agent = 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36'
headers = { 'User-Agent' : user_agent }
for i in range(10):url = 'https://movie.douban.com/top250?start='+str(25*i)html = requests.get(url,headers=headers)etree_html = etree.HTML(html.text)for j in range(1,26):a = etree_html.xpath('//*[@id="content"]/div/div[1]/ol/li['+str(j)+']/div/div[2]/div[1]/a/span[1]/text()')print('No.'+str(25*i+j)+':'+a[0]+'\n')
运行结果:
No.1:肖申克的救赎
No.2:霸王别姬
No.3:阿甘正传
No.4:这个杀手不太冷
No.5:美丽人生
No.6:泰坦尼克号
No.7:千与千寻
No.8:辛德勒的名单
No.9:盗梦空间
No.10:忠犬八公的故事
No.11:海上钢琴师
No.12:楚门的世界
No.13:三傻大闹宝莱坞
No.14:机器人总动员
No.15:放牛班的春天
No.16:星际穿越
No.17:大话西游之大圣娶亲
No.18:熔炉
No.19:疯狂动物城
No.20:无间道
No.21:龙猫
No.22:教父
No.23:当幸福来敲门
No.24:怦然心动
No.25:触不可及
No.26:蝙蝠侠:黑暗骑士
No.27:控方证人
No.28:活着
No.29:乱世佳人
No.30:寻梦环游记
No.31:末代皇帝
No.32:摔跤吧!爸爸
No.33:指环王3:王者无敌
No.34:何以为家
No.35:少年派的奇幻漂流
No.36:飞屋环游记
No.37:十二怒汉
No.38:鬼子来了
No.39:天空之城
No.40:大话西游之月光宝盒
No.41:哈尔的移动城堡
No.42:素媛
No.43:天堂电影院
No.44:罗马假日
No.45:闻香识女人
No.46:辩护人
No.47:哈利·波特与魔法石
No.48:搏击俱乐部
No.49:我不是药神
No.50:死亡诗社
No.51:教父2
No.52:指环王2:双塔奇兵
No.53:狮子王
No.54:窃听风暴
No.55:大闹天宫
No.56:指环王1:魔戒再现
No.57:两杆大烟枪
No.58:美丽心灵
No.59:饮食男女
No.60:猫鼠游戏
No.61:飞越疯人院
No.62:黑客帝国
No.63:钢琴家
No.64:V字仇杀队
No.65:本杰明·巴顿奇事
No.66:看不见的客人
No.67:让子弹飞
No.68:西西里的美丽传说
No.69:小鞋子
No.70:海豚湾
No.71:拯救大兵瑞恩
No.72:情书
No.73:穿条纹睡衣的男孩
No.74:音乐之声
No.75:美国往事
No.76:绿皮书
No.77:致命魔术
No.78:海蒂和爷爷
No.79:低俗小说
No.80:七宗罪
No.81:沉默的羔羊
No.82:蝴蝶效应
No.83:春光乍泄
No.84:禁闭岛
No.85:被嫌弃的松子的一生
No.86:心灵捕手
No.87:布达佩斯大饭店
No.88:阿凡达
No.89:剪刀手爱德华
No.90:勇敢的心
No.91:摩登时代
No.92:天使爱美丽
No.93:喜剧之王
No.94:致命ID
No.95:加勒比海盗
No.96:断背山
No.97:杀人回忆
No.98:狩猎
No.99:幽灵公主
No.100:哈利·波特与死亡圣器(下)
No.101:请以你的名字呼唤我
No.102:阳光灿烂的日子
No.103:入殓师
No.104:重庆森林
No.105:第六感
No.106:小森林 夏秋篇
No.107:7号房的礼物
No.108:消失的爱人
No.109:红辣椒
No.110:小森林 冬春篇
No.111:爱在黎明破晓前
No.112:侧耳倾听
No.113:玛丽和马克思
No.114:一一
No.115:唐伯虎点秋香
No.116:告白
No.117:蝙蝠侠:黑暗骑士崛起
No.118:大鱼
No.119:阳光姐妹淘
No.120:倩女幽魂
No.121:超脱
No.122:射雕英雄传之东成西就
No.123:萤火之森
No.124:甜蜜蜜
No.125:驯龙高手
No.126:无人知晓
No.127:超能陆战队
No.128:幸福终点站
No.129:菊次郎的夏天
No.130:借东西的小人阿莉埃蒂
No.131:爱在日落黄昏时
No.132:恐怖直播
No.133:完美的世界
No.134:神偷奶爸
No.135:怪兽电力公司
No.136:玩具总动员3
No.137:风之谷
No.138:血战钢锯岭
No.139:功夫
No.140:傲慢与偏见
No.141:上帝之城
No.142:时空恋旅人
No.143:教父3
No.144:人生果实
No.145:电锯惊魂
No.146:喜宴
No.147:天书奇谭
No.148:谍影重重3
No.149:英雄本色
No.150:被解救的姜戈
No.151:岁月神偷
No.152:七武士
No.153:哪吒闹海
No.154:我是山姆
No.155:疯狂原始人
No.156:纵横四海
No.157:头号玩家
No.158:三块广告牌
No.159:心迷宫
No.160:萤火虫之墓
No.161:釜山行
No.162:达拉斯买家俱乐部
No.163:真爱至上
No.164:荒蛮故事
No.165:东邪西毒
No.166:贫民窟的百万富翁
No.167:记忆碎片
No.168:爆裂鼓手
No.169:你的名字。
No.170:黑天鹅
No.171:花样年华
No.172:卢旺达饭店
No.173:哈利·波特与阿兹卡班的囚徒
No.174:忠犬八公物语
No.175:黑客帝国3:矩阵革命
No.176:模仿游戏
No.177:头脑特工队
No.178:一个叫欧维的男人决定去死
No.179:雨人
No.180:你看起来好像很好吃
No.181:未麻的部屋
No.182:哈利·波特与密室
No.183:无敌破坏王
No.184:恋恋笔记本
No.185:冰川时代
No.186:海街日记
No.187:新世界
No.188:海边的曼彻斯特
No.189:二十二
No.190:虎口脱险
No.191:房间
No.192:恐怖游轮
No.193:惊魂记
No.194:魔女宅急便
No.195:奇迹男孩
No.196:人工智能
No.197:雨中曲
No.198:疯狂的石头
No.199:罗生门
No.200:海洋
No.201:爱在午夜降临前
No.202:小偷家族
No.203:终结者2:审判日
No.204:初恋这件小事
No.205:魂断蓝桥
No.206:燃情岁月
No.207:可可西里
No.208:穿越时空的少女
No.209:绿里奇迹
No.210:2001太空漫游
No.211:牯岭街少年杀人事件
No.212:完美陌生人
No.213:城市之光
No.214:无耻混蛋
No.215:阿飞正传
No.216:新龙门客栈
No.217:源代码
No.218:香水
No.219:谍影重重2
No.220:青蛇
No.221:地球上的星星
No.222:谍影重重
No.223:战争之王
No.224:血钻
No.225:猜火车
No.226:色,戒
No.227:遗愿清单
No.228:大佛普拉斯
No.229:疯狂的麦克斯4:狂暴之路
No.230:步履不停
No.231:彗星来的那一夜
No.232:朗读者
No.233:浪潮
No.234:小萝莉的猴神大叔
No.235:再次出发之纽约遇见你
No.236:聚焦
No.237:驴得水
No.238:东京物语
No.239:追随
No.240:一次别离
No.241:九品芝麻官
No.242:千钧一发
No.243:我爱你
No.244:黑鹰坠落
No.245:哈利·波特与火焰杯
No.246:四个春天
No.247:网络谜踪
No.248:发条橙
No.249:E.T. 外星人
No.250:黑客帝国2:重装上阵
欢迎使用Markdown编辑器
你好! 这是你第一次使用 **Mn编辑器, 可以仔细阅读这篇文章,了解一下Markdown的基本语法知识。
新的改变
我们对Markdown编辑器进行了一些功能拓展与语法支持,除了标准的Markdown编辑器功能,我们增加了如下几点新功能,帮助你用它写博客:
- 全新的界面设计 ,将会带来全新的写作体验;
- 在创作中心设置你喜爱的代码高亮样式,Markdown 将代码片显示选择的高亮样式 进行展示;
- 增加了 图片拖拽 功能,你可以将本地的图片直接拖拽到编辑区域直接展示;
- 全新的 KaTeX数学公式 语法;
- 增加了支持甘特图的mermaid语法1 功能;
- 增加了 多屏幕编辑 Markdown文章功能;
- 增加了 焦点写作模式、预览模式、简洁写作模式、左右区域同步滚轮设置 等功能,功能按钮位于编辑区域与预览区域中间;
- 增加了 检查列表 功能。
功能快捷键
撤销:Ctrl/Command + Z
重做:Ctrl/Command + Y
加粗:Ctrl/Command + B
斜体:Ctrl/Command + I
标题:Ctrl/Command + Shift + H
无序列表:Ctrl/Command + Shift + U
有序列表:Ctrl/Command + Shift + O
检查列表:Ctrl/Command + Shift + C
插入代码:Ctrl/Command + Shift + K
插入链接:Ctrl/Command + Shift + L
插入图片:Ctrl/Command + Shift + G
查找:Ctrl/Command + F
替换:Ctrl/Command + G
合理的创建标题,有助于目录的生成
直接输入1次#,并按下space后,将生成1级标题。
输入2次#,并按下space后,将生成2级标题。
以此类推,我们支持6级标题。有助于使用TOC
语法后生成一个完美的目录。
如何改变文本的样式
强调文本 强调文本
加粗文本 加粗文本
标记文本
删除文本
引用文本
H2O is是液体。
210 运算结果是 1024.
插入链接与图片
链接: link.
图片:
带尺寸的图片:
居中的图片:
居中并且带尺寸的图片:
当然,我们为了让用户更加便捷,我们增加了图片拖拽功能。
如何插入一段漂亮的代码片
去博客设置页面,选择一款你喜欢的代码片高亮样式,下面展示同样高亮的 代码片
.
// An highlighted block
var foo = 'bar';
生成一个适合你的列表
- 项目
- 项目
- 项目
- 项目
- 项目1
- 项目2
- 项目3
- 计划任务
- 完成任务
创建一个表格
一个简单的表格是这么创建的:
项目 | Value |
---|---|
电脑 | $1600 |
手机 | $12 |
导管 | $1 |
设定内容居中、居左、居右
使用:---------:
居中
使用:----------
居左
使用----------:
居右
第一列 | 第二列 | 第三列 |
---|---|---|
第一列文本居中 | 第二列文本居右 | 第三列文本居左 |
SmartyPants
SmartyPants将ASCII标点字符转换为“智能”印刷标点HTML实体。例如:
TYPE | ASCII | HTML |
---|---|---|
Single backticks |
'Isn't this fun?'
|
‘Isn’t this fun?’ |
Quotes |
"Isn't this fun?"
|
“Isn’t this fun?” |
Dashes |
-- is en-dash, --- is em-dash
|
– is en-dash, — is em-dash |
创建一个自定义列表
- Markdown
- Text-to-HTML conversion tool
- Authors
- John
- Luke
如何创建一个注脚
一个具有注脚的文本。2
注释也是必不可少的
Markdown将文本转换为 HTML。
KaTeX数学公式
您可以使用渲染LaTeX数学表达式 KaTeX:
Gamma公式展示 Γ(n)=(n−1)!∀n∈N\Gamma(n) = (n-1)!\quad\forall n\in\mathbb NΓ(n)=(n−1)!∀n∈N 是通过欧拉积分
Γ(z)=∫0∞tz−1e−tdt.\Gamma(z) = \int_0^\infty t^{z-1}e^{-t}dt\,. Γ(z)=∫0∞tz−1e−tdt.
你可以找到更多关于的信息 LaTeX 数学表达式here.
新的甘特图功能,丰富你的文章
- 关于 甘特图 语法,参考 这儿,
UML 图表
可以使用UML图表进行渲染。 Mermaid. 例如下面产生的一个序列图:
这将产生一个流程图。:
- 关于 Mermaid 语法,参考 这儿,
FLowchart流程图
我们依旧会支持flowchart的流程图:
- 关于 Flowchart流程图 语法,参考 这儿.
导出与导入
导出
如果你想尝试使用此编辑器, 你可以在此篇文章任意编辑。当你完成了一篇文章的写作, 在上方工具栏找到 文章导出 ,生成一个.md文件或者.html文件进行本地保存。
导入
如果你想加载一篇你写过的.md文件,在上方工具栏可以选择导入功能进行对应扩展名的文件导入,
继续你的创作。
mermaid语法说明 ↩︎
注脚的解释 ↩︎
我的第一个博客:爬取豆瓣top250电影名相关推荐
- task1 - 爬取豆瓣Top250电影名
豆瓣Top250电影名怎么爬 参考博文:https://www.cnblogs.com/leon507/p/7614345.html 怎么实现 因为没有系统学习过,所以只能做搬运工.看了几篇有关爬取豆 ...
- python爬虫--爬取豆瓣top250电影名
关于模拟浏览器登录的header,可以在相应网站按F12调取出编辑器,点击netwook,如下: 以便于不会被网站反爬虫拒绝. 1 import requests 2 from bs4 import ...
- [python爬虫] BeautifulSoup和Selenium对比爬取豆瓣Top250电影信息
这篇文章主要对比BeautifulSoup和Selenium爬取豆瓣Top250电影信息,两种方法从本质上都是一样的,都是通过分析网页的DOM树结构进行元素定位,再定向爬取具体的电影信息,通过代码的对 ...
- 【实战1】用BeatuifulSoup解析器爬取豆瓣Top250电影的名称
[实战1]用BeatuifulSoup解析器爬取豆瓣Top250电影的名称 一. 爬虫的普遍步骤 二. 项目目标分析 三.完整爬取代码 参考链接: https://www.bilibili.com/v ...
- Python爬取豆瓣Top250电影中2000年后上映的影片信息
Python爬取豆瓣Top250电影中2000年后上映的影片信息 前言 双十一前加在京东购物车的一个东西,价格330,Plus会员用券后差不多310.双十一当天打开看了下399,还得去抢满300减10 ...
- 爬取豆瓣TOP250电影的评分、评价人数、短评等信息,并在其保存在sql数据库中。
爬取目标 爬取豆瓣TOP250电影的评分.评价人数.短评等信息,并在其保存在sql数据库中. 最终实现效果如图: 确定爬取的URL 爬取的网页地址为:https://movie.douban.com/ ...
- 爬取豆瓣top250电影并分析
爬取豆瓣top250电影,提取评论关键词,然后将同一国家的关键词做成一个词云,轮廓是每个国家的地图轮廓 爬取数据 需要爬取电影名称.导演.年份.地区和前10个评论除了地区,其他的都没什么问题,我们来研 ...
- scrapy爬取豆瓣top250电影数据
scrapy爬取豆瓣top250电影数据 scrapy框架 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中. sc ...
- 【实战2】爬取豆瓣Top250电影的海报
[实战2]爬取豆瓣Top250电影的海报 一. 项目目标分析 二. 完整代码 参考链接: https://www.bilibili.com/video/BV1ZJ411N7Fq?p=4 一. 项目目标 ...
- python采用requests+bs4爬取豆瓣top250电影信息
爬取豆瓣top250电影说明 (链接:https://movie.douban.com/top250,可爬取一页或者多页(输出电影的正标题(肖申克的救赎),副标题( The Shawshank Red ...
最新文章
- 选 Offer 的 5 个维度
- git rm–r folder/file fatal:pathspec did not match any files
- 朴素贝叶斯--实战分析
- AbstractListView源码分析4
- JVM插桩之三:javaagent介绍及javassist介绍
- web csrf java_在Java Web应用程序中阻止CSRF
- CCKS 2019 | 百度 CTO 王海峰详解知识图谱与语义理解
- 一篇文章带你搞懂 SpringBoot与Swagger整合
- #leetcode刷题之路27-移除元素
- 手把手教你批量保存花瓣图片到同一目录的技巧
- 【贪玩巴斯】无线传感器网络(二)「无线传感器网络中物理层的五点详解」 2021-09-24
- “那不勒斯”服务器芯片,那不勒斯定名 AMD发布全新CPU品牌EPYC
- 如何修改电脑用户文件名
- WDK与DDK的区别
- STM32学习笔记(六)丨TIM定时器及其应用(输入捕获丨测量PWM波形的频率和占空比)
- Mac使用XQuartz调图形化总结
- UGUI内核大探究(十一)ScrollRect与ScrollBar
- k8s常见报错解决--持续更新
- 长城宽带核心系统存严重漏洞,数十万用户、账单信息存泄露风险
- Modbus通讯协议简介