我采用了requests模块和Xpath。
关键点1:XPATH的分析和综合,xpath通过chrome浏览器复制,具体方法网上很多,这里不再赘述。以下是前3条电影名称的xpath:

  1.  //*[@id="content"]/div/div[1]/ol/li[1]/div/div[2]/div[1]/a/span[1]
    
  2.  //*[@id="content"]/div/div[1]/ol/li[2]/div/div[2]/div[1]/a/span[1]
    
  3.  //*[@id="content"]/div/div[1]/ol/li[3]/div/div[2]/div[1]/a/span[1]
    

观察发现li后面的数字随电影序号递增。至此规律找出,此外,要获得电影名称,需要在其后面加上/text()表示获取内容。
【补充点废话,电影名字还有英文名,甚至有另外一个中文名,其xpath的区别就是span后面的数字】

关键点2:如果没有headers,方法requests.get()很难成功。
我这里的headers是在网上随便复制了一个。网上有很多,有那种headers集,准确的说是user_agent 集。可以用来模拟不同浏览器访问某一个网址。我这里就只用了一个headers。没有报错。

废话少说,上代码(Python版本:3.8.2;系统:win10系统64位):


import requests
from lxml import etreeuser_agent = 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36'
headers = { 'User-Agent' : user_agent }
for i in range(10):url = 'https://movie.douban.com/top250?start='+str(25*i)html = requests.get(url,headers=headers)etree_html = etree.HTML(html.text)for j in range(1,26):a = etree_html.xpath('//*[@id="content"]/div/div[1]/ol/li['+str(j)+']/div/div[2]/div[1]/a/span[1]/text()')print('No.'+str(25*i+j)+':'+a[0]+'\n')

运行结果:
No.1:肖申克的救赎

No.2:霸王别姬

No.3:阿甘正传

No.4:这个杀手不太冷

No.5:美丽人生

No.6:泰坦尼克号

No.7:千与千寻

No.8:辛德勒的名单

No.9:盗梦空间

No.10:忠犬八公的故事

No.11:海上钢琴师

No.12:楚门的世界

No.13:三傻大闹宝莱坞

No.14:机器人总动员

No.15:放牛班的春天

No.16:星际穿越

No.17:大话西游之大圣娶亲

No.18:熔炉

No.19:疯狂动物城

No.20:无间道

No.21:龙猫

No.22:教父

No.23:当幸福来敲门

No.24:怦然心动

No.25:触不可及

No.26:蝙蝠侠:黑暗骑士

No.27:控方证人

No.28:活着

No.29:乱世佳人

No.30:寻梦环游记

No.31:末代皇帝

No.32:摔跤吧!爸爸

No.33:指环王3:王者无敌

No.34:何以为家

No.35:少年派的奇幻漂流

No.36:飞屋环游记

No.37:十二怒汉

No.38:鬼子来了

No.39:天空之城

No.40:大话西游之月光宝盒

No.41:哈尔的移动城堡

No.42:素媛

No.43:天堂电影院

No.44:罗马假日

No.45:闻香识女人

No.46:辩护人

No.47:哈利·波特与魔法石

No.48:搏击俱乐部

No.49:我不是药神

No.50:死亡诗社

No.51:教父2

No.52:指环王2:双塔奇兵

No.53:狮子王

No.54:窃听风暴

No.55:大闹天宫

No.56:指环王1:魔戒再现

No.57:两杆大烟枪

No.58:美丽心灵

No.59:饮食男女

No.60:猫鼠游戏

No.61:飞越疯人院

No.62:黑客帝国

No.63:钢琴家

No.64:V字仇杀队

No.65:本杰明·巴顿奇事

No.66:看不见的客人

No.67:让子弹飞

No.68:西西里的美丽传说

No.69:小鞋子

No.70:海豚湾

No.71:拯救大兵瑞恩

No.72:情书

No.73:穿条纹睡衣的男孩

No.74:音乐之声

No.75:美国往事

No.76:绿皮书

No.77:致命魔术

No.78:海蒂和爷爷

No.79:低俗小说

No.80:七宗罪

No.81:沉默的羔羊

No.82:蝴蝶效应

No.83:春光乍泄

No.84:禁闭岛

No.85:被嫌弃的松子的一生

No.86:心灵捕手

No.87:布达佩斯大饭店

No.88:阿凡达

No.89:剪刀手爱德华

No.90:勇敢的心

No.91:摩登时代

No.92:天使爱美丽

No.93:喜剧之王

No.94:致命ID

No.95:加勒比海盗

No.96:断背山

No.97:杀人回忆

No.98:狩猎

No.99:幽灵公主

No.100:哈利·波特与死亡圣器(下)

No.101:请以你的名字呼唤我

No.102:阳光灿烂的日子

No.103:入殓师

No.104:重庆森林

No.105:第六感

No.106:小森林 夏秋篇

No.107:7号房的礼物

No.108:消失的爱人

No.109:红辣椒

No.110:小森林 冬春篇

No.111:爱在黎明破晓前

No.112:侧耳倾听

No.113:玛丽和马克思

No.114:一一

No.115:唐伯虎点秋香

No.116:告白

No.117:蝙蝠侠:黑暗骑士崛起

No.118:大鱼

No.119:阳光姐妹淘

No.120:倩女幽魂

No.121:超脱

No.122:射雕英雄传之东成西就

No.123:萤火之森

No.124:甜蜜蜜

No.125:驯龙高手

No.126:无人知晓

No.127:超能陆战队

No.128:幸福终点站

No.129:菊次郎的夏天

No.130:借东西的小人阿莉埃蒂

No.131:爱在日落黄昏时

No.132:恐怖直播

No.133:完美的世界

No.134:神偷奶爸

No.135:怪兽电力公司

No.136:玩具总动员3

No.137:风之谷

No.138:血战钢锯岭

No.139:功夫

No.140:傲慢与偏见

No.141:上帝之城

No.142:时空恋旅人

No.143:教父3

No.144:人生果实

No.145:电锯惊魂

No.146:喜宴

No.147:天书奇谭

No.148:谍影重重3

No.149:英雄本色

No.150:被解救的姜戈

No.151:岁月神偷

No.152:七武士

No.153:哪吒闹海

No.154:我是山姆

No.155:疯狂原始人

No.156:纵横四海

No.157:头号玩家

No.158:三块广告牌

No.159:心迷宫

No.160:萤火虫之墓

No.161:釜山行

No.162:达拉斯买家俱乐部

No.163:真爱至上

No.164:荒蛮故事

No.165:东邪西毒

No.166:贫民窟的百万富翁

No.167:记忆碎片

No.168:爆裂鼓手

No.169:你的名字。

No.170:黑天鹅

No.171:花样年华

No.172:卢旺达饭店

No.173:哈利·波特与阿兹卡班的囚徒

No.174:忠犬八公物语

No.175:黑客帝国3:矩阵革命

No.176:模仿游戏

No.177:头脑特工队

No.178:一个叫欧维的男人决定去死

No.179:雨人

No.180:你看起来好像很好吃

No.181:未麻的部屋

No.182:哈利·波特与密室

No.183:无敌破坏王

No.184:恋恋笔记本

No.185:冰川时代

No.186:海街日记

No.187:新世界

No.188:海边的曼彻斯特

No.189:二十二

No.190:虎口脱险

No.191:房间

No.192:恐怖游轮

No.193:惊魂记

No.194:魔女宅急便

No.195:奇迹男孩

No.196:人工智能

No.197:雨中曲

No.198:疯狂的石头

No.199:罗生门

No.200:海洋

No.201:爱在午夜降临前

No.202:小偷家族

No.203:终结者2:审判日

No.204:初恋这件小事

No.205:魂断蓝桥

No.206:燃情岁月

No.207:可可西里

No.208:穿越时空的少女

No.209:绿里奇迹

No.210:2001太空漫游

No.211:牯岭街少年杀人事件

No.212:完美陌生人

No.213:城市之光

No.214:无耻混蛋

No.215:阿飞正传

No.216:新龙门客栈

No.217:源代码

No.218:香水

No.219:谍影重重2

No.220:青蛇

No.221:地球上的星星

No.222:谍影重重

No.223:战争之王

No.224:血钻

No.225:猜火车

No.226:色,戒

No.227:遗愿清单

No.228:大佛普拉斯

No.229:疯狂的麦克斯4:狂暴之路

No.230:步履不停

No.231:彗星来的那一夜

No.232:朗读者

No.233:浪潮

No.234:小萝莉的猴神大叔

No.235:再次出发之纽约遇见你

No.236:聚焦

No.237:驴得水

No.238:东京物语

No.239:追随

No.240:一次别离

No.241:九品芝麻官

No.242:千钧一发

No.243:我爱你

No.244:黑鹰坠落

No.245:哈利·波特与火焰杯

No.246:四个春天

No.247:网络谜踪

No.248:发条橙

No.249:E.T. 外星人

No.250:黑客帝国2:重装上阵

欢迎使用Markdown编辑器

你好! 这是你第一次使用 **Mn编辑器, 可以仔细阅读这篇文章,了解一下Markdown的基本语法知识。

新的改变

我们对Markdown编辑器进行了一些功能拓展与语法支持,除了标准的Markdown编辑器功能,我们增加了如下几点新功能,帮助你用它写博客:

  1. 全新的界面设计 ,将会带来全新的写作体验;
  2. 在创作中心设置你喜爱的代码高亮样式,Markdown 将代码片显示选择的高亮样式 进行展示;
  3. 增加了 图片拖拽 功能,你可以将本地的图片直接拖拽到编辑区域直接展示;
  4. 全新的 KaTeX数学公式 语法;
  5. 增加了支持甘特图的mermaid语法1 功能;
  6. 增加了 多屏幕编辑 Markdown文章功能;
  7. 增加了 焦点写作模式、预览模式、简洁写作模式、左右区域同步滚轮设置 等功能,功能按钮位于编辑区域与预览区域中间;
  8. 增加了 检查列表 功能。

功能快捷键

撤销:Ctrl/Command + Z
重做:Ctrl/Command + Y
加粗:Ctrl/Command + B
斜体:Ctrl/Command + I
标题:Ctrl/Command + Shift + H
无序列表:Ctrl/Command + Shift + U
有序列表:Ctrl/Command + Shift + O
检查列表:Ctrl/Command + Shift + C
插入代码:Ctrl/Command + Shift + K
插入链接:Ctrl/Command + Shift + L
插入图片:Ctrl/Command + Shift + G
查找:Ctrl/Command + F
替换:Ctrl/Command + G

合理的创建标题,有助于目录的生成

直接输入1次#,并按下space后,将生成1级标题。
输入2次#,并按下space后,将生成2级标题。
以此类推,我们支持6级标题。有助于使用TOC语法后生成一个完美的目录。

如何改变文本的样式

强调文本 强调文本

加粗文本 加粗文本

标记文本

删除文本

引用文本

H2O is是液体。

210 运算结果是 1024.

插入链接与图片

链接: link.

图片:

带尺寸的图片:

居中的图片:

居中并且带尺寸的图片:

当然,我们为了让用户更加便捷,我们增加了图片拖拽功能。

如何插入一段漂亮的代码片

去博客设置页面,选择一款你喜欢的代码片高亮样式,下面展示同样高亮的 代码片.

// An highlighted block
var foo = 'bar';

生成一个适合你的列表

  • 项目

    • 项目

      • 项目
  1. 项目1
  2. 项目2
  3. 项目3
  • 计划任务
  • 完成任务

创建一个表格

一个简单的表格是这么创建的:

项目 Value
电脑 $1600
手机 $12
导管 $1

设定内容居中、居左、居右

使用:---------:居中
使用:----------居左
使用----------:居右

第一列 第二列 第三列
第一列文本居中 第二列文本居右 第三列文本居左

SmartyPants

SmartyPants将ASCII标点字符转换为“智能”印刷标点HTML实体。例如:

TYPE ASCII HTML
Single backticks 'Isn't this fun?' ‘Isn’t this fun?’
Quotes "Isn't this fun?" “Isn’t this fun?”
Dashes -- is en-dash, --- is em-dash – is en-dash, — is em-dash

创建一个自定义列表

Markdown
Text-to-HTML conversion tool
Authors
John
Luke

如何创建一个注脚

一个具有注脚的文本。2

注释也是必不可少的

Markdown将文本转换为 HTML

KaTeX数学公式

您可以使用渲染LaTeX数学表达式 KaTeX:

Gamma公式展示 Γ(n)=(n−1)!∀n∈N\Gamma(n) = (n-1)!\quad\forall n\in\mathbb NΓ(n)=(n−1)!∀n∈N 是通过欧拉积分

Γ(z)=∫0∞tz−1e−tdt.\Gamma(z) = \int_0^\infty t^{z-1}e^{-t}dt\,. Γ(z)=∫0∞​tz−1e−tdt.

你可以找到更多关于的信息 LaTeX 数学表达式here.

新的甘特图功能,丰富你的文章

Mon 06Mon 13Mon 20已完成 进行中 计划一 计划二 现有任务Adding GANTT diagram functionality to mermaid
  • 关于 甘特图 语法,参考 这儿,

UML 图表

可以使用UML图表进行渲染。 Mermaid. 例如下面产生的一个序列图:

张三李四王五你好!李四, 最近怎么样?你最近怎么样,王五?我很好,谢谢!我很好,谢谢!李四想了很长时间,文字太长了不适合放在一行.打量着王五...很好... 王五, 你怎么样?张三李四王五

这将产生一个流程图。:

链接
长方形
圆角长方形
菱形
  • 关于 Mermaid 语法,参考 这儿,

FLowchart流程图

我们依旧会支持flowchart的流程图:

Created with Raphaël 2.2.0开始我的操作确认?结束yesno
  • 关于 Flowchart流程图 语法,参考 这儿.

导出与导入

导出

如果你想尝试使用此编辑器, 你可以在此篇文章任意编辑。当你完成了一篇文章的写作, 在上方工具栏找到 文章导出 ,生成一个.md文件或者.html文件进行本地保存。

导入

如果你想加载一篇你写过的.md文件,在上方工具栏可以选择导入功能进行对应扩展名的文件导入,
继续你的创作。


  1. mermaid语法说明 ↩︎

  2. 注脚的解释 ↩︎

我的第一个博客:爬取豆瓣top250电影名相关推荐

  1. task1 - 爬取豆瓣Top250电影名

    豆瓣Top250电影名怎么爬 参考博文:https://www.cnblogs.com/leon507/p/7614345.html 怎么实现 因为没有系统学习过,所以只能做搬运工.看了几篇有关爬取豆 ...

  2. python爬虫--爬取豆瓣top250电影名

    关于模拟浏览器登录的header,可以在相应网站按F12调取出编辑器,点击netwook,如下: 以便于不会被网站反爬虫拒绝. 1 import requests 2 from bs4 import ...

  3. [python爬虫] BeautifulSoup和Selenium对比爬取豆瓣Top250电影信息

    这篇文章主要对比BeautifulSoup和Selenium爬取豆瓣Top250电影信息,两种方法从本质上都是一样的,都是通过分析网页的DOM树结构进行元素定位,再定向爬取具体的电影信息,通过代码的对 ...

  4. 【实战1】用BeatuifulSoup解析器爬取豆瓣Top250电影的名称

    [实战1]用BeatuifulSoup解析器爬取豆瓣Top250电影的名称 一. 爬虫的普遍步骤 二. 项目目标分析 三.完整爬取代码 参考链接: https://www.bilibili.com/v ...

  5. Python爬取豆瓣Top250电影中2000年后上映的影片信息

    Python爬取豆瓣Top250电影中2000年后上映的影片信息 前言 双十一前加在京东购物车的一个东西,价格330,Plus会员用券后差不多310.双十一当天打开看了下399,还得去抢满300减10 ...

  6. 爬取豆瓣TOP250电影的评分、评价人数、短评等信息,并在其保存在sql数据库中。

    爬取目标 爬取豆瓣TOP250电影的评分.评价人数.短评等信息,并在其保存在sql数据库中. 最终实现效果如图: 确定爬取的URL 爬取的网页地址为:https://movie.douban.com/ ...

  7. 爬取豆瓣top250电影并分析

    爬取豆瓣top250电影,提取评论关键词,然后将同一国家的关键词做成一个词云,轮廓是每个国家的地图轮廓 爬取数据 需要爬取电影名称.导演.年份.地区和前10个评论除了地区,其他的都没什么问题,我们来研 ...

  8. scrapy爬取豆瓣top250电影数据

    scrapy爬取豆瓣top250电影数据 scrapy框架 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中. sc ...

  9. 【实战2】爬取豆瓣Top250电影的海报

    [实战2]爬取豆瓣Top250电影的海报 一. 项目目标分析 二. 完整代码 参考链接: https://www.bilibili.com/video/BV1ZJ411N7Fq?p=4 一. 项目目标 ...

  10. python采用requests+bs4爬取豆瓣top250电影信息

    爬取豆瓣top250电影说明 (链接:https://movie.douban.com/top250,可爬取一页或者多页(输出电影的正标题(肖申克的救赎),副标题( The Shawshank Red ...

最新文章

  1. 选 Offer 的 5 个维度
  2. git rm–r folder/file fatal:pathspec did not match any files
  3. 朴素贝叶斯--实战分析
  4. AbstractListView源码分析4
  5. JVM插桩之三:javaagent介绍及javassist介绍
  6. web csrf java_在Java Web应用程序中阻止CSRF
  7. CCKS 2019 | 百度 CTO 王海峰详解知识图谱与语义理解
  8. 一篇文章带你搞懂 SpringBoot与Swagger整合
  9. #leetcode刷题之路27-移除元素
  10. 手把手教你批量保存花瓣图片到同一目录的技巧
  11. 【贪玩巴斯】无线传感器网络(二)「无线传感器网络中物理层的五点详解」 2021-09-24
  12. “那不勒斯”服务器芯片,那不勒斯定名 AMD发布全新CPU品牌EPYC
  13. 如何修改电脑用户文件名
  14. WDK与DDK的区别
  15. STM32学习笔记(六)丨TIM定时器及其应用(输入捕获丨测量PWM波形的频率和占空比)
  16. Mac使用XQuartz调图形化总结
  17. UGUI内核大探究(十一)ScrollRect与ScrollBar
  18. k8s常见报错解决--持续更新
  19. 长城宽带核心系统存严重漏洞,数十万用户、账单信息存泄露风险
  20. Modbus通讯协议简介

热门文章

  1. Ubuntu安装使用(一)
  2. 小猪短租网requests库使用
  3. 详解CAN总线:什么是CAN总线?
  4. LU分解、矩阵求逆与解线性方程组(matlab代码)
  5. word 目录 有一部分无无虚线,解决办法
  6. Cypress 自定义方法命令
  7. [Linux]CentOS修改YUM镜像地址提高下载速度
  8. 泰坦尼克号生命值预测
  9. python转换excel 列号 为数字 数字转为列号
  10. 2021年全球手工具收入大约16510百万美元,预计2028年达到18370百万美元