首先我们需要导入的有requests

bs4和BeautifulSoup

还有就是导入xlwt这个是excel文件

import requests
from bs4 import BeautifulSoup
import xlwtdef request_douban(url):try:response = requests.get(url)if response.status_code == 200:return response.textexcept requests.RequestException:return None
# 创建一个 excel 的 sheet
#
#
#
# 每一列就是我们要的关键内容book = xlwt.Workbook(encoding='utf-8', style_compression=0)sheet = book.add_sheet('豆瓣电影Top1000', cell_overwrite_ok=True)
sheet.write(0, 0, '名称')
sheet.write(0, 1, '图片')
sheet.write(0, 2, '排名')
sheet.write(0, 3, '评分')
sheet.write(0, 4, '作者')
sheet.write(0, 5, '简介')n = 1def save_to_excel(soup):list = soup.find(class_='grid_view').find_all('li')for item in list:item_name = item.find(class_='title').stringitem_img = item.find('a').find('img').get('src')item_index = item.find(class_='').stringitem_score = item.find(class_='rating_num').stringitem_author = item.find('p').textif (item.find(class_='inq') != None):item_intr = item.find(class_='inq').string# print('爬取电影:' + item_index + ' | ' + item_name +' | ' + item_img +' | ' + item_score +' | ' + item_author +' | ' + item_intr )print('爬取电影:' + item_index + ' | ' + item_name + ' | ' + item_score + ' | ' + item_intr)# global只做全局变量的声明,而不是一般的执行语句global nsheet.write(n, 0, item_name)sheet.write(n, 1, item_img)sheet.write(n, 2, item_index)sheet.write(n, 3, item_score)sheet.write(n, 4, item_author)sheet.write(n, 5, item_intr)n = n + 1def main(page):url = 'https://movie.douban.com/top250?start=' + str(page * 25) + '&filter='html = request_douban(url)soup = BeautifulSoup(html, 'lxml')save_to_excel(soup)if __name__ == '__main__':for i in range(0, 40):main(i)book.save(u'豆瓣最受欢迎的1000部电影.xlsx')

python3爬取豆瓣最火电影相关推荐

  1. Python3 爬取豆瓣电影信息

    原文链接: Python3 爬取豆瓣电影信息 上一篇: python3 爬取电影信息 下一篇: neo4j 查询 豆瓣api https://developers.douban.com/wiki/?t ...

  2. 第一次写爬虫程序爬取豆瓣5W条电影数据

    第一次写爬虫程序爬取豆瓣5W条电影数据 最近工作比较不是很忙,想到之前使用httpclient和jsoup爬取过一次豆瓣电影TOP250,但总觉得数据量太小,不过瘾.于是趁着最近不是很忙的机会,重新写 ...

  3. Python爬取豆瓣热映电影

    Python爬取豆瓣热映电影 # encoding: utf-8import requests from lxml import etree# 1. 将目标网站上的页面抓取下来 headers = { ...

  4. Python爬虫小白教程(二)—— 爬取豆瓣评分TOP250电影

    文章目录 前言 安装bs4库 网站分析 获取页面 爬取页面 页面分析 其他页面 爬虫系列 前言 经过上篇博客Python爬虫小白教程(一)-- 静态网页抓取后我们已经知道如何抓取一个静态的页面了,现在 ...

  5. 使用python3爬取豆瓣电影top250

    经过一个多星期的学习,对python3的语法有了一定了解,马上动手做了一个爬虫,检验学习效果 目标 爬取豆瓣电影top250中每一部电影的名称.排名.链接.名言.评分 准备工作 运行平台:window ...

  6. 使用python3 爬取豆瓣电影热映和即将上映

    使用python3爬取都摆即将上映和正在热映的电影,代码如下 直接使用bs4获取页面,使用css 获取到对应的信息后,使用字符串拼接的方式,将正在热映和即将上映的信息拼接出来并写入到html页面中,在 ...

  7. 用Python爬取豆瓣首页所有电影名称、每部电影影评及生成词云

    1.爬取环境: window 7 Chrome 浏览器 注册豆瓣.注册超级鹰 2.安装第三方库:安装第三方库: 主程序用到的库有 import sys, time import pytesseract ...

  8. Python 爬取周杰伦歌曲信息,爬取豆瓣top250的电影,并保存至excel中

    使用requests.BeautifulSoup模块,在网上爬取信息.有的网页可以直接爬取到,有些则需要分步加载,这时就需要使用network进行分析找到信息对应的请求. 有的会反爬虫,则需要添加he ...

  9. python爬虫实践之爬取豆瓣高评分电影

    目录 概述 准备 所需模块 涉及知识点 运行效果 完成爬虫 1. 分析网页 2. 爬虫代码 3. 整理总结 概述 爬取豆瓣的高评分的电影. 准备 所需模块 re模块 requests模块 涉及知识点 ...

  10. python scrapy爬取豆瓣即将上映电影用邮件定时推送给自己

    本文不是python.scrapy的教程,而是分享一个好玩的点子. python教程请看python教程,scrapy教程请看scrapy教程 爬取豆瓣高分电影教程参考python爬虫入门笔记:用sc ...

最新文章

  1. 苹果6怎么截屏_蓝苹果多肉怎么养,掌握这6种养殖方法
  2. vim tab设置为4个空格
  3. 【Python】青少年蓝桥杯_每日一题_5.03_判断是否是三角形
  4. 打印菱形(曼哈顿距离法)
  5. java 链接为分布式 hbase,hbase学习记录(一):hbase伪分布式安装
  6. 外媒:欧盟针对谷歌语音助手展开反垄断调查
  7. python中属于无序序列的有_Python字典和集合属于无序序列。(2.0分)_学小易找答案...
  8. transformer模型_【预训练模型】万字长文梳理NLP预训练模型!从transformer到albert...
  9. 定位需求 整理思路 组装函数
  10. oppok3如何刷机_OPPO K3刷机教程?
  11. 2021华为精英软件挑战赛总结
  12. 从应用层设置mx31-pdk板的lcd背光亮度
  13. Linux-基础部分
  14. 怎么解决打印机“正在删除-已发送到打印机”打印状态
  15. 【富文本】wangeditor编辑器简单使用(自定义图片上传)
  16. MEM/MBA 复试准备(01)复试流程与内容
  17. 计算机网络之(7):TCP流量控制、拥塞控制 + 网络层
  18. 腾讯TBS浏览服务打开word.pdf.ppt等文档的使用
  19. Candance Allegro 16.6操作流程补充
  20. PAT 甲级1116 1117 1118 1119 解题报告

热门文章

  1. 干货|开卷有益,大神级程序猿都在看的17本书
  2. 【N32G457】基于RT-Thread和N32G457的高阶魔方
  3. 一线城市重金扶持区块链项目 2020年产业规模将超百亿元
  4. 聊一聊 HTTPS 的工作原理
  5. python网络爬虫(第十一章:Scrapy框架实战:爬取网页新闻标题和内容)
  6. 日常软件And网页浏览
  7. 计算机基础--校验码
  8. 小白学 Python(17):基础数据类型(函数)(下)
  9. hdu4506 小明系列故事——师兄帮帮忙 解题报告
  10. 向HDFS中指定的文件追加内容,由用户指定内容追加到原有文件的开头或结尾