著名电影《逐梦演艺圈》的500条影评

参考链接

爬虫实战2(上):爬取豆瓣影评
爬虫实战2(下):爬取豆瓣影评

模拟登陆

此处对参考链接的代码进行了改动
import requests
url = 'https://accounts.douban.com/j/mobile/login/basic'
headers = {'user-agent': 'firefox'}
data = {"ck": "","name": "自己账号","password": "对应密码","remember": "false","ticket": ""
}
loginURL = "https://accounts.douban.com/j/mobile/login/basic"
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 SE 2.X MetaSr 1.0"
}
session = requests.Session()
session.post(url=loginURL, headers=headers, data=data)#参考链接中博主未添加headers这一选项,这会导致豆瓣的反爬虫机制执行,返回错误418
personalURL = "https://www.douban.com/people/157144720/"
r = session.get(personalURL,headers = headers)
if r.status_code == 200:print("登陆成功!\n")
else:print("登陆失败!")

一般情况下会登陆成功

正则匹配

author = re.compile('<div.*?="avatar".*?<a.*?="(.*?)".*?</a>', re.S)  # 作者
votes = re.compile('<div.*?="comment.*?<span.*?="votes">(.*?)</span>', re.S) #赞同
content = re.compile('<span.*?"short">(.*?)</span>', re.S)  # 内容
star = re.compile('<span.*?="allstar(.*?) rating".*?>')#打分

数据保存

import requests
import re
import time
import pandas as pd
path = "E:\\pycharm\\pachong\\逐梦演艺圈影评.csv"Author = []
Votes = []
Content = []
Star = []
for i in range(0, 25):index = i*20commentsURL = "https://movie.douban.com/subject/26322774/comments? start="+str(index)+"&limit=20&sort=new_score&status=P"response = session.get(commentsURL,headers = headers)page_code = response.text# print(page_code)# commentsItems = re.findall(pattern, page_code)au = re.findall(author,page_code)vo = re.findall(votes,page_code)co = re.findall(content,page_code)st = re.findall(star,page_code)Author+=auVotes+=voContent+=coStar+=sttime.sleep(3) # 太快防止被检测爬虫print("下载第{}页数据完毕!\n".format(i+1))result = {'Author':Author,'Votes':Votes,'Content':Content,'Star':Star}df = pd.DataFrame(data=result)
print(df.head(5))
df.to_csv(path,encoding='utf_8_sig')#防止乱码

成品如下图:

不过这个代码只能爬取500条评论,至于后面怎么爬取我就不得而知了。

python爬虫——电影《逐梦演艺圈》影评爬取相关推荐

  1. Python爬虫小白教程(二)—— 爬取豆瓣评分TOP250电影

    文章目录 前言 安装bs4库 网站分析 获取页面 爬取页面 页面分析 其他页面 爬虫系列 前言 经过上篇博客Python爬虫小白教程(一)-- 静态网页抓取后我们已经知道如何抓取一个静态的页面了,现在 ...

  2. python爬虫多久能学会-不踩坑的Python爬虫:如何在一个月内学会爬取大规模数据...

    原标题:不踩坑的Python爬虫:如何在一个月内学会爬取大规模数据 Python爬虫为什么受欢迎 如果你仔细观察,就不难发现,懂爬虫.学习爬虫的人越来越多,一方面,互联网可以获取的数据越来越多,另一方 ...

  3. 基于python爬虫————静态页面和动态页面爬取

    基于python爬虫----静态页面和动态页面爬取 文章目录 基于python爬虫----静态页面和动态页面爬取 1. 爬虫的原理 2. 用正则表达式匹配获取数据 3. 页面源码解析 4. 通过req ...

  4. python爬虫入门实战---------一周天气预报爬取_Python爬虫入门实战--------一周天气预报爬取【转载】【没有分析...

    Python爬虫入门实战--------一周天气预报爬取[转载][没有分析 Python爬虫入门实战--------一周天气预报爬取[转载][没有分析] 来源:https://blog.csdn.ne ...

  5. Python爬虫《自动化学报》数据爬取与数据分析

    Python爬虫<自动化学报>数据爬取与数据分析 文章目录 Python爬虫<自动化学报>数据爬取与数据分析 前言 一.代码 二.结果展示 三.爬虫实现 1.准备 2.获取网页 ...

  6. Python 爬虫 之 Selenium 模拟打开操作浏览器爬取斗鱼全部视播相关信息,并json保存信息

    Python 爬虫 之 Selenium 模拟打开操作浏览器爬取斗鱼全部视播相关信息,并json保存信息 基础: Python 爬虫 之 Selenium.webdriver 的安装,以及模拟打开操作 ...

  7. Python爬虫学习基础——5分钟学会爬取B站视频日播放量排行

    Python爬虫学习基础--5分钟学会爬取B站视频日播放量排行 基础包含 requests pyquery 进入正题 基础包含 这也是我当初第一次学习爬虫时做的练习,感觉给初学者练笔挺不错的.运用的知 ...

  8. Python爬虫系列(二):爬取中国大学排名丁香园-用户名和回复内容淘宝品比价

    Python爬虫系列(二):爬取中国大学排名&丁香园-用户名和回复内容&淘宝品比价 目录 Python爬虫系列(二):爬取中国大学排名&丁香园-用户名和回复内容&淘宝品 ...

  9. Python爬虫:用最普通的方法爬取ts文件并合成为mp4格式

    介绍: 在自学爬虫时,一开始就是爬取一些文字(比如小说之类的),再后来变成了图片,再后来变成了视频- 其中最简单的就是对文字的爬取了,从文字过渡到图片也只是多了几行代码而已,但是: 从图片过渡到视频就 ...

  10. Python爬虫-CSDN博客排行榜数据爬取

    文章目录 前言 网络爬虫 搜索引擎 爬虫应用 谨防违法 爬虫实战 网页分析 编写代码 运行效果 反爬技术 前言 开始接触 CTF 网络安全比赛发现不会写 Python 脚本的话简直寸步难行--故丢弃 ...

最新文章

  1. python matplotlib散点图-python的matplotlib散点图
  2. 手机淘宝以秒杀抢滩校园市场
  3. python django model定义
  4. php crypt mysql password_php使用crypt()函数进行加密
  5. docker 安装mysql_docker|docker安装mysql数据库
  6. vSAN其实很简单-重启大法真的适用于vSAN吗?
  7. C#中的StringBuilder类
  8. 字节跳动面试:kafka配置参数
  9. 【实施自动化测试项目】的7大必备条件!那些我踩过的坑......
  10. Linux驱动加载总结
  11. SpringCloud 与 SpringBoot 微服务 架构 | 面试题及答案详解
  12. html中css鼠标手势样式,CSS样式鼠标手势
  13. 供应链三道防线(读书笔记)2(共4)
  14. java画脸_用Java画人脸
  15. 转载:分配器、切换器、同屏器、分屏器 区别
  16. Sentinel2 哨兵2数据下载方法(USGS)-史上最全讲解
  17. 芯片积累及封装(hdc1080、EL357N-G、74HC_HCT4052、XL6009、lm7805、LM393-D、irlr3410、BST-BMP280-DS001-19)
  18. iOS的崩溃率高于Android?来自听云的数据告诉你真相
  19. “马赛克”真能去除了?老司机狂喜!
  20. 网吧电脑算完整的计算机系统么,怎么看网吧电脑的系统和位数?

热门文章

  1. 比较好的业界新闻网站
  2. DC基础知识总结(转)
  3. 『随感。』:生活琐事
  4. debian重启ssh服务_EUserv 德国永久免费VPS申请,仅有IPv6网络 另附IPv6服务器建站教程...
  5. 【分享】新浪微博、QQ分享、微信分享的申请过程
  6. 在Adobe Acrobat DC中设置PDF单页连续
  7. 最新C语言进阶实战(完整)
  8. 计算机多媒体课程教师教学心得,简易多媒体环境的教学功能心得体会
  9. Java实验报告(6)
  10. 全媒体运营师胡耀文教你:运营框架搭建让1个流量发挥大于4的价值