用python对电影的爬取 并保存在csv
import requests
import re
import csv
from lxml import etree
class movie(object):
def init(self):
self.ur=“https://www.ygdy8.net/html/gndy/dyzz/list_23_{}.html”
self.headers={“User-Agent”: “Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:73.0) Gecko/20100101 Firefox/73.0”}
self.baseur=“https://www.ygdy8.net”
#访问页面
def findtip(self,ur):
response=requests.get(ur,headers=self.headers)
response.encoding=“gb2312”
#获取电影名字
test=re.findall(r’<a.?class=“ulink”(.?)’,response.text,re.S)
#对名字进行处理
mingzi = []
for int in test:
a = int.replace(‘BD中英双字幕’, ‘’)
c = a.replace(‘BD国英双语双字’, ‘’)
d = c.replace(‘BD国语中字’, ‘’)
h = d.replace(‘BD中字’, ‘’)
k = h.replace(‘BD国语中英双字’, ‘’)
t = h.replace(’>’, ‘’)
o = t.replace(‘2019年’, ‘’)
mingzi.append(o)
# 获得电影链接
text=etree.HTML(response.text)
movie_url=text.xpath("//b/a[@class=‘ulink’]/@href")
#对连接进行处理
lianjie = []
for page in movie_url:
movieurl = self.baseur + page
lianjie.append(movieurl)
self.addname(mingzi,lianjie)
#保存数据
def addname(self,mingzi,lianjie):
namelianjie=zip(mingzi,lianjie)
with open(‘ss.csv’,‘a’,encoding=‘utf-8’,newline=’’) as f:
for namelianjie1 in namelianjie:
write=csv.writer(f)
write.writerow(namelianjie1)
#获取所有页数
def findpage(self):
for page in range(10):
b=self.ur.format(page)
self.findtip(b)
moviewibet=movie()
moviewibet.findpage()
用python对电影的爬取 并保存在csv相关推荐
- 基于Python的电影票房爬取与可视化系统的设计与实现
博主介绍:✌全网粉丝30W+,csdn特邀作者.博客专家.CSDN新星计划导师.java领域优质创作者,博客之星.掘金/华为云/阿里云/InfoQ等平台优质作者.专注于Java技术领域和毕业项目实战✌
- Colly实现豆瓣电影Top250爬取
使用 Colly 实现 豆瓣电影Top250爬取 package mainimport ("encoding/csv""github.com/PuerkitoBio/go ...
- python 爬虫实例 电影-Python爬虫教程-17-ajax爬取实例(豆瓣电影)
Python爬虫教程-17-ajax爬取实例(豆瓣电影) ajax: 简单的说,就是一段js代码,通过这段代码,可以让页面发送异步的请求,或者向服务器发送一个东西,即和服务器进行交互 对于ajax: ...
- Python爬虫入门(爬取豆瓣电影信息小结)
Python爬虫入门(爬取豆瓣电影信息小结) 1.爬虫概念 网络爬虫,是一种按照一定规则,自动抓取互联网信息的程序或脚本.爬虫的本质是模拟浏览器打开网页,获取网页中我们想要的那部分数据. 2.基本流程 ...
- python爬猫眼电影影评,Python系列爬虫之爬取并简单分析猫眼电影影评
前言 今天给大家介绍利用Python爬取并简单分析猫眼电影影评.让我们愉快地开始吧~ 开发工具 Python版本:3.6.4 相关模块: requests模块: pyecharts模块: jieba模 ...
- python爬取豆瓣排行榜电影(静态爬取)(二次爬取)
目录 python爬取豆瓣排行榜电影(静态爬取) 获取网站url 获取网站headers get请求访问url BeautifulSoup解析网站 爬取html数据 完整代码 python爬取豆瓣排行 ...
- python爬虫 requests+bs4爬取猫眼电影 傻瓜版教程
python爬虫 requests+bs4爬取猫眼电影 傻瓜版教程 前言 一丶整体思路 二丶遇到的问题 三丶分析URL 四丶解析页面 五丶写入文件 六丶完整代码 七丶最后 前言 大家好我是墨绿 头顶总 ...
- Python爬虫实战(1) | 爬取豆瓣网排名前250的电影(下)
在Python爬虫实战(1) | 爬取豆瓣网排名前250的电影(上)中,我们最后爬出来的结果不是很完美,这对于"精益求精.追求完美的"程序猿来说怎么能够甘心 所以,今天,用pyth ...
- Python实战之如何爬取猫眼电影排行?本文详解
本节中,我们利用requests库和正则表达式来抓取猫眼电影TOP100的相关内容.requests比urllib使用更加方便,而且目前我们还没有系统学习HTML解析库,所以这里就选用正则表达式来作为 ...
- Python爬虫系列之爬取猫眼电影,没办法出门就补一下往期电影吧
前言 今天给大家介绍利用Python爬取并简单分析猫眼电影影评.让我们愉快地开始吧~ 开发工具 Python版本:3.6.4 相关模块: requests模块: pyecharts模块: jieba模 ...
最新文章
- 第二章 微服务网关基础组件 - zuul入门
- 解决chrome 很卡的问题
- mongo-connector导入数据到Elasticsearch
- 在notepad++中运行python代码
- 微服务面试 - 微服务简单介绍
- 开源数据库在平安的应用实践
- Linux(二):VMware虚拟机中Ubuntu安装详细过程
- JAVA08 多态
- 判断x是否为2的n次幂
- bzoj2324: [ZJOI2011]营救皮卡丘
- UE4-蓝图-角色的移动,视角控制(五)人物走动到停下过度动画
- 计算机识别人脸原理,深入浅出人脸识别原理
- c语言角度换成弧度的编码,角度弧度转换代码
- 图的计算(1):图的矩阵表示
- 2010新浪笔试---数据挖掘
- Python 机器学习 | 超参数优化 黑盒(Black-Box)非凸优化技术实践
- 树莓派3B+安装Raspbian简易教程
- qq音信点亮最全说明
- erlang 编译安装
- 网站底部的统计代码HTML