用python对电影的爬取并保存在csv

import requests
import re
import csv
from lxml import etree
class movie(object):
def init(self):
self.ur=“https://www.ygdy8.net/html/gndy/dyzz/list_23_{}.html”
self.headers={“User-Agent”: “Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:73.0) Gecko/20100101 Firefox/73.0”}
self.baseur=“https://www.ygdy8.net”
#访问页面
def findtip(self,ur):
response=requests.get(ur,headers=self.headers)
response.encoding=“gb2312”
#获取电影名字
test=re.findall(r’<a.?class=“ulink”(.?)’,response.text,re.S)
#对名字进行处理
mingzi = []
for int in test:
a = int.replace(‘BD中英双字幕’, ‘’)
c = a.replace(‘BD国英双语双字’, ‘’)
d = c.replace(‘BD国语中字’, ‘’)
h = d.replace(‘BD中字’, ‘’)
k = h.replace(‘BD国语中英双字’, ‘’)
t = h.replace(’>’, ‘’)
o = t.replace(‘2019年’, ‘’)
mingzi.append(o)
# 获得电影链接
text=etree.HTML(response.text)
movie_url=text.xpath("//b/a[@class=‘ulink’]/@href")
#对连接进行处理
lianjie = []
for page in movie_url:
movieurl = self.baseur + page
lianjie.append(movieurl)
self.addname(mingzi,lianjie)
#保存数据
def addname(self,mingzi,lianjie):
namelianjie=zip(mingzi,lianjie)
with open(‘ss.csv’,‘a’,encoding=‘utf-8’,newline=’’) as f:
for namelianjie1 in namelianjie:
write=csv.writer(f)
write.writerow(namelianjie1)
#获取所有页数
def findpage(self):
for page in range(10):
b=self.ur.format(page)
self.findtip(b)

moviewibet=movie()
moviewibet.findpage()

用python对电影的爬取并保存在csv相关推荐

基于Python的电影票房爬取与可视化系统的设计与实现
博主介绍:✌全网粉丝30W+,csdn特邀作者.博客专家.CSDN新星计划导师.java领域优质创作者,博客之星.掘金/华为云/阿里云/InfoQ等平台优质作者.专注于Java技术领域和毕业项目实战✌
Colly实现豆瓣电影Top250爬取
使用 Colly 实现豆瓣电影Top250爬取 package mainimport ("encoding/csv""github.com/PuerkitoBio/go ...
python 爬虫实例电影-Python爬虫教程-17-ajax爬取实例（豆瓣电影）
Python爬虫教程-17-ajax爬取实例(豆瓣电影) ajax: 简单的说,就是一段js代码,通过这段代码,可以让页面发送异步的请求,或者向服务器发送一个东西,即和服务器进行交互对于ajax: ...
Python爬虫入门（爬取豆瓣电影信息小结）
Python爬虫入门(爬取豆瓣电影信息小结) 1.爬虫概念网络爬虫,是一种按照一定规则,自动抓取互联网信息的程序或脚本.爬虫的本质是模拟浏览器打开网页,获取网页中我们想要的那部分数据. 2.基本流程 ...
python爬猫眼电影影评,Python系列爬虫之爬取并简单分析猫眼电影影评
前言今天给大家介绍利用Python爬取并简单分析猫眼电影影评.让我们愉快地开始吧~ 开发工具 Python版本:3.6.4 相关模块: requests模块: pyecharts模块: jieba模 ...
python爬取豆瓣排行榜电影(静态爬取)(二次爬取)
目录 python爬取豆瓣排行榜电影(静态爬取) 获取网站url 获取网站headers get请求访问url BeautifulSoup解析网站爬取html数据完整代码 python爬取豆瓣排行 ...
python爬虫 requests+bs4爬取猫眼电影傻瓜版教程
python爬虫 requests+bs4爬取猫眼电影傻瓜版教程前言一丶整体思路二丶遇到的问题三丶分析URL 四丶解析页面五丶写入文件六丶完整代码七丶最后前言大家好我是墨绿头顶总 ...
Python爬虫实战(1) | 爬取豆瓣网排名前250的电影（下）
在Python爬虫实战(1) | 爬取豆瓣网排名前250的电影(上)中,我们最后爬出来的结果不是很完美,这对于"精益求精.追求完美的"程序猿来说怎么能够甘心所以,今天,用pyth ...
Python实战之如何爬取猫眼电影排行？本文详解
本节中,我们利用requests库和正则表达式来抓取猫眼电影TOP100的相关内容.requests比urllib使用更加方便,而且目前我们还没有系统学习HTML解析库,所以这里就选用正则表达式来作为 ...
Python爬虫系列之爬取猫眼电影，没办法出门就补一下往期电影吧
前言今天给大家介绍利用Python爬取并简单分析猫眼电影影评.让我们愉快地开始吧~ 开发工具 Python版本:3.6.4 相关模块: requests模块: pyecharts模块: jieba模 ...

用python对电影的爬取并保存在csv