Python 2.7_Second_try_爬取阳光电影网_获取电影下载地址并写入文件 20161207

1、昨天文章http://www.cnblogs.com/Mr-Cxy/p/6139705.html 是获取电影网站主菜单然后获取每个菜单下的电影url

2、今天是对电影url 进行再次解析获取下载地址并写入文件

4、python 代码

#coding:utf-8
import requests
from bs4 import BeautifulSoup as bs#爬取入口
rooturl="http://www.ygdy8.com/index.html"
#获取网页源码
res=requests.get(rooturl)
#网站编码gb2312
res.encoding='gb2312'
#网页源码
html=res.text
soup=bs(html,'html.parser')
cate_urls = []
for cateurl in soup.select('.contain ul li a'):#网站分类标题cate_name=cateurl.text.encode('utf-8')#分类url 进行再次爬取cate_url="http://www.ygdy8.com/"+ cateurl['href']cate_urls.append(cate_url)print "网站一级菜单:",cate_name,"菜单网址：",cate_url# newdir = "E:/moive24/"+ cate_name# os.makedirs(newdir.decode("utf-8"))# print "创建分类目录成功------" + newdir
#每个菜单url 解析
for i in range(len(cate_urls)):cate_listurl=cate_urls[i]res = requests.get(cate_listurl)res.encoding = 'gb2312'html = res.textsoup = bs(html, 'html.parser')print "正在解析第"+str(i+1)+"个链接",cate_urls[i]contenturls=[]contents=soup.select('.co_content8 ul')[0].select('a')#print contentsfor title in contents:moivetitle=title.text.encode('utf-8')moiveurl="http://www.ygdy8.com/"+ title['href']contenturls.append(moiveurl)print moivetitle,moiveurl# file_name=newdir +'/'+ moivetitle +'.txt'# print file_name# f = open(file_name.decode("utf-8"), "wb")# f.close()res = requests.get(moiveurl)res.encoding = 'gb2312'html = res.textsoup = bs(html, 'html.parser')moive_sources=soup.select('#Zoom span tbody tr td a')for source in moive_sources:moive_source=source['href']#print moive_sourcef=open('E:/moive24/moive.txt','a')f.write(moive_source.encode("utf-8") + "\n")f.close

转载于:https://www.cnblogs.com/Mr-Cxy/p/6143029.html

Python 2.7_Second_try_爬取阳光电影网_获取电影下载地址并写入文件 20161207相关推荐

python使用selenium爬取联想官网驱动（一）：获取遍历各驱动的下载网址
python使用selenium爬取联想官网驱动(一):获取遍历各驱动的下载网址然后wget命令试验下载由于初期学习,所以先拿一个型号的产品驱动试验. (1)以下为在联想某型号产品获取相关驱动下载的 ...
python爬取本地天气信息_用Python写一个爬取中国天气网的终端版天气预报爬虫
导语前几篇文章介绍了爬取静态网站的主要方法.今天写一个小项目实践一下.本项目可以在终端窗口查询全国3400多个区县的当日天气信息和近七天天气信息. 实现效果 [Python爬虫]写一个爬取中国天气网 ...
Python爬虫框架 scrapy 入门经典project 爬取校花网资源、批量下载图片
####1.安装scrapy 建议:最好在新的虚拟环境里面安装scrapy 注意:博主是在 Ubuntu18.04 + Python3.6 环境下进行开发的,如果遇到安装scrapy不成功请自行百度/ ...
python爬虫能爬取微信密码吗_爬虫如何爬取微信公众号文章
下篇文章:python爬虫如何爬取微信公众号文章(二) 下下篇连接python爬虫如何实现每天爬取微信公众号的推送文章因为最近在法院实习,需要一些公众号的数据,然后做成网页展示出来便于查看,之前我倒 ...
Python爬虫——爬取阳光高考网高校信息
在本次学习中主要爬取的内容如下就简单粗暴直接献上代码吧 import requests import time import json from bs4 import BeautifulSoupde ...
python作品_Python爬取图虫网摄影作品
准备要爬的网站是图虫网工具:python 2.7,BeautifulSoup4 注意:BeautifulSoup4为第三方类库,如果在cmd下用pip安装报错,可直接去官网下载,解压后拷贝到pyt ...
python扇贝单词书,学习猿地-python 爬虫，爬取扇贝单词网单词
对于python爬虫并不是很熟悉,遇到下面的问题,希望知道的朋友可以给个解决问题的方向! 需要爬出扇贝单词网里面单词书的单词,现在对于没有目录的单词书可以爬出来,如果有一层目录就没办法了需要手动到这 ...
【python爬虫】爬取淘宝网商品信息
相信学了python爬虫,很多人都想爬取一些数据量比较大的网站,淘宝网就是一个很好的目标,其数据量大,而且种类繁多,而且难度不是很大,很适合初级学者进行爬取.下面是整个爬取过程: 第一步:构建访问的u ...
B站小甲鱼零基础python视频P57爬取煎蛋网OOXX妹纸图代码修改
问题描述在B站看[小甲鱼]零基础入门学习PythonP57集时遇到了一些问题,现在煎蛋网的的图片每一页的网址和视频里的不太一样,看弹幕有的说能爬,有的说不能爬,也没有标明日期,当时挺懵逼的,不知道该 ...
python爬虫之爬取捧腹网段子
原文链接:http://www.nicemxp.com/articles/12 背景:抓取捧腹网首页的段子和搞笑图片链接如图: 地址:https://www.pengfu.com/ 首页中有很多子页 ...

Python 2.7_Second_try_爬取阳光电影网_获取电影下载地址并写入文件 20161207

Python 2.7_Second_try_爬取阳光电影网_获取电影下载地址并写入文件 20161207相关推荐

最新文章

热门文章