Python 2.7_Second_try_爬取阳光电影网_获取电影下载地址并写入文件 20161207
1、昨天文章http://www.cnblogs.com/Mr-Cxy/p/6139705.html 是获取电影网站主菜单 然后获取每个菜单下的电影url
2、今天是对电影url 进行再次解析获取下载地址 并写入文件
4、python 代码
#coding:utf-8
import requests
from bs4 import BeautifulSoup as bs#爬取入口
rooturl="http://www.ygdy8.com/index.html"
#获取网页源码
res=requests.get(rooturl)
#网站编码gb2312
res.encoding='gb2312'
#网页源码
html=res.text
soup=bs(html,'html.parser')
cate_urls = []
for cateurl in soup.select('.contain ul li a'):#网站分类标题cate_name=cateurl.text.encode('utf-8')#分类url 进行再次爬取cate_url="http://www.ygdy8.com/"+ cateurl['href']cate_urls.append(cate_url)print "网站一级菜单:",cate_name,"菜单网址:",cate_url# newdir = "E:/moive24/"+ cate_name# os.makedirs(newdir.decode("utf-8"))# print "创建分类目录成功------" + newdir
#每个菜单url 解析
for i in range(len(cate_urls)):cate_listurl=cate_urls[i]res = requests.get(cate_listurl)res.encoding = 'gb2312'html = res.textsoup = bs(html, 'html.parser')print "正在解析第"+str(i+1)+"个链接",cate_urls[i]contenturls=[]contents=soup.select('.co_content8 ul')[0].select('a')#print contentsfor title in contents:moivetitle=title.text.encode('utf-8')moiveurl="http://www.ygdy8.com/"+ title['href']contenturls.append(moiveurl)print moivetitle,moiveurl# file_name=newdir +'/'+ moivetitle +'.txt'# print file_name# f = open(file_name.decode("utf-8"), "wb")# f.close()res = requests.get(moiveurl)res.encoding = 'gb2312'html = res.textsoup = bs(html, 'html.parser')moive_sources=soup.select('#Zoom span tbody tr td a')for source in moive_sources:moive_source=source['href']#print moive_sourcef=open('E:/moive24/moive.txt','a')f.write(moive_source.encode("utf-8") + "\n")f.close
转载于:https://www.cnblogs.com/Mr-Cxy/p/6143029.html
Python 2.7_Second_try_爬取阳光电影网_获取电影下载地址并写入文件 20161207相关推荐
- python使用selenium爬取联想官网驱动(一):获取遍历各驱动的下载网址
python使用selenium爬取联想官网驱动(一):获取遍历各驱动的下载网址然后wget命令试验下载 由于初期学习,所以先拿一个型号的产品驱动试验. (1)以下为在联想某型号产品获取相关驱动下载的 ...
- python爬取本地天气信息_用Python写一个爬取中国天气网的终端版天气预报爬虫
导语 前几篇文章介绍了爬取静态网站的主要方法.今天写一个小项目实践一下.本项目可以在终端窗口查询全国3400多个区县的当日天气信息和近七天天气信息. 实现效果 [Python爬虫]写一个爬取中国天气网 ...
- Python爬虫框架 scrapy 入门经典project 爬取校花网资源、批量下载图片
####1.安装scrapy 建议:最好在新的虚拟环境里面安装scrapy 注意:博主是在 Ubuntu18.04 + Python3.6 环境下进行开发的,如果遇到安装scrapy不成功请自行百度/ ...
- python爬虫能爬取微信密码吗_爬虫如何爬取微信公众号文章
下篇文章:python爬虫如何爬取微信公众号文章(二) 下下篇连接python爬虫如何实现每天爬取微信公众号的推送文章 因为最近在法院实习,需要一些公众号的数据,然后做成网页展示出来便于查看,之前我倒 ...
- Python爬虫——爬取阳光高考网高校信息
在本次学习中主要爬取的内容如下 就简单粗暴直接献上代码吧 import requests import time import json from bs4 import BeautifulSoupde ...
- python作品_Python爬取图虫网摄影作品
准备 要爬的网站是图虫网 工具:python 2.7,BeautifulSoup4 注意:BeautifulSoup4为第三方类库,如果在cmd下用pip安装报错,可直接去官网下载,解压后拷贝到pyt ...
- python扇贝单词书,学习猿地-python 爬虫,爬取扇贝单词网单词
对于python爬虫并不是很熟悉,遇到下面的问题,希望知道的朋友可以给个解决问题的方向! 需要爬出扇贝单词网里面单词书的单词,现在对于没有目录的单词书可以爬出来,如果有一层目录就没办法了 需要手动到这 ...
- 【python爬虫】爬取淘宝网商品信息
相信学了python爬虫,很多人都想爬取一些数据量比较大的网站,淘宝网就是一个很好的目标,其数据量大,而且种类繁多,而且难度不是很大,很适合初级学者进行爬取.下面是整个爬取过程: 第一步:构建访问的u ...
- B站小甲鱼零基础python视频P57爬取煎蛋网OOXX妹纸图代码修改
问题描述 在B站看[小甲鱼]零基础入门学习PythonP57集时遇到了一些问题,现在煎蛋网的的图片每一页的网址和视频里的不太一样,看弹幕有的说能爬,有的说不能爬,也没有标明日期,当时挺懵逼的,不知道该 ...
- python爬虫之爬取捧腹网段子
原文链接:http://www.nicemxp.com/articles/12 背景:抓取捧腹网首页的段子和搞笑图片链接 如图: 地址:https://www.pengfu.com/ 首页中有很多子页 ...
最新文章
- mysql远程连接设置_MySQL远程连接设置
- wsl开nginx和php-fpm遇到的几个小问题
- Nginx http keepalive提升链接效率
- halcon区域腐蚀膨胀算子_超越halcon速度的二值图像的腐蚀和膨胀,实现目前最快的半径相关类算法(附核心源码)。...
- Queue接口中add()与offer(),remove()与poll(),element()与peek()方法区别
- zookeeper快速入门,配置虚拟机ip、mac、虚拟机免密,jdk的安装与卸载
- [css] 如何取消页面中选中的文字?
- Dubbo 需求、架构、使用Demo
- html模拟右键系统菜单,HTML中自定义右键菜单功能
- 例题6-4 Broken Keyboard UVa11988
- linux下qt实现vlc视频播放器,Qt编写视频播放器(vlc内核)
- 插件未购买或已到期,请重新绑定帐号后重试,如操作无效,请将服务器出口IP改为:8XX.XXX.XX.XX
- 四个步骤告诉你如何进行渠道效果监测
- Blend for Visual Studio 概述
- AS百度地图定位APP
- Oracle 表字段的创建、删除、修改、查询
- 如何查看网站服务器的地址
- 这是怎样的一个女孩子
- 时间窗口(Time Windows)的原理和使用
- css 鼠标移入悬浮效果
热门文章
- for update防止修改丢失但不起作用的解决办法
- 千锋大数据学习提升系统离线数仓
- oracle04098错误,oracle 创建触发器是非法的 ORA-04098: trigger 'USER_TRIGGER'is invalid and failed re-v...
- Python学习笔记(Python基础篇精简版)------廖雪峰Python教程
- 基于图像分析技术的条码识别软件
- 2022年煤矿井下电气考试题库及在线模拟考试
- 从性能领先到体验领先,迅雷链带动区块链行业升级
- 快应用五一劳动节放假通知
- 并开启Ubuntu 3D桌面特效方法
- Openstack关于Regions和Availability Zones