python 爬取豆瓣某一主题书单_Python爬取豆瓣的各分类书单以及近期热门电影和top250的电影...
pachon2.5.py
# -*- coding: utf-8 -*-
import urllib
import urllib2
import re
import sys
# reload(sys)
# sys.setdefaultencoding('utf-8')
class book: #豆瓣书籍的类
def __init__(self, types, page):
self.baseUrl = 'http://www.douban.com/tag/'
self.types = types
self.filename = 'doubanbook.txt'
self.page = page
def getContents(self): #爬取源代码
try:
#if self.page == 0:
url = self.baseUrl + self.types + '/book'
#else:
#url = self.baseUrl + self.types + '/book?start=' + str(self.page)
user_agent = 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/43.0.2357.65 Safari/537.36'
headers = { 'User-Agent' : user_agent}
request = urllib2.Request(url,headers = headers)
response = urllib2.urlopen(request)
content = response.read() #.decode('utf-8')
pattern = re.compile('(.*?).*?>(.*?)
',re.S)
python 爬取豆瓣某一主题书单_Python爬取豆瓣的各分类书单以及近期热门电影和top250的电影...相关推荐
- Scrapy框架学习 - 爬取豆瓣电影排行榜TOP250所有电影信息并保存到MongoDB数据库中
概述 利用Scrapy爬取豆瓣电影Top250排行榜电影信息,并保存到MongoDB数据库中 使用pymongo库操作MOngodb数据库 没有进行数据清洗 源码 items.py class Dou ...
- python爬网易歌单_Python爬取网易云歌单
1. 关键点 使用单线程爬取,未登录,爬取网易云歌单主要有三个关键点: url为https://music.163.com/discover/playlist/?order=hot&cat=% ...
- python爬取图片链接标签的src属性值_python爬取图片遇见src乱码: data:image/png;base64...
python爬取图片遇见src乱码: data:image/png;base64 向爬取自己喜欢的图片,但是在爬取下来的代码当中图片的src会出现乱码的情况:data:image/png;base64 ...
- python 爬取豆瓣某一主题书单_Python爬虫 || 使用requests和xpath爬取豆瓣Top250书单内容全解。...
昨天,我们了解了如何爬取豆瓣某一个电影固定的位置信息,包含电影名称.导演.演员及评分等,今天我们来了解一下如何爬取豆瓣Top250书单,并如何将爬取到的内容存放到本地. 废话不多说了,shou my ...
- python爬取豆瓣书籍_python爬虫学习,爬取豆瓣各分类书单
点击蓝字"python教程"关注我们哟! 代码展示:pachon2.5.py # -- coding: utf-8 -- import urllib import urllib2 ...
- python爬取网易云评论最多的歌_python爬取网易云音乐评论
本文实例为大家分享了python爬取网易云音乐评论的具体代码,供大家参考,具体内容如下 import requests import bs4 import json def get_hot_comme ...
- python爬取网易云音乐飙升榜音乐_python爬取网易云音乐热歌榜 python爬取网易云音乐热歌榜实例代码...
想了解python爬取网易云音乐热歌榜实例代码的相关内容吗,FXL在本文为您仔细讲解python爬取网易云音乐热歌榜的相关知识和一些Code实例,欢迎阅读和指正,我们先划重点:python,网易热歌榜 ...
- python爬取网易云音乐飙升榜音乐_python爬取网易云音乐热歌榜实例代码
首先找到要下载的歌曲排行榜的链接,这里用的是: https://music.163.com/discover/toplist?id=3778678 然后更改你要保存的目录,目录要先建立好文件夹,例如我 ...
- python爬虫获取图片无法打开或已损坏_Python爬取小姐姐图片
爬取图片主要分为一下几步: 1.打开一个你喜欢的小姐姐的网站 2.下载并安装python环境 3.开始编码 python 全部代码如下 # requests 请求 需要提前在Terminal中安装 p ...
最新文章
- JEECG支付宝服务窗开发培训视频
- html获取cookie_知了汇智《XSS攻击-盗取cookie实战》课程文档讲解
- python语言程序设计嵩天-Python语言程序设计基础(第2版)嵩天课后答案
- OpenGL Deferred Shading延迟阴影实例
- 13个知识点,系统整理Python时间处理模块Datetime
- ubuntu16.04 + ros-kinetic 配置cartographer
- 「3.4w字」超保姆级教程带你实现Promise的核心功能
- 使用Spring boot,Thymeleaf,AngularJS从零开始构建新的Web应用程序–第3部分
- 设计一个简单分页存储管理系统_【系统架构】如何设计一个简单灵活的收银系统?看这里!(1)...
- 《空间谱估计理论与算法》学习笔记001-绪论
- Braid,另类游戏
- 2022 百度之星程序设计大赛复赛 D.子序列2(动态dp/线段树维护矩阵)
- 软件工程导论 实验二 数据库设计
- matlab 出现 numeric,About Numeric Matlab
- [转] 【幽默搞笑】笑死你,别怪我!(狠逗、狠强)
- Sin City --《罪恶之城》
- Android 12 首个开发者预览版到来
- 数组名arr与arr之间的关系
- matlab打开网页输入密码,MATLAB GUI 密码输入
- java语言【#106. 求绝对值】(已通过)
热门文章
- 世界超级计算机比赛,世界大学生超级计算机竞赛 浙大打破世界纪录
- M1芯片的MacBook Pro打开软件闪退解决方法
- 1982年以来NBA发展趋势分析
- gitee clone时报错:fatal: destination path ‘***‘ already exists and is not an empty directory.
- 计算机反求设计的一般步骤,第七章反求工程概述.pptx
- 通信领域常见IEEE期刊的缩写
- 高中数学基础04:数列与不等式
- html keyframes无效,sass中@keyframes后变量无效的问题
- 计算机应用基础网考模拟题,计算机应用基础网考全真模拟试题..doc
- 虚幻4游戏开发_2_触发器