pachon2.5.py

# -*- coding: utf-8 -*-

import urllib

import urllib2

import re

import sys

# reload(sys)

# sys.setdefaultencoding('utf-8')

class book: #豆瓣书籍的类

def __init__(self, types, page):

self.baseUrl = 'http://www.douban.com/tag/'

self.types = types

self.filename = 'doubanbook.txt'

self.page = page

def getContents(self): #爬取源代码

try:

#if self.page == 0:

url = self.baseUrl + self.types + '/book'

#else:

#url = self.baseUrl + self.types + '/book?start=' + str(self.page)

user_agent = 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/43.0.2357.65 Safari/537.36'

headers = { 'User-Agent' : user_agent}

request = urllib2.Request(url,headers = headers)

response = urllib2.urlopen(request)

content = response.read() #.decode('utf-8')

pattern = re.compile('(.*?).*?>(.*?)

',re.S)

python 爬取豆瓣某一主题书单_Python爬取豆瓣的各分类书单以及近期热门电影和top250的电影...相关推荐

  1. Scrapy框架学习 - 爬取豆瓣电影排行榜TOP250所有电影信息并保存到MongoDB数据库中

    概述 利用Scrapy爬取豆瓣电影Top250排行榜电影信息,并保存到MongoDB数据库中 使用pymongo库操作MOngodb数据库 没有进行数据清洗 源码 items.py class Dou ...

  2. python爬网易歌单_Python爬取网易云歌单

    1. 关键点 使用单线程爬取,未登录,爬取网易云歌单主要有三个关键点: url为https://music.163.com/discover/playlist/?order=hot&cat=% ...

  3. python爬取图片链接标签的src属性值_python爬取图片遇见src乱码: data:image/png;base64...

    python爬取图片遇见src乱码: data:image/png;base64 向爬取自己喜欢的图片,但是在爬取下来的代码当中图片的src会出现乱码的情况:data:image/png;base64 ...

  4. python 爬取豆瓣某一主题书单_Python爬虫 || 使用requests和xpath爬取豆瓣Top250书单内容全解。...

    昨天,我们了解了如何爬取豆瓣某一个电影固定的位置信息,包含电影名称.导演.演员及评分等,今天我们来了解一下如何爬取豆瓣Top250书单,并如何将爬取到的内容存放到本地. 废话不多说了,shou my ...

  5. python爬取豆瓣书籍_python爬虫学习,爬取豆瓣各分类书单

    点击蓝字"python教程"关注我们哟! 代码展示:pachon2.5.py # -- coding: utf-8 -- import urllib import urllib2 ...

  6. python爬取网易云评论最多的歌_python爬取网易云音乐评论

    本文实例为大家分享了python爬取网易云音乐评论的具体代码,供大家参考,具体内容如下 import requests import bs4 import json def get_hot_comme ...

  7. python爬取网易云音乐飙升榜音乐_python爬取网易云音乐热歌榜 python爬取网易云音乐热歌榜实例代码...

    想了解python爬取网易云音乐热歌榜实例代码的相关内容吗,FXL在本文为您仔细讲解python爬取网易云音乐热歌榜的相关知识和一些Code实例,欢迎阅读和指正,我们先划重点:python,网易热歌榜 ...

  8. python爬取网易云音乐飙升榜音乐_python爬取网易云音乐热歌榜实例代码

    首先找到要下载的歌曲排行榜的链接,这里用的是: https://music.163.com/discover/toplist?id=3778678 然后更改你要保存的目录,目录要先建立好文件夹,例如我 ...

  9. python爬虫获取图片无法打开或已损坏_Python爬取小姐姐图片

    爬取图片主要分为一下几步: 1.打开一个你喜欢的小姐姐的网站 2.下载并安装python环境 3.开始编码 python 全部代码如下 # requests 请求 需要提前在Terminal中安装 p ...

最新文章

  1. JEECG支付宝服务窗开发培训视频
  2. html获取cookie_知了汇智《XSS攻击-盗取cookie实战》课程文档讲解
  3. python语言程序设计嵩天-Python语言程序设计基础(第2版)嵩天课后答案
  4. OpenGL Deferred Shading延迟阴影实例
  5. 13个知识点,系统整理Python时间处理模块Datetime
  6. ubuntu16.04 + ros-kinetic 配置cartographer
  7. 「3.4w字」超保姆级教程带你实现Promise的核心功能
  8. 使用Spring boot,Thymeleaf,AngularJS从零开始构建新的Web应用程序–第3部分
  9. 设计一个简单分页存储管理系统_【系统架构】如何设计一个简单灵活的收银系统?看这里!(1)...
  10. 《空间谱估计理论与算法》学习笔记001-绪论
  11. Braid,另类游戏
  12. 2022 百度之星程序设计大赛复赛 D.子序列2(动态dp/线段树维护矩阵)
  13. 软件工程导论 实验二 数据库设计
  14. matlab 出现 numeric,About Numeric Matlab
  15. [转] 【幽默搞笑】笑死你,别怪我!(狠逗、狠强)
  16. Sin City --《罪恶之城》
  17. Android 12 首个开发者预览版到来
  18. 数组名arr与arr之间的关系
  19. matlab打开网页输入密码,MATLAB GUI 密码输入
  20. java语言【#106. 求绝对值】(已通过)

热门文章

  1. 世界超级计算机比赛,世界大学生超级计算机竞赛 浙大打破世界纪录
  2. M1芯片的MacBook Pro打开软件闪退解决方法
  3. 1982年以来NBA发展趋势分析
  4. gitee clone时报错:fatal: destination path ‘***‘ already exists and is not an empty directory.
  5. 计算机反求设计的一般步骤,第七章反求工程概述.pptx
  6. 通信领域常见IEEE期刊的缩写
  7. 高中数学基础04:数列与不等式
  8. html keyframes无效,sass中@keyframes后变量无效的问题
  9. 计算机应用基础网考模拟题,计算机应用基础网考全真模拟试题..doc
  10. 虚幻4游戏开发_2_触发器