理论部分:
一、爬虫使用场景分类

  • 通用爬虫:
    抓取系统重要组成部分。抓取的是一整张页面数据

    • 聚焦爬虫:
      是建立在通用爬虫的基础之上。抓取的是特定的局部内容

      • 增量式爬虫:
        检测网站中数据更新的情况。只会抓网站中最新更新出来的数据
        二、爬虫的矛与盾

        • 反爬机制:
          门户网站,可以通过制定相应的策略或技术手段,防止爬虫程序进行网站数据的爬取

          • 反反爬策略
            爬虫程序 可以通过制定相关的策略或技术手段,破解门户网站中具备的反爬机制
            从而获取门户端网页源码

            • robots.txt 协议
              君子协议 规定了网页中那些数据可以被爬虫爬取
              三、浏览器相关内容

              • http协议(概念) 就是服务器和客户端进行数据交互的一种形式

                • 常用请求头信息
    • User-Agent : 请求载体的身份标识

    • Connection : 请求完毕后 ,是断开连接还是保持连接

      • 常用响应头信息
    • Content-type : 服务器响应会客户端的数据类型

      • https 安全的超文本传输协议
      • 加密方式
    • 对称密钥加密

    • 非对称密钥加密

    • 证书密钥加密
      五、实战:

      • 爬虫模块 模块
    • urllib 模块(太古老,不学习,有更好的)

    • requests 模块

      • requests 模块
    • 介绍:
      python 中原生的一款基于网络请求的模块,功能非常强大,简单便捷,效果极高
      作用: 模拟浏览器发送请求

    • 如何使用

      • 指定url
      • 发送请求
      • 获取响应数据
      • 持久化存储
    • 环境安装:
      pip install requests

    • 实战编码:
      UA 伪装 :
      headers = {“User-Agent”:‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3100.0 Safari/537.36’}

       - 需求:1、 爬取搜狗首页网页数据2、 爬取百度简易词条对应的搜索结果页面(简易的网页采集器)3、 获取百度翻译4、 爬取豆瓣电影分类排行榜 https://movie.douban.com/中的电影详情数据5、 爬取肯德基餐厅查询 http://www.kfc.com.cn/kfccda/index.aspx指定的餐厅6、 爬取国家药品监督管理总局中基于中华人民共和国化妆品生产许可证相关数据:http://scxk.nmpa.gov.cn:81/xk/
      

六、聚焦爬虫:爬取页面中指定页面内容
- 编码流程
- 指定url
- 发送请求
- 获取响应数据
- 数据解析
- 持久化存储
- 数据解析分类
- 正则
- bs4
- xpath(*
- 数据解析原理概述:
- 解析局部的文本内容都会在标签之间或标签对应的属性中进行存储
- 1、进行指定标签的定位
- 2、标签或标签对应的属性中存储的数据值进行提取(解析)
response.text: 获取网页源码
response.json(): 获取json数据的二进制文本
response.content: 获取二进制文本
- 正则解析:
ex = “正则表达式”
正则书写技巧:
跨越的内容 用 .
? 取缔
提取的内容 用 (.
?) 取缔
然后就是正规提取,标签之间要对应
re.find_all(ex,data,re.S)
- bs4进行数据解析:
- 数据解析的原理:
- 标签定位
- 提取标签、标签属性中存储的属性值
- bs4数据解析原理:
- 1 实例一个 BeautifulSoup 对象,并且将网页源码数据加载到该数据中
- 2 通过调用BeautifulSoup 对象中相关属性或者方法进行标签定位和数据提取
soup.find_all()
soup.find()
soup.select()
- 3 获取标签中的文本数据:
soup.find().text/string/get_text()
text/get_text(): 可以获取某个标签中所有的文本内容
string: 只能获取本标签中文本内容
- 4 获取标签中的属性
soup.a[“href”]
- 环境安装:
- pip install bs4
- pip install lxml
- xpath : 最常用且最便捷高效的一种解析方式。通用性
- xpath解析原理:
- 1.实例化一个etree的对象,且需要将解析的页面源码数据加载到该对象中
- 2.调用etree 对象中的xpath 方法结合着xpath 表达式实现标签的定位和内容的捕获
- 环境的安装
- pip install lxml
- 如何实例化一个etree 对象:from lxml import etree
- 1、将本地中的html文档源码数据加载到etree 对象中:
etree.parse(filepath)
- 2、可以将互联网上获取的源码数据加载到该对象中
etree.HTML(“page_text”)
- xpath(‘xpath表达式’)
- xpath表达式:
- /: 表示从根节点开始定位。表示是一个层级
- //: 表示多个层级,可以表示从任意位置开始定位
- 属性定位://a[@class=‘song’]
- 属性定位: //p[3] # 索引是从1 开始的
- 获取文本:
/text() 获取直系文本
//text() 获取直系和非直系文本
- 取属性
p/@attrName
乱码部分解决方案:
1.手动设置响应数据的编码方式
response.encoding = ‘utf-8’
page_text = response.text
2.堆乱码部分重新编码再解码
img_name = img_name.encode(‘iso-8859-1’).decode(‘gbk’)
7.人人网模拟登录:
步骤:
1.首先在网页模拟登录, (打开检查 ,点击 network ,钩上preserver log 选项)
2.点击登录
3.会检测一个 login 包:是一个 post 请求,登录之后的页面,post 参数 需要一个验证码(提前获取)
# 验证登陆成功的两种方式
1. 获取相应数据后,保存,打卡
2. 发送请求后,返回结果为 200, 则表示登录成功
爬取当前用户相关用户信息:
https协议特性: 无状态
无法请求对应的页面数据的原因:
第二次基于个人主页页面请求时,服务器地址并不知道此请求是基于登录状态下的请求
cookie: 用来让服务器记录客户端相关状态
手动处理:通过抓包工具获取cookie 值,将封装到headers 中(不建议)
自动处理:
- cookie值的来源: 模拟登录post 请求后,有服务器创建
session 会话对象:
作用:1.可以进行请求的发送
2.如果请求过程中产生了 cookie ,则将该 cookie 自动存储 在session 对象中
步骤:
1.创建一个session 对象:session = resquests.Session()
2.使用session 对象进行模拟登录post 请求发送(cookie 就会被存储于 session 对象中)
3.session 对个人主页进行get 请求发送(携带了 cookie)
8.代理IP
代理: 破解封IP这种反爬机制
什么是代理: 代理服务器
代理的作用:
- 破解自身IP 访问的限制
- 隐藏自身真实IP
代理相关网站:
- 快代理
- 西祠代理
- www.goubanjia.com
代理IP的类型:
- http: 应用到http 协议对应的url 中
- https: 应用到https 协议对应的url 中
代理ip匿名度:
- 透明: 服务器知道了此次请求使用了代理,也知道请求对应的真实ip
- 匿名: 知道使用了代理,不知道真实IP
- 高匿: 不知道使用了代理,不知道真实IP
使用:
response = requests.get(url = url,headers = headers,proxies = {‘http’:‘175.42.128.37’}).text
9.线程池
高性能的异步爬虫
目的: 在爬虫中使用异步实现高性能的的数据爬去操作
异步爬虫的方式:
- 多线程,多进程(不建议):
好处:可以为相关阻塞操作单独开启线程或进程,阻塞操作既可以异步执行
弊端:无法无限制的的开启多线程或多进程
- 线程池,进程池(适当的使用):
好处: 可以降低系统对进程或线程的创建和销毁的一个频率,从而很好的降低系统的开销
弊端: 池中线程或进程的数量是由上线的
使用:
from multiprocessing.dummy import Pool

pic_request.map(func,iterable)
pic_request.close()
pic_request.join()
- 单线程 + 异步爬虫 (推荐):
event_loop:时间循环,相当于一个无限循环我们可以把一些函数注册到这个时间循环上
当满足某些条件时,函数就会被循环执行。
coroutine :协程对象,我们可以将协程对象注册到事件循环中,他会被事件循环调用。
我们可以使用 async 关键字来定义一个方法,这个方法调用时不会立即被执行
而是返回一个协程对象
task:任务 , 他是对协程对象的进一步封装,包含了任务的各个状态.通过 loop.create_task©创建
future: 它代表了将来执行 还未执行 的任务,实际上和task 没有本质区别,通过 asyncio.ensure_future© 创建
async : 定义了一个协程
await : 用来挂起阻塞方法的执行

        操作:import asyncioasync def request(url):print("正在发送请求   "+ url)await asyncio.sleep(1)print("请求成功")return url# 返回一个携程对象c = request("http://www.baidu.com")# # 创建时间循环# loop = asyncio.get_event_loop()# # 调用协程对象# loop.run_until_complete(c)# # 通过task 任务对象 ,调用协程对象# loop = asyncio.get_event_loop()# # 创建task 任务对象# task = loop.create_task(c)# print(task)# # 调用task任务# loop.run_until_complete(task)# print(task)# # 通过调用 future 任务对象, 调用携程对象# loop = asyncio.get_event_loop()# # 创建 future 任务对象# task = asyncio.ensure_future(c)# print(task)# # 调用task 任务对象# loop.run_until_complete(task)# print(task)操作任务列表:import asynciofrom time import timestart = time()async def request(url):print("开始请求  "+ url)# 注意异步代码中 ,不能使用同步代码await asyncio.sleep(2)print("开始请求  "+ url)urls = ["http://www.baidu.com","http://www.taobao.com","http://www.jingdong.com"]# 协程对象的任务列表tasks = []for url in urls:c = request(url)task = asyncio.ensure_future(c)tasks.append(task)# 创建事件循环loop = asyncio.get_event_loop()loop.run_until_complete(asyncio.wait(tasks))print("执行时间  "+ str(time()-start))异步的requests 请求的发送:async with aiohttp.ClientSession() as session:async with await session.get(url = url,headers = headers) as response :page_source = await response.text()print(page_source)- 请求的发送session.get(url = url ,headers = headers,params = params)session.post(url = url,headers = headers ,data = data)ip 伪装: proxy = "http://ip:port"- 响应数据的获取:- text(): 返回字符串形式的响应数据- read(): 返回二进制形式的响应数据- json(): 返回json 形式的相应数据注意: 在响应数据之前,一定要加 await ,获取响应数据是个延迟操作

10.selenium 模块的基本使用
- 问题: selenium 模块 和 爬虫之间的具有怎样的关联?
- 便捷的获取网站中动态加载的数据
- 便捷的实现模拟登录
- 什么是selenium 模块:
- 基于浏览器自动化的一个模块
- selenium 使用流程:
- 环境安装: pip3 install selenium
- 下载一个浏览器驱动程序(谷歌浏览器):
- 下载路径:http://chromedriver.storage.gooleapis.com/index.html
- 驱动程序和浏览器的映射关系: https://www.cnblogs.com/feifei-cyj/p/7506666.html
- 配置 chromedriver 环境到 python 中(可以不配置,实例化对象的时候需要指定chromedriver 的路径)
- 下载好chromedriver
- cp chromedriver /usr/local/bin
- 验证是否安装成功 chromedriver -v
- 实例化一个浏览器对象
导入 from selenium import webdriver
bro = webdriver.Chrome()
- 编写基于浏览器自动化的操作代码
- 发起请求: get(url)
- 标签定位: find系列方法
- 标签交互: send_keys("***")
- 执行js程序: execute_script(“jsCode”)
window.scrollTo(0,document.body.scrollHeight) # 滑动 ,向下滑动屏幕
- 前进,后退: forward() back()
- 关闭浏览器 和 驱动程序: quit()
- 获取当前页面截图
bro.save_screenshot(‘百度.png’)
- 打印当前页面的标题
print(bro.title)
- 获取网页源码
bro.page_source
- 获取标签文本信息
element.text
- 获取标签属性值
element.get_attribute(“属性名”)
- 获取当前页面的文档句柄列表
window_list = bro.window_handles
- 切换句柄
bro.switch_to.window(window_list[0])
- 切换frame
bro.switch_to.frame(iframe)
- 窗口最大化
bro.maximize_window()
- 设置窗口
bro.set_window_size()
- 截图
bro.save_screenShot()
- 关闭
close() : 关闭当前
quit() : 关闭所有

    - selenium处理iframe- 如果定位的标签存在于iframe 标签之中,则必须使用switch_to.frame(id)- 返回上一层 framebro.switch_to.parent_frame()- 返回主文档bro.switch_to.default_content()- 动作链(拖动):from selenium.webdriver import ActionChains- 实例化一个动作链对象: action = ActionChains(bro)- click_and_hold(div): 长按且点击操作- move_by_offset(x,y)- perform() 让动作立即执行- action.release() 释放动作链对象- 鼠标右击actionChains(bro).context_click(element).perform()- 鼠标拖拽actionChains(bro).drag_and_drop(element1,element2).perform()- 注意: 每执行一次具体的程序操作尽量让其睡两秒钟

11.无头浏览器
# 无头浏览器设置
from selenium.webdriver.chrome.options import Options
chrome_options = Options()
chrome_options.add_argument(’–headless’)
chrome_options.add_argument(’–disable-gpu’)
bro = webdriver.Chrome(
executable_path = ‘/Users/macos/chromeDriver/chromedriver’,
chrome_options = chrome_options,
)
12.规避检测
* 规避检测
from selenium.webdriver import ChromeOptions
options = ChromeOptions()
options.add_experimental_option(‘excludeSwitches’,[‘enable-automation’])
bro = webdriver.Chrome(
executable_path = ‘/Users/macos/chromeDriver/chromedriver’,
options= options
)

综上: 粘贴复制即可, 哈哈# 无头浏览器from selenium.webdriver.chrome.options import Optionschrome_options = Options()chrome_options.add_argument('--headless')chrome_options.add_argument('--disable-gpu')# 规避检测from selenium.webdriver import ChromeOptionsoptions = ChromeOptions()options.add_experimental_option('excludeSwitches', ['enable-automation'])bro1 = webdriver.Chrome(chrome_options= chrome_options,options=options)

13.scrapy 框架
- 指令的简单使用:
- 创建一个工程 : scrapy startproject xxxPro
- cd 到项目工程下 : cd xxxPro
parse函数中的response 是相应数据,可以直接进行xpath解析
response.xpath().extract_first() : 列表中只有一个元素
response.xpath().extract() : 列表中有多个元素
- 创建爬虫文件: scrapy genspider xxx www.xxx.com
- 执行工程: scrapy crawl xxx
不打印配置信息:
方法一: 直接执行scrapy crawl xxx --nolog(不推荐)
方法二: 在setting 加上 LOG_LEVEL = “ERROR”
然后执行 scrapy crawl xxx
- settings :
设置 UA 伪装
设置 robots 协议 (放开注释即可)
设置 管道 (放开注释 即可)
设置 LOG_LEVEL = “ERROR” (只有ERROR的信息,才被打印)
- 持久化存储
- 基于终端指令
- 要求: 只可以将parse方法的返回值存储到本地的文本文件中
- 注意: 持久化对应的文本文件类型只可以为: json , jsonlines ,jl , csv, xml
- 指令: scrapy crawl xxx -o filepath
注意: 将parse 函数中的数据封装到 一个列表(包含多个字典)中,最后,将列表return
- 好处: 简介高效便捷
- 缺点: 局限性比较强(数据只可以存储到指定后缀的文本文件中)

    - 基于管道- 编码流程:- 数据解析- 在item 中定义相关属性- 将解析的数据类型存储到 item 类型的数据 - 将 item 类型的对象提交给管道进行持久化存储操作(yield item)- 在管道类的process_item中将接受的item对象存储的数据进行持久化存储操作打开/关闭文件: 在 process_item 类中重写: fp = Noneopen_spider(self,spider): # 该函数只在开始时执行一次self.fp = open(filename,'w',encoding = 'utf-8')process_item(self.spider):...close_spider(self,spider): # 该函数只在最后执行一次self.fp.close()- 在 settings 开启管道- 好处: 通用性强- 基于mysqlPipeLine 管道的存储class MysqlPipeline:conn = Nonecursor = Nonedef open_spider(self,spider):print("开始爬取")self.conn = pymysql.Connect(host='127.0.0.1',port=3306,user='root',db='famousTalk',password='034312',charset='utf8',)def process_item(self, item, spider):self.cursor = self.conn.cursor()try:tell = item['t']sql = """INSERT INTO first(talk)VALUES ('%s')"""%(tell)self.cursor.execute(sql)self.conn.commit()except Exception as e:print(e)self.conn.rollback()return itemdef close_spider(self,spider):print("爬取完毕")self.cursor.close()self.conn.close()- 面试题 : 将爬取到的数据一份存储到本地一份存储到数据库,如何实现?- 管道文件中的一个管道类对应的是将数据存储到一种平台- 爬虫文件提交的item只会给管道文件中的一个执行的管道类接收- process_item 中的return item 表示将item 传递给下一个要被执行的管道- 全站爬取: - 实现创建一个 URL 模版 - 全站爬取:    if self.page_num <= 5:new_url = format(self.url % self.page_num)self.page_num += 1yield scrapy.Request(url = new_url,callback=self.parse)
- scrapy 的五大组件- 引擎(Scrapy)用来处理整个系统的数据流处理,触发事务(框架的核心)- 调度器(Scheduler)用来接收引擎发过来的请求,压入队列中,并在引擎再次请求的时候返回,可以想象成一个URL(抓取网页网址或者是链接)优先队列,有他来决定下一个要抓取的网址是什么,同时取出重复网址- 下载器(Downloader)用于下载网页内容,并将网页内容返回给蜘蛛(Scrapy下载器是建立在twisted这个高效)的异步模型上的- 爬虫(Spiders)爬虫是主要干活的,用于从特定的网页中提取自己需要的信息。即所谓的实体(Item)。用户也可以从中提取出来链接,让scrapy 继续抓取下一个页面- 项目管道(Pipeline)负责处理爬虫从网页中提取的实体,主要的功能是持久化实体,验证实体的有效性,清除不需要的信息。当网页被爬虫解析后,将被发送到项目管道,并将过几个特定的次序处理数据
- 请求传参(深度爬取)- 使用场景:如果爬取解析的数据不在同一张页面中。(深度爬取)- 需求: 爬取boss 的岗位名称,岗位描述    - 再次定义解析函数def detail_parse(self,response):item = response.meta['item']...yield itemdef parse(self,response):# 数据解析item = XXXItem()# 将item传递给detail_parseyield scrapy.Requests(url = new_url,callback=detail_parse,meta = {'item':item})
- 图片的下载- 在爬虫文件中最主要的就是将 图片的的src属性进行提交- 设置图片管道from scrapy.pipelines.images import ImagesPipeline# ImagesPipline 专门用于文件下载的管道类,下载过程支持异步和多线程import scrapyclass ImgsZhanzhangproPipeline(ImagesPipeline):item = Nonedef get_media_requests(self,item,info):# 对item类中读片进行发送请求操作self.item = itemyield scrapy.Request(item['src'])def file_path(self, request, response=None, info=None, *, item=item):# 定制图片的名称# url = request.url# file_name = url.split('/')[-1]# return file_namereturn item['name']def item_completed(self, results, item, info):# 该返回值会传递给下一个即将被执行的管道类return item# 设置图片下载目录# 在settings设置图片存储目录IMAGES_STORE = './imgs'
- 下载中间件- 位置:引擎与下载器之间- 作用: 批量拦截到整个工程所有的请求和响应- 拦截请求: - UA 伪装:process_requestsUA池:user_agent_list = ["Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 ""(KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1","Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.11 ""(KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11","Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.6 ""(KHTML, like Gecko) Chrome/20.0.1092.0 Safari/536.6","Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.6 ""(KHTML, like Gecko) Chrome/20.0.1090.0 Safari/536.6","Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.1 ""(KHTML, like Gecko) Chrome/19.77.34.5 Safari/537.1","Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/536.5 ""(KHTML, like Gecko) Chrome/19.0.1084.9 Safari/536.5","Mozilla/5.0 (Windows NT 6.0) AppleWebKit/536.5 ""(KHTML, like Gecko) Chrome/19.0.1084.36 Safari/536.5","Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 ""(KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3","Mozilla/5.0 (Windows NT 5.1) AppleWebKit/536.3 ""(KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3","Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_0) AppleWebKit/536.3 ""(KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3","Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 ""(KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3","Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 ""(KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3","Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 ""(KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3","Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 ""(KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3","Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.3 ""(KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3","Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 ""(KHTML, like Gecko) Chrome/19.0.1061.0 Safari/536.3","Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/535.24 ""(KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24","Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/535.24 ""(KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24"]在中间件中设置:request.headers['User-Agent'] = random.choice(self.user_agent_list)- 代理 IP:process_exception:return requestPROXY_http = ['153.180.102.104:80','195.208.131.189:56055',]PROXY_https = ['120.83.49.90:9000','95.189.112.214:35508',]if request.url.split(":")[0] == "http":request.meta['proxy'] = "http://"+random.choice(self.PROXY_http)else:request.meta['proxy'] = "https://"+random.choice(self.PROXY_https)return request- *** 在settings 中 注释开 下载中间件的管道- 拦截响应:- 篡改响应数据,响应对象          - 案例: 动态加载ajax 请求由于请求是动态加载的,所有配合selenium 使用1.在 process_response 中设置,导入 HtmlResponse:def process_response(self, request, response, spider):# 用于拦截特定的响应bro = spider.broif request.url in spider.model_urls:# 篡改响应数据bro.get(request.url)page_source = bro.page_sourceresponse = HtmlResponse(url=request.url, body=page_source, encoding='utf-8', request=request)return responseelse:return response2.在爬虫文件中- 构造 selenium 对象,- 创建关闭方法:def close(self,spider):# 关闭  selenium 对象3.在管道文件中注释开 下载中间件
- CrawlSpider: 类 ,Spider的一个字类- 全站数据爬取的方式- 基于spider : 手动请求- 基于 CrawlSpider: 使用 rules- CrawlSpider的使用- 创建一个工程- cd 到工程目录下- 创建爬虫文件: scrapy genspider -t crawl 爬虫文件 url- rules = (Rule(LinkExtractor(allow=r'/page/\d+/'), callback='parse_item', follow=True),Rule(LinkExtractor(allow=r'/author/[a-zA-Z-]+'), callback='detail_parse_item', follow=True),)rulse(规则解析器):将提取器提取的链接进行指定规则(callback)解析Rule(链接提取器):根据制定规则的allow 进行指定链接的提取   注意: 使用xpath 时不能出现 body 标签- 深度爬取在爬虫文件,需要多个解析函数,需要使用多个item 进行提交在items文件中class QuotesproItem(scrapy.Item):author = scrapy.Field()quote = scrapy.Field()class DetailuotesproItem(scrapy.Item):detail_author = scrapy.Field()detail_desc = scrapy.Field()在pipelines文件中if item.__class__.__name__ =='QuotesproItem':author = item['author']quote = item['quote']else:detail_desc = item['detail_desc']detail_author = item['detail_author']
- 分布式爬虫:(暂时用不到,此处略去 10000 字)
- 增量式爬虫:- 概念:检测网站数据的情况,只会爬取网站最新更新来的数据- 分析:- 指定url- 基于CrawLSpider获取其他网页链接- 基于Rule 将其他代码链接进行请求- 从每个页码对应的页面源码中解析出每个详情页的url-  核心: - 检测电影详情页的url 之前有没有请求过- 将爬取的电影详情页的url 存储- 存储到redis 中 set 的数据结构- 对详情页的url 发送请求,然后解析出电影的名称和简介- 进行持久化存储
- scarpy 如何进行模拟登录- 为什么要模拟登录: 有的网站需要登录在进行爬取- 模拟登录思路:- 使用  selenium:  太 low (虽然我没研究)- 使用Requests cookies 进行请求,绕过登录- 使用Requests 发送post 请求 将网站携带到post的请求进行登录- 携带cookies进行模拟登录- 优点: cookie 过期时间很长,登录一次后不用担心登录问题- 操作: - 创建一个scrapy项目,修改配置- 创建爬虫文件- 重写start_requests方法(直接粘贴复制过去,改一下cookie值)def start_requests(self):# 登录之后用 chrome 的 debug 工具从请求中获取的 cookiescookiesstr = "anonymid=k3miegqc-hho317; depovince=ZGQT; _r01_=1; JSESSIONID=abcDdtGp7yEtG91r_U-6w; ick_login=d2631ff6-7b2d-4638-a2f5-c3a3f46b1595; ick=5499cd3f-c7a3-44ac-9146-60ac04440cb7; t=d1b681e8b5568a8f6140890d4f05c30f0; societyguester=d1b681e8b5568a8f6140890d4f05c30f0; id=972990680; xnsid=404266eb; XNESSESSIONID=62de8f52d318; jebecookies=4205498d-d0f7-4757-acd3-416f7aa0ae98|||||; ver=7.0; loginfrom=null; jebe_key=8800dc4d-e013-472b-a6aa-552ebfc11486%7Cb1a400326a5d6b2877f8c884e4fe9832%7C1575175011619%7C1%7C1575175011639; jebe_key=8800dc4d-e013-472b-a6aa-552ebfc11486%7Cb1a400326a5d6b2877f8c884e4fe9832%7C1575175011619%7C1%7C1575175011641; wp_fold=0"cookies = {i.split("=")[0]:i.split("=")[1] for i in cookiesstr.split("; ")}# 携带 cookies 的 Request 请求yield scrapy.Request(self.start_urls[0],callback=self.parse,cookies=cookies)      - 运行爬虫文件(其实就是那么简单,但是我喜欢这种方式,实用)- 查看cookies 传递过程在 settings 配置中加 COOKIES_DEBUG = True -  使用Requests 发送post 请求 模拟登录- 操作: - 创建项目- 创建爬虫文件- 发送data 数据def parse(self, response):# request headerpostData = {'ck': '','name': '****',      # 用户名'password': '****',  # 密码'remember': 'false','ticket': ''}return [FormRequest.from_response(response,formdata = postData,callback = self.after_login, dont_filter = True)]- 写 after_login 方法 进行数据解析- 执行爬虫文件    - 总结: 先使用 cookie ,不行是在使用  FormRequest















python 爬虫入门 到 初步精通罢相关推荐

  1. python网络爬虫的基本步骤-黑客基础 编写Python爬虫入门步骤

    原标题:黑客基础 编写Python爬虫入门步骤 信息时代,数据就是宝藏.数据的背后隐含着无穷的宝藏,这些宝藏也许就是信息量所带来的商业价值,而大数据本身也将成为桌面上的筹码. 黑客花无涯 带你走进黑客 ...

  2. python爬虫步骤-黑客基础 编写Python爬虫入门步骤

    原标题:黑客基础 编写Python爬虫入门步骤 信息时代,数据就是宝藏.数据的背后隐含着无穷的宝藏,这些宝藏也许就是信息量所带来的商业价值,而大数据本身也将成为桌面上的筹码. 黑客花无涯 带你走进黑客 ...

  3. 学python买什么书-Python爬虫入门看什么书好 小编教你学Python

    Python爬虫入门看什么书好 小编教你学Python 时间:2018-01-12     来源:Python爬虫入门讲解 生活在21世纪的互联网时代,各类技术的发展可谓是瞬息万变,这不今天编程界又出 ...

  4. Python爬虫入门(一)(适合初学者)

    Python爬虫入门(一) (适合初学者) 关于爬虫是什么,怎样保证爬虫的合法性小编在这就不再过多的阐述,从本章起,小编将和大家一起分享在学习python爬虫中的所学,希望可以和大家一起进步,也希望各 ...

  5. Python爬虫入门(一)火车票余票实时提醒

    Python爬虫入门(一)火车票余票实时提醒 火车票余票实时提醒 最近开始学习爬虫了,参考的教材是<Python网络爬虫从入门到精通>吕云翔,张扬,韩延刚等,机械工业出版社.本篇博客是实战 ...

  6. Python爬虫入门教程:博客园首页推荐博客排行的秘密

    1. 前言 虽然博客园注册已经有五年多了,但是最近才正式开始在这里写博客.(进了博客园才知道这里面个个都是人才,说话又好听,超喜欢这里...)但是由于写的内容都是软件测试相关,热度一直不是很高.看到首 ...

  7. python爬虫书籍-Python爬虫入门看什么书好?

    原标题:Python爬虫入门看什么书好? 生活在21世纪的互联网时代,各类技术的发展可谓是瞬息万变,这不今天编程界又出现一位"新星",他的名字叫做Python,目前Python已经 ...

  8. python爬虫入门教程--优雅的HTTP库requests(二)

    requests 实现了 HTTP 协议中绝大部分功能,它提供的功能包括 Keep-Alive.连接池.Cookie持久化.内容自动解压.HTTP代理.SSL认证等很多特性,下面这篇文章主要给大家介绍 ...

  9. python爬虫入门教程--快速理解HTTP协议(一)

    http协议是互联网里面最重要,最基础的协议之一,我们的爬虫需要经常和http协议打交道.下面这篇文章主要给大家介绍了关于python爬虫入门之快速理解HTTP协议的相关资料,文中介绍的非常详细,需要 ...

最新文章

  1. yjk只算弹性的不计算弹塑性_基于ANSYS Workbench的表面裂纹计算
  2. ios开发-Storyboard在多个viewcontroller之间导航的实现
  3. js获取php页面session的值,在html页面中取得session中的值的方法
  4. 海贼王热血航线正在连接服务器,航海王热血航线连接服务器失败?解决方法一览...
  5. ES6-1 ES6版本过渡历史
  6. 11.Pipelines
  7. JVM 史上最最最完整深入解析(12000 字总结)
  8. 安装搭建zimbra邮件服务器(dns域名解析)
  9. Java项目论文+PPT+源码等]S2SH+mysql的报刊订阅系统
  10. Android 上架应用市场整理
  11. Android Verified Boot 2.0
  12. 【观察】阿里云栖大会究竟好在哪里?
  13. ubuntu 16.04 安装nvidia驱动 下载nvidia官方驱动
  14. 深度增强学习射击类游戏(vizdoom)
  15. 常用数学符号的读法及意义
  16. Android 手机遥控器添加模拟鼠标功能
  17. 0.91寸 SSD1306 OLED介绍(二) --- 命令介绍
  18. android 定时开机闹钟,win7自动-定时开机、关机(附加定时闹钟)技巧
  19. (42)C#里使用WeifenLuo.WinFormsUI.Docking库为界面自动布局
  20. 阿里校招负责人揭秘面试潜规则

热门文章

  1. 网络安全的“奥运会”——第三届“网鼎杯”网络安全大赛即将开幕
  2. 实例介绍机械臂运动规划及前沿研究方向
  3. 分账如何帮助平台型企业解决税务问题?
  4. Win10环境前后端分离项目基于Vue.js+Tornado+Python3实现微信(wechat)扫码支付流程
  5. rundll32.exe 应用程序错误
  6. jQuery 自动完成
  7. 1028 人口普查 (20 分)测试点3格式错误
  8. 分页池和非分页池的基本概念
  9. 开发工具篇第八讲:阿里云OSS对象存储服务
  10. 互联网时代,电子商务的优势在哪里