用tornado爬素材网站

（第一篇技术笔记）
工作需要建立一个飞机图片和视频库，一方面，可以从开源数据集中抽取需要的数据，如Pascal VOC，CIFAR10，COCO和ILSVRC等都包含飞机类别图片，ILSVRC的VID任务包含大量视频片段，我总共从这些数据集中获得了1000(VOC)+3000(COCO)+1400(ILSVRC)=5400张图片以及171段视频；另一方面，可以通过爬虫工具从网上获取更多资源，搜狐优酷这类网站的资源比较杂乱，不符合我的需求，获取效率不高，最终锁定了国内外各种视频和图库的素材资源网站。

开发针对单个资源网站的爬虫相对简单，也叫垂直爬虫，一般为了提高效率会采用多线程，或者直接利用工具包，如scrapy等。tornado是一个轻量级web后端框架，像django和flask一样，tornado包含异步网络库，利用协程（单线程），可以简单高效地实现高并发。

1、爬取百度图片的简单示例

示例代码借鉴自tornado官网文档（这里）5s获取300张。改一改可以实现各种用途，爬图片、视频、小说、新闻、评论、商品等。

import os
import re
import time
from tornado import httpclient, gen, ioloop, queues
from datetime import timedelta
from urllib.parse import quotepath = "./imgs/"
if not os.path.exists(path):os.makedirs(path)
e_names = set(os.listdir(path))
keyword = "战斗机"
re_imgs = re.compile('"thumbURL":"(.*?)",')@gen.coroutine
def main():''' 生产消费者模型，通过队列完成数据通信 '''start = time.time()concurrency = 500   # 设置并发大小和队列大小q = queues.Queue(maxsize=concurrency)@gen.coroutinedef worker():# 消费每个下载链接while True:src = yield q.get()try:filename = src.split("/")[-1]if filename not in e_names:response = yield httpclient.AsyncHTTPClient().fetch(src)with open(path+filename, "wb") as file:file.write(response.body)file.flush()e_names.add(filename)except Exception as e:print("PRO_CON:"+str(e))q.task_done()# 启动所有消费者worker，此时队列为空，所有worker阻塞在`src = yield q.get()`语句for i in range(concurrency):worker()# 启动生产者，获取10页图片地址，如何获取url链接，在浏览器按F12# 打开"网络"(Networks)，在刷新图片时抓包就可以看到for page_index in range(1,11):url = "https://image.baidu.com/search/acjson?tn=resultjson_com&ipn=rj&ct=201326592\&is=&fp=result&queryWord="+quote(keyword)+"&cl=2&lm=-1&ie=utf-8&oe=utf-8&adpicid=\&st=-1&z=&ic=0&word="+quote(keyword)+"&s=&se=&tab=&width=&height=&face=0&istype=2\&qc=&nc=1&fr=&pn=%d"%(30*page_index)+"&rn=30&gsm=1e&1533995815287="response = yield httpclient.AsyncHTTPClient().fetch(url)srcs = re_imgs.findall(response.body.decode("utf8",errors="ignore"))print("page: %03d, #pics: %d"%(page_index,len(srcs)))for src in srcs:yield q.put(src)yield q.join(timeout=timedelta(seconds=300))print("Concurrent task done in %d seconds"%(time.time()-start))if __name__ == '__main__':io_loop = ioloop.IOLoop.current()io_loop.run_sync(main)

顺便说下，在数据解析性能方面，能用正则表达式和xpath，就不要用beautifulSoup和json(某些时候)，解析过程一般如下：

import requests
from lxml import etree
import jsonhtml = requests.get(some_url)
# re的使用
re_obj = re.compile('<img src="(.*?)" />')
srcs = re_obj.findall(html.text)# xpath使用
selector=etree.HTML(html.text)
srcs = selector.xpath("//li/a/img/@src") #返回图片地址列表列表# json使用
data = json.loads(html.text)
srcs = data["imgs"]

2、关注请求头和响应头

在向服务器端发送请求时，除了目标连接url之外，通常还需要合理设置请求头，cookie字段通常被服务器用于识别用户，保持通信状态，User-Agent表明你使用的浏览器及版本，响应头则是服务器返回给用户的数据包的一部分，会给出服务器的部分信息，如服务器软件类型(apache/tomcat)，返回数据的类型(xhr/mp4/mov)，服务器时间，以及set-cookie等，其中set-cookie字段告知浏览器在下次发送请求时需要设置cookie的内容，比如给你分配一个用户id，下次请求服务器时带上这个就知道你是谁了，另外响应头中的location字段会将请求重定位到新的url上，这也是很多资源网站保护数据内容的一种手段。

这是tornado关于header和request相关API的介绍，有个网站在下载视频时必须保持较长时间的连接，在header中可以将request_timeout设长一点，如果要执行发送数据的post请求，需要将data进行urlencode后，放入request的body字段中。

from urllib.parse import urlencode
from tornado import httpclient,httputil,ioloopasync def f():data = urlencode({"wd":"战斗机"})headers = httputil.HTTPHeaders()headers.add("cookie","x123456789")request = httpclient.HTTPRequest("http://www.baidu.com/s?"+data, method="GET", headers=headers, body=None, connect_timeout=1*60, request_timeout=10*60)http_client = httpclient.AsyncHTTPClient()try:response = await http_client.fetch(request)except Exception as e:print("Error: %s" % e)else:# 查看响应头，content-type字段表明body中的文件类型print(resopnse.headers)# 查看传回的数据，body是字节码，可以是文本文件，也可以使音乐视频等内容print(response.body.decode(errors="ignore"))io_loop = ioloop.IOLoop.current()
io_loop.run_sync(f)

实践源码可以参考：https://github.com/ziweipolaris/simple-crawler