python多线程爬虫和讯期货标题和内容页的URL

#coded by 伊玛目的门徒
import re
import requests
import time
from bs4 import BeautifulSoupurllist=[]
titlelist=[]start = time.clock()  # 计时-开始from concurrent.futures import ThreadPoolExecutorheader={'user-agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.XXXX.XXX Safari/537.36'}def do(i):try:cd=[]html=requests.get('http://futures.hexun.com/domestic/index-'+str(i)+'.html',headers=header)html.encoding='gbk'Soup = BeautifulSoup(html.text, "lxml")#ab=Soup.select('li a[target="_blank"]')ab=Soup.select('div.temp01 ul li a[target="_blank"]')for x in range(len(ab)):if (x % 2) == 1:cd.append (ab[x])print ('-----------------')pattern = re.compile(r'<a href="(.*?)" target="_blank">',re.S)   # 查找数字result1 = pattern.findall(str(cd))pattern2 = re.compile(r'target="_blank">(.*?)</a>',re.S)result2 = pattern2.findall(str(cd))print (result1)urllist.extend(result1)print (result2)titlelist.extend(result2)list1.remove(i)except:pass# 多线程
def multithreading():sum=0while len(list1)>0:with ThreadPoolExecutor(max_workers=10) as executor:for result in executor.map(do, list1):sum+=1return sumlist1=list(range(1,393,1))sum=multithreading()
print ('还剩下{}页'.format(list1))end = time.clock()  # 计时-结束
print (("爬取完成 用时："))
print ((end - start))print ('总爬取 %d 页 '%(sum))while None in titlelist:titlelist.remove(None)while None in urllist:urllist.remove(None)print (titlelist)print (urllist)'''
#可作为TXT输出
with open("test.txt","w") as f:for thing in urllist:f.write(thing)f.write('\r\n')
'''

演示视频：

https://www.bilibili.com/video/av80003976/

python多线程爬虫和讯网标题和正文URL效果展示

后续可看

https://blog.csdn.net/qq_37195257/article/details/103643238

python多线程爬虫和讯期货标题和内容页的URL相关推荐

python多线程爬虫实例-Python实现多线程爬虫
编辑推荐: 本文主要介绍对Python多线程爬虫实战的整体的思路,希望对大家有帮助. 本文来知乎,由火龙果软件Alice编辑,推荐. 最近在写爬虫程序爬取亚马逊上的评论信息,因此也自学了很多爬虫相关的 ...
python多线程爬虫实例-Python多线程爬虫简单示例
python是支持多线程的,主要是通过thread和threading这两个模块来实现的.thread模块是比较底层的模块,threading模块是对thread做了一些包装的,可以更加方便的使用. ...
python爬电影_使用Python多线程爬虫爬取电影天堂资源
最近花些时间学习了一下Python,并写了一个多线程的爬虫程序来获取电影天堂上资源的迅雷下载地址,代码已经上传到GitHub上了,需要的同学可以自行下载.刚开始学习python希望可以获得宝贵的意见. ...
2021-03-10 Python多线程爬虫快速批量下载图片
Python多线程爬虫快速批量下载图片 1.完成这个需要导入的模块 urllib,random,queue(队列),threading,time,os,json 第三方模块的安装键盘win+R,输入 ...
python多线程爬虫实例-Python3多线程爬虫实例讲解代码
多线程概述多线程使得程序内部可以分出多个线程来做多件事情,充分利用CPU空闲时间,提升处理效率.python提供了两个模块来实现多线程thread 和threading ,thread 有一些缺点, ...
python多线程爬虫框架_普通爬虫vs多线程爬虫vs框架爬虫，Python爬对比
前言本文的文字及图片过滤网络,可以学习,交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 基本开发环境 Python 3.6 皮查姆目标网页分析网站就选择发表情这个网站吧网站是静 ...
python多线程爬虫实例-Python爬虫开发【第1篇】【多线程爬虫及案例】
糗事百科爬虫实例: 需求: 使用requests获取页面信息,用XPath / re 做数据提取获取每个帖子里的用户头像链接.用户姓名.段子内容.点赞次数和评论次数保存到 json 文件内 #qi ...
Python爬虫——Python多线程爬虫详解
网络爬虫程序是一种 IO 密集型程序,程序中涉及了很多网络 IO 以及本地磁盘 IO 操作,这些都会消耗大量的时间,从而降低程序的执行效率,而 Python 提供的多线程能够在一定程度上提升 IO 密 ...
python多线程爬虫实例-python多线程爬虫实例讲解
Python作为一门强大的脚本语言,我们经常使用python来写爬虫程序,简单的爬虫会写,可是用python写多线程网页爬虫,应该如何写呢?一般来说,使用线程有两种模式,一种是创建线程要执行的函数,把 ...

python多线程爬虫和讯期货标题和内容页的URL

python多线程爬虫和讯期货标题和内容页的URL相关推荐

最新文章

热门文章

python多线程爬虫 和讯期货 标题和内容页的URL

python多线程爬虫 和讯期货 标题和内容页的URL相关推荐

最新文章

热门文章

python多线程爬虫和讯期货标题和内容页的URL

python多线程爬虫和讯期货标题和内容页的URL相关推荐