#coded by 伊玛目的门徒
import re
import requests
import time
from bs4 import BeautifulSoupurllist=[]
titlelist=[]start = time.clock()  # 计时-开始from concurrent.futures import ThreadPoolExecutorheader={'user-agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.XXXX.XXX Safari/537.36'}def do(i):try:cd=[]html=requests.get('http://futures.hexun.com/domestic/index-'+str(i)+'.html',headers=header)html.encoding='gbk'Soup = BeautifulSoup(html.text, "lxml")#ab=Soup.select('li a[target="_blank"]')ab=Soup.select('div.temp01 ul li a[target="_blank"]')for x in range(len(ab)):if (x % 2) == 1:cd.append (ab[x])print ('-----------------')pattern = re.compile(r'<a href="(.*?)" target="_blank">',re.S)   # 查找数字result1 = pattern.findall(str(cd))pattern2 = re.compile(r'target="_blank">(.*?)</a>',re.S)result2 = pattern2.findall(str(cd))print (result1)urllist.extend(result1)print (result2)titlelist.extend(result2)list1.remove(i)except:pass# 多线程
def multithreading():sum=0while len(list1)>0:with ThreadPoolExecutor(max_workers=10) as executor:for result in executor.map(do, list1):sum+=1return sumlist1=list(range(1,393,1))sum=multithreading()
print ('还剩下{}页'.format(list1))end = time.clock()  # 计时-结束
print (("爬取完成 用时:"))
print ((end - start))print ('总爬取 %d 页 '%(sum))while None in titlelist:titlelist.remove(None)while None in urllist:urllist.remove(None)print (titlelist)print (urllist)'''
#可作为TXT输出
with open("test.txt","w") as f:for thing in urllist:f.write(thing)f.write('\r\n')
'''

演示视频:

https://www.bilibili.com/video/av80003976/

python多线程爬虫和讯网 标题和正文URL效果展示

后续可看

https://blog.csdn.net/qq_37195257/article/details/103643238

python多线程爬虫 和讯期货 标题和内容页的URL相关推荐

  1. python多线程爬虫实例-Python实现多线程爬虫

    编辑推荐: 本文主要介绍对Python多线程爬虫实战的整体的思路,希望对大家有帮助. 本文来知乎,由火龙果软件Alice编辑,推荐. 最近在写爬虫程序爬取亚马逊上的评论信息,因此也自学了很多爬虫相关的 ...

  2. python多线程爬虫实例-Python多线程爬虫简单示例

    python是支持多线程的,主要是通过thread和threading这两个模块来实现的.thread模块是比较底层的模块,threading模块是对thread做了一些包装的,可以更加方便的使用. ...

  3. python爬电影_使用Python多线程爬虫爬取电影天堂资源

    最近花些时间学习了一下Python,并写了一个多线程的爬虫程序来获取电影天堂上资源的迅雷下载地址,代码已经上传到GitHub上了,需要的同学可以自行下载.刚开始学习python希望可以获得宝贵的意见. ...

  4. 2021-03-10 Python多线程爬虫快速批量下载图片

    Python多线程爬虫快速批量下载图片 1.完成这个需要导入的模块 urllib,random,queue(队列),threading,time,os,json 第三方模块的安装 键盘win+R,输入 ...

  5. python多线程爬虫实例-Python3多线程爬虫实例讲解代码

    多线程概述 多线程使得程序内部可以分出多个线程来做多件事情,充分利用CPU空闲时间,提升处理效率.python提供了两个模块来实现多线程thread 和threading ,thread 有一些缺点, ...

  6. python多线程爬虫框架_普通爬虫vs多线程爬虫vs框架爬虫,Python爬对比

    前言 本文的文字及图片过滤网络,可以学习,交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 基本开发环境 Python 3.6 皮查姆 目标网页分析 网站就选择发表情这个网站吧 网站是静 ...

  7. python多线程爬虫实例-Python爬虫开发【第1篇】【多线程爬虫及案例】

    糗事百科爬虫实例: 需求: 使用requests获取页面信息,用XPath / re 做数据提取 获取每个帖子里的用户头像链接.用户姓名.段子内容.点赞次数和评论次数 保存到 json 文件内 #qi ...

  8. Python爬虫——Python多线程爬虫详解

    网络爬虫程序是一种 IO 密集型程序,程序中涉及了很多网络 IO 以及本地磁盘 IO 操作,这些都会消耗大量的时间,从而降低程序的执行效率,而 Python 提供的多线程能够在一定程度上提升 IO 密 ...

  9. python多线程爬虫实例-python多线程爬虫实例讲解

    Python作为一门强大的脚本语言,我们经常使用python来写爬虫程序,简单的爬虫会写,可是用python写多线程网页爬虫,应该如何写呢?一般来说,使用线程有两种模式,一种是创建线程要执行的函数,把 ...

最新文章

  1. RabbitMQ 入门系列(1)— Ubuntu 安装 RabbitMQ 及配置
  2. 华中农大津田賢一组招植物微生物组、生物信息方向博士后
  3. node使用npm一句命令停止某个端口号 xl_close_port
  4. mysql的字符型系统数据类型主要包括_MySQL的数据类型主要包括哪些
  5. win10开机慢怎么解决_细说Win10启动慢怎么办
  6. 基于PYNQ-Z2开发板实现矩阵乘法加速详细流程
  7. 乐观锁与悲观锁及其实现
  8. 随机取出若干条记录的SQL语句
  9. html ajax get post,jQuery – AJAX get() 和 post() 方法 - jQuery 教程 - 自强学堂
  10. Java 反编译工具哪家强?对比分析瞧一瞧
  11. web简单静态页面设计【HTML+CSS】
  12. Stata绘制分类带可信区间的折线图
  13. 【UE4大数据可视化教程序章一】——生成城市与道路模型
  14. TLS Origination for Egress Traffic(0.8)
  15. RK3288开发板,RK3288核心板,瑞芯微RK3288主板资料
  16. 建设世界仪器强国的使命与任务
  17. (Field II仿真)合成发射孔径超声成像
  18. 利用最小二乘法进行线性拟合
  19. 1549: 蔡老板发工资
  20. iOS蓝牙开发:蓝牙连接和数据读写

热门文章

  1. 读取服务器端的一个json文件info.json,显示到客户端,再从客户端输入两个变量contry和city,传到服务器,改变服务器info.json文件的这两个值
  2. poj3370Halloween treats(鸽笼原理)
  3. 科技云报道:迈向“认知智能”的爱数,如何解码数据的未来?
  4. Python数据爬虫学习笔记(21)Scrapy爬取当当图书数据并存储至SQLite数据库
  5. 基于CNN对掌纹图片进行分类
  6. 互相关法对时序信号时域对齐(python实现)
  7. 25.类加载器实战剖析与疑难点解析
  8. 20.时钟抖动(jitter)和时钟偏移(skew)的概念?
  9. 可控制的CSS3D盒子动画
  10. 王喆:工作近十年的方向思考