【Python】多线程下载韩寒博客文章
注:把韩寒博文目录第一页的所有文章下载下来
1.正则在线测试工具:http://tool.chinaz.com/regex/
getBlogData.py
import urllib
import re
import threading
import os#创建用于保存的文件夹
os.mkdir('D:\Blog')#get
def getBlog(url):p = urllib.urlopen(url).read() open(r'D:\Blog/'+url[-26:],'w+').write(p)#创建Threading的子类,重写run方法
class downLoad(threading.Thread):def __init__(self,url):threading.Thread.__init__(self)self.url = urldef run(self):getBlog(self.url)url = 'http://blog.sina.com.cn/s/articlelist_1191258123_0_1.html'#获取url的页面数据
html = urllib.urlopen(url)
data = html.read()#正则匹配文章链接,把重复的url过滤掉
reg = r'http://blog.sina.com.cn/s/blog.*.html'
text = re.compile(reg)
for x in text.findall(data):#getBlog(x)thread1 = downLoad(x)thread1.start()
【Python】多线程下载韩寒博客文章相关推荐
- 看我如何下载韩寒博客文章笔记
str()将整型数据转化为字符型数据 转载于:https://www.cnblogs.com/sunshinewxz/p/4461432.html
- python+shell 备份 CSDN 博客文章,CSDN博客备份工具
python+shell 备份 CSDN 博客文章,CSDN博客备份工具 在 csdn 写了几年的博客了.多少也积累了两三百篇博文,近日,想把自己的这些文章全部备份下来,于是开始寻找解决方案. 我找到 ...
- python统计csdn个人博客文章清单及字数
为了统计csdn个人博客文章字数,之前已经学习并测试了获取文章字数.获取博客文章清单.python操作excel文件等内容,基本上可以拼凑起一个基本的统计程序. 合并之前三篇文章中的测试代码, ...
- 8.一个项目实战(下载CSDN博客文章)
专栏地址 ʅ(‾◡◝)ʃ 前言 要写一个下载器,首先要实现一个接口函数,而这个函数可以对请求的数据进行处理也就是爬虫,其次才是写图形化界面 接口的实现 其实CSDN的浏览器页面的接口很复杂,是直接通过 ...
- 【C++鼠标键盘操作】自动下载CSDN博客文章到PDF
思路 这个方法的通用性比较差,用到了一个火狐的插件,这个插件可以将单篇csdn博客保存成pdf,如下图: 整体步骤就是,首先用java爬取我个人博客的所有链接,然后把这些链接复制到txt文档中,如下图 ...
- python小爬虫(爬取职位信息和博客文章信息)
1.python爬取招聘信息 简单爬取智联招聘职位信息(仅供学习) # !/usr/bin/env python # -*-coding:utf-8-*- """ @Au ...
- python爬取控制台信息_python爬虫实战之爬取智联职位信息和博客文章信息
1.python爬取招聘信息 简单爬取智联招聘职位信息 # !/usr/bin/env python # -*-coding:utf-8-*- """ @Author ...
- 分享制作精良的知识管理系统 配置SQL Server文档数据库 完美实现博客文章的的下载,存储和浏览...
前一篇文章<分享制作精良的知识管理系统 博客备份程序 Site Rebuild>已经提到如何使用Site Rebuild来下载您所喜欢的博客文章,但是还不能实现把下载的文件导入进数据库中, ...
- Python爬虫自学与实战,爬一下自己的博客文章
文章目录 1. 什么是爬虫 2. 学习爬虫的必备知识 3. 环境准备 4. 爬虫的第一步,获取网页的HTML内容 4.1 GET 4.2 POST 5. 使用BeautifulSoup模块来从HTML ...
- 使用Python爬取CSDN历史博客文章列表,并生成目录
使用Python爬取CSDN历史博客文章列表,并生成目录 这篇博客将介绍如何使用Python爬取CSDN历史博客文章列表,并生成目录. 2020年 2020年04月 cv2.threshold() 阈 ...
最新文章
- 彻底理解C#中值类型和引用类型的区别
- Maven学习 使用Nexus搭建Maven私服(转)
- 6-spark学习笔记-spark core 数据与存储
- ibatis常用的集中判断语句
- 阿帕奇服务器文件上传,Apache HttpCore4.4基于经典的IO实现HTTP文件传输服务器
- html 段落定位,使用HTML :: TreeBuilder在perl中使用段落定位div
- error while loading shared libraries: libconfig.so.8
- VS2012下基于Glut OpenGL显示一些立体图形示例程序:
- 怎么在cmd中安装python库_cmd中安装python库时出现的错误
- liunx 下压缩解压zip文件
- python ftp编程_Python编程-FTP
- 使用 Gogs 搭建自己的 Git 服务器
- 超级简单的Android Studio jni 实现(无需命令行)
- React.js 组件的 props vs state
- iOS 开发笔记-plist使用
- reactbootstrap php,什么是React-Bootstrap
- 数据库系统基础教程复习
- 利用扭力仪来检测特小公斤数电批输出扭矩
- android+化学输入法,化学输入法使用说明.pdf
- react实现简单的计算器功能。