注:把韩寒博文目录第一页的所有文章下载下来


1.正则在线测试工具:http://tool.chinaz.com/regex/


getBlogData.py

import urllib
import re
import threading
import os#创建用于保存的文件夹
os.mkdir('D:\Blog')#get
def getBlog(url):p = urllib.urlopen(url).read()  open(r'D:\Blog/'+url[-26:],'w+').write(p)#创建Threading的子类,重写run方法
class downLoad(threading.Thread):def __init__(self,url):threading.Thread.__init__(self)self.url = urldef run(self):getBlog(self.url)url = 'http://blog.sina.com.cn/s/articlelist_1191258123_0_1.html'#获取url的页面数据
html = urllib.urlopen(url)
data = html.read()#正则匹配文章链接,把重复的url过滤掉
reg = r'http://blog.sina.com.cn/s/blog.*.html'
text = re.compile(reg)
for x in text.findall(data):#getBlog(x)thread1 = downLoad(x)thread1.start()

【Python】多线程下载韩寒博客文章相关推荐

  1. 看我如何下载韩寒博客文章笔记

    str()将整型数据转化为字符型数据 转载于:https://www.cnblogs.com/sunshinewxz/p/4461432.html

  2. python+shell 备份 CSDN 博客文章,CSDN博客备份工具

    python+shell 备份 CSDN 博客文章,CSDN博客备份工具 在 csdn 写了几年的博客了.多少也积累了两三百篇博文,近日,想把自己的这些文章全部备份下来,于是开始寻找解决方案. 我找到 ...

  3. python统计csdn个人博客文章清单及字数

      为了统计csdn个人博客文章字数,之前已经学习并测试了获取文章字数.获取博客文章清单.python操作excel文件等内容,基本上可以拼凑起一个基本的统计程序.   合并之前三篇文章中的测试代码, ...

  4. 8.一个项目实战(下载CSDN博客文章)

    专栏地址 ʅ(‾◡◝)ʃ 前言 要写一个下载器,首先要实现一个接口函数,而这个函数可以对请求的数据进行处理也就是爬虫,其次才是写图形化界面 接口的实现 其实CSDN的浏览器页面的接口很复杂,是直接通过 ...

  5. 【C++鼠标键盘操作】自动下载CSDN博客文章到PDF

    思路 这个方法的通用性比较差,用到了一个火狐的插件,这个插件可以将单篇csdn博客保存成pdf,如下图: 整体步骤就是,首先用java爬取我个人博客的所有链接,然后把这些链接复制到txt文档中,如下图 ...

  6. python小爬虫(爬取职位信息和博客文章信息)

    1.python爬取招聘信息 简单爬取智联招聘职位信息(仅供学习) # !/usr/bin/env python # -*-coding:utf-8-*- """ @Au ...

  7. python爬取控制台信息_python爬虫实战之爬取智联职位信息和博客文章信息

    1.python爬取招聘信息 简单爬取智联招聘职位信息 # !/usr/bin/env python # -*-coding:utf-8-*- """ @Author  ...

  8. 分享制作精良的知识管理系统 配置SQL Server文档数据库 完美实现博客文章的的下载,存储和浏览...

    前一篇文章<分享制作精良的知识管理系统 博客备份程序 Site Rebuild>已经提到如何使用Site Rebuild来下载您所喜欢的博客文章,但是还不能实现把下载的文件导入进数据库中, ...

  9. Python爬虫自学与实战,爬一下自己的博客文章

    文章目录 1. 什么是爬虫 2. 学习爬虫的必备知识 3. 环境准备 4. 爬虫的第一步,获取网页的HTML内容 4.1 GET 4.2 POST 5. 使用BeautifulSoup模块来从HTML ...

  10. 使用Python爬取CSDN历史博客文章列表,并生成目录

    使用Python爬取CSDN历史博客文章列表,并生成目录 这篇博客将介绍如何使用Python爬取CSDN历史博客文章列表,并生成目录. 2020年 2020年04月 cv2.threshold() 阈 ...

最新文章

  1. 彻底理解C#中值类型和引用类型的区别
  2. Maven学习 使用Nexus搭建Maven私服(转)
  3. 6-spark学习笔记-spark core 数据与存储
  4. ibatis常用的集中判断语句
  5. 阿帕奇服务器文件上传,Apache HttpCore4.4基于经典的IO实现HTTP文件传输服务器
  6. html 段落定位,使用HTML :: TreeBuilder在perl中使用段落定位div
  7. error while loading shared libraries: libconfig.so.8
  8. VS2012下基于Glut OpenGL显示一些立体图形示例程序:
  9. 怎么在cmd中安装python库_cmd中安装python库时出现的错误
  10. liunx 下压缩解压zip文件
  11. python ftp编程_Python编程-FTP
  12. 使用 Gogs 搭建自己的 Git 服务器
  13. 超级简单的Android Studio jni 实现(无需命令行)
  14. React.js 组件的 props vs state
  15. iOS 开发笔记-plist使用
  16. reactbootstrap php,什么是React-Bootstrap
  17. 数据库系统基础教程复习
  18. 利用扭力仪来检测特小公斤数电批输出扭矩
  19. android+化学输入法,化学输入法使用说明.pdf
  20. react实现简单的计算器功能。

热门文章

  1. 微信红包后台系统设计
  2. 微信红包系统设计 优化
  3. 神经网络 激励函数
  4. 网易云音乐服务器code521,网易云音乐scode500是怎么回事 网易云音乐scode502怎么解决...
  5. 八大排序算法(C语言实现)
  6. 纯Qt版中国象棋:实现双人对战、人机对战及网络对战
  7. 安装  ansible tower  报错:
  8. 在代码中将CAD图形转换为PDF!Aspose.CAD轻松搞定
  9. python 儿童教程_教孩子学编程PYTHON语言版PDF_Python教程
  10. 物联网毕业设计 - 基于单片机的高精度北斗定位控制终端