原文链接: 爬虫下载文章 BeautifulSoup

上一篇: HDU 1427 dfs 速算24点

下一篇: 简单爬虫 爬知乎日报

# coding=utf-8from bs4 import BeautifulSoup
import urllib
import urllib2
import sys
reload(sys)
sys.setdefaultencoding('utf8')
url = 'http://www.pythontab.com/html/pythonhexinbiancheng/index.html'request = urllib2.urlopen(url)html = request.read()# print html# 解析方式
soup = BeautifulSoup(html, 'html.parser')
'''<ul class="list lh24 f14" id="catlist"><li><h3>Python高级教程</h3><a href="http://www.pythontab.com/html/2017/pythonhexinbiancheng_0821/1166.html" target="_blank" ><h2>一名数据挖掘工程师给新人整理的入门资料</h2>  </a><p>四年前我一次听说数据挖掘这个词,三年前我学习了数据挖掘理论知识,两年前我做了几个与数据挖掘有关的项目,一年前我成为一名数据挖掘工程   <a href="http://www.pythontab.com/html/2017/pythonhexinbiancheng_0821/1166.html" class="content_detail" target="_blank">[详细]</a></p></li>
'''# 先通过id 找 再通过标签找,注意空格必须有# 找到链接和标题
items = soup.select('#catlist > li > a')# 只找到标题
titles = soup.select('#catlist > li > a > h2')# 找超链接和标题,方便后续分割
links = soup.select('#catlist > li > a')
for i in items:print i.get_text()# zip函数,titles和links是列表通过zip将两个列表下标对应的两个作为字典
'''
l1 = [1,2,3]
l2 = {'a','b','c'}
d = zip(l1,l2)[(1, 'a'), (2, 'c'), (3, 'b')]
'''items = []
for title, link in zip(titles, links):data = {'title': title.get_text(),  # 获取标签的文本'link': link.get('href')  # 获取标签的属性}items.append(data)# 输出标题和链接
for i in items:print i['title'], i['link']'''<div class="content">'''
# 获取超链接内容
for i in items:request = urllib2.urlopen(i['link'])html = request.read().encode('utf-8')soup = BeautifulSoup(html, 'html.parser')title = i['title']texts = soup.select('div.content > p')content = []for t in texts:content.append(t.get_text().encode('utf-8'))with open('file/%s.html' % title, 'wb') as f:f.write(i['title']+'\n'+html)# for cont in content:#    f.write(cont+'\n')

爬虫下载文章 BeautifulSoup相关推荐

  1. 利用Python编写网络爬虫下载文章

    今天来讲如何利用Python爬虫下载文章,拿韩寒的博客为例来一步一步进行详细探讨... 韩寒的博客地址是:http://blog.sina.com.cn/s/articlelist_119125812 ...

  2. Python爬虫项目---从wiley网站批量下载文章

    上代码 实现逻辑:是利用pyautogui 自动点击脚本,实现下载 代码: #从https://onlinelibrary.wiley.com/toc/15214095/2019/31/42 自动下载 ...

  3. Python 实用爬虫-04-使用 BeautifulSoup 去水印下载 CSDN 博客图片

    Python 实用爬虫-04-使用 BeautifulSoup 去水印下载 CSDN 博客图片 其实没太大用,就是方便一些,因为现在各个平台之间的图片都不能共享,比如说在 CSDN 不能用简书的图片, ...

  4. python爬虫下载-python爬虫之下载文件的方式总结以及程序实例

    python爬虫之下载文件的方式以及下载实例 目录 第一种方法:urlretrieve方法下载 第二种方法:request download 第三种方法:视频文件.大型文件下载 实战演示 第一种方法: ...

  5. Python3.x爬虫下载网页图片

    Python3.x爬虫下载网页图片 一.选取网址进行爬虫 本次我们选取pixabay图片网站 url=https://pixabay.com/ 二.选择图片右键选择查看元素来寻找图片链接的规则 通过查 ...

  6. m3u8视频爬虫下载及合并(二)

    前言 爬虫获取m3u8视频资源的步骤 目前所要作的流程处理先把m3u8里下载链接批量提取.png把这几百个切片链接先批量下载.png再批量改文件后缀为.ts 再按照m3u8文件提取所有不规则链接文件的 ...

  7. Python 简单爬虫下载小说txt

    Python 简单爬虫下载小说txt #第一次写爬虫代码 欢迎交流指正 我们范例爬取的对象是笔趣阁的<圣墟> (最近非常火的连载小说) ##为什么选择笔趣阁# 主要是因为笔趣阁的源代码没有 ...

  8. python爬虫bilibili_python爬虫下载Bilibili番剧弹幕

    本文绍如何利用python爬虫下载bilibili番剧弹幕. 准备: python3环境 需要安装BeautifulSoup,selenium包 phantomjs 原理: 代码: # -*- cod ...

  9. 利用Python爬虫下载王者荣耀教学视频

    前言: 很多人学习python,不知道从何学起. 很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手. 很多已经做案例的人,却不知道如何去学习更加高深的知识. 那么针对这三类人,我给 ...

最新文章

  1. 八十、归并排序及其分而治之思想
  2. C语言动态二维数组,结构体动态申请内存空间
  3. grunt 前端开发环境搭建
  4. mysql数据库deptno_mysql数据库的 select查询
  5. rust 官服指令_【RUST】每个RUST玩家都需要的十个指令
  6. linux系统win,Windows10安装运行linux系统的方法
  7. 使用python连接eNSP中交换机并添加配置
  8. 浅谈css中一个元素如何在其父元素居中显示
  9. Web前端-HTTP Cache-control
  10. zabbix mysql默认模板_zabbix默认自带对Mysql数据库监控模板
  11. wincc怎么做数据库_wincc7.4 数据库的建立与查询
  12. MD5在线解密工具推荐
  13. 数据库表结构文档screw
  14. matlab 填充透明色,在Matlab中使用透明像素填充数组
  15. 手机和工业计算机运算能力对比,手机cpu和电脑cpu差距有多大_手机cpu跟电脑cpu差多少...
  16. 尚医通项目101-123:前台用户系统、登录注册、邮箱登录
  17. 《魔兽争霸》故事背景
  18. 一篇文了解电商直播的优势和平台
  19. 用函数调用的方式实现汽车移动的例子 (python)
  20. centos 拨号上网

热门文章

  1. 微软疑淡化邮件服务被黑事件;DOTA2 AI 2:0 完胜世界冠军
  2. Mbus新增主动报警功能,简单问题的波折路程。
  3. 兼容性向前还是向后_向后兼容性与向前兼容性
  4. POBPM集成-数据过滤
  5. SOHO办公遭IBM叫停,为什么说它是创业大忌?
  6. ArcGIS数据管理
  7. 3、需求调研 - 产品管理系列文章
  8. 单精度浮点数和双精度浮点数_浮点数和双精度数之间的区别
  9. 实景三维可视化管理平台助力提升景区运营管理水平
  10. PHP判断用户是否已经登录,如果登录则显示首页,如果未登录则进入登录页面或注册页面