静态网页爬虫教程（2）链接和标题的提取

初战告捷，我们继续下一步，来获取网页中的标题和超链接。
观察一下，第一篇文章是这样的：

这篇文章的标题和超链接信息在我们返回的文本中是这样的：

上面的表示是超链接的内容，而下面的则是表示是标题大小为4号字体，注意它们的标签。
这个网站比较简单，它的文章标题直接用"<h4>“括起来了，所以直接用”<h4>"就可以搜索到所有标题；但链接就不行，因为<a>出现的地方比较多，不是所有的链接都是我们需要的，所以要另外处理。
从返回的文本中提取内容可以使用正则表达式，需要引入re包，利用findall函数来查找匹配的内容。
先提取这一页所有的文章标题，我们采用非贪婪匹配：

#引入requests包
import requests
#设定我们要爬取的内容，全部是企业环境信息披露下的文章，先找到其中第一篇文章
url='http://greenfinance.xinhua08.com/qyhjxxpl/'
#发出请求
req=requests.get(url)
#解决编码问题，注意get_encodings_from_content的参数是字符串，所以要用req.text而不是req.content
req.encoding=requests.utils.get_encodings_from_content(req.text)
#查看一下返回的文本
req.text
import re
#获取文章标题
retitle=re.findall('<h4>(.*?)</h4>',req.text,re.S)
retitle

这里<h4>(.*?)</h4>的意思是要提取在这两个标签中的内容，括号可千万别丢了，括号里才是我们要的。
看看是不是拿到了所有的文章标题？

接下来，我们要获取这一页所有文章的超链接。观察一下，超链接都在什么地方？
基本都在红色线标注的包围里，那就好办了。

#引入requests包
import requests
#设定我们要爬取的内容，全部是企业环境信息披露下的文章，先找到其中第一篇文章
url='http://greenfinance.xinhua08.com/qyhjxxpl/'
#发出请求
req=requests.get(url)
#解决编码问题，注意get_encodings_from_content的参数是字符串，所以要用req.text而不是req.content
req.encoding=requests.utils.get_encodings_from_content(req.text)
#查看一下返回的文本
req.text
import re
#获取文章标题
retitle=re.findall('<h4>(.*?)</h4>',req.text,re.S)
#获取文章链接
rehref=re.findall('<div class="newsinfo">.*?<a href="(.*?)">',req.text,re.S)
rehref

因为在标签<div class=“newsinfo”>和<a href="之间有空格和换行，所以我们需要加个.*?来排除。
再看看结果：

这些超链接好像也都拿到了，第二步圆满结束。下一步是从这些链接中取出对应文章的内容，然后保存起来，请看第（3）篇。

静态网页爬虫教程（2）链接和标题的提取相关推荐

静态网页爬虫教程（3）文本的提取和保存
前面我们已经把文章的标题和超链接都提取出来了,看上去我们已经有能力把这些文章的内容全部提取出来了.但路要一步一步走,饭要一口一口吃,我们还是先来看一篇文章的内容是怎么提取和保存的吧. 首先还是先来看看 ...
静态网页爬虫教程（1）页面的获取
最近想看看绿色金融方面的内容,也不知道搞啥,先在网上找找信息,于是把目标瞄上了新华财经--中国金融信息网.找到了其中的绿色金融的版块.发现上面的文章都是静态页面构成的,可以先把所有的页面信息爬取下来, ...
静态网页爬虫教程（5）带翻页的多篇文章内容提取和保存
这是我们静态页面爬取的最后一篇了,主要针对的问题是翻页爬取. 先来观察一下翻页后的新页面地址是什么吧,我们可以看到,新页面的地址的设置很简单,就是改了个序号,第一页是1.shtml,第二页是2.sht ...
静态网页爬虫教程（4）同一页面多篇文章内容提取和保存
前面的文章中,我们已经成功的完成了对一篇文章的内容提取和保存.现在新的问题又来了,之前我们提取过的超链接有那么多,标题也有不少,怎么能只提取一篇文章而放弃一堆呢?别急,下面我们就开始说说多篇文章的内容 ...
您访问的网页出错了! 网络连接异常、网站服务器失去响应_数据分析系列——静态网页爬虫进阶（requests）...
在之前"数据分析系列--数据分析入门"16篇中有与爬虫的相关内容,介绍的相对简单.静态网页爬虫进阶系列将分别从网页的自动爬取(Requests).网络数据解析(BeautifulS ...
python 静态网页_Python静态网页爬虫相关知识
想要开发一个简单的Python爬虫案例,并在Python3以上的环境下运行,那么需要掌握哪些知识才能完成一个简单的Python爬虫呢? 爬虫的架构实现爬虫包括调度器,管理器,解析器,下载器和输出器. ...
静态网页制作教程（转载）
方法/步骤新建一个txt文本文档,先不要急着修改文件后缀名,有基础的朋友手动输入HTML代码,不会也没有关系,百度搜索"网页HTML代码". 代码: <!Doctype h ...
python爬取豆瓣电影排行前250获取电影名称和网络链接[静态网页]————爬虫实例（1）
目录 1.算法原理: 2.程序流程: 3.程序代码: 4.运行结果(部分结果展示): 5.结果分析: 1.算法原理: (1)利用import命令导入模块或者导入模块中的对象: ①利用requests库 ...
Python静态网页爬虫----文字小说爬虫
文字爬虫 1.爬虫的行为 2.项目设计 3.获取静态网页的html代码 4.获取下一章的url 5.获取小说的章节名字 6.获取小说正文 7.保存章节小说 8.合并临时文件 9.主程序 10.总结首 ...

静态网页爬虫教程（2）链接和标题的提取

静态网页爬虫教程（2）链接和标题的提取相关推荐

最新文章

热门文章