GNE(GeneralNewsExtractor)是一个通用新闻网站正文抽取模块,输入一篇新闻网页的 HTML, 输出正文内容、标题、作者、发布时间、正文中的图片地址和正文所在的标签源代码。GNE 在提取今日头条、网易新闻、游民星空、 观察者网、凤凰网、腾讯新闻、ReadHub、新浪新闻等数百个中文新闻网站上效果非常出色,几乎能够达到 100%的准确率。

如何安装 GNE

直接使用 pip 安装 GNE :

pip install gne

如果访问 pypi 官方源太慢,你也可以使用网易源:

pip install gne -i https://mirrors.163.com/pypi/simple/

功能特性

获取正文源代码
extract() 方法只传入网页源代码,不添加任何额外参数时,GNE 返回如下字段:

  • title:新闻标题
  • publish_time:新闻发布时间
  • author:新闻作者
  • content:新闻正文
  • images: 正文中的图片(相对路径或者绝对路径)

可能有些朋友希望获取新闻正文所在标签的源代码,此时可以给 extract() 方法传入 with_body_html 参数,设置为 True

extractor = GeneralNewsExtractor()
extractor.extract(html, with_body_html=True)

完整代码

from gne import GeneralNewsExtractor
import requests
extractor = GeneralNewsExtractor()def parse_info(html):result = extractor.extract(html, with_body_html=True)print(result)def run():headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/106.0.0.0 Safari/537.36',}resp = requests.get('http://www.ciotimes.com/txhhd/212465.html', headers=headers)resp.encoding = 'utf8'# print(resp.text)parse_info(resp.text)run()

虽说提取功能很强大,准确率很高,但也不是百分百,所以extract() 方法也提供了title_xpathauthor_xpathpublish_time_xpathbody_xpath等参数对特殊页面进行xpath定制。

python GNE 爬虫通用提取文章信息模块相关推荐

  1. 【Python】爬虫数据提取

    目录 一.xpath提取数据 二.爬虫爬取图片资源 三.爬虫爬取视频资源 四.FLV文件转码为MP4文件 一.xpath提取数据 <bookstore> <book category ...

  2. python写爬虫之提取网页的内容(筛选)_Python网络爬虫项目:使用requests获取网页,通过BeautifulSoup提取数据...

    本次讲解通过requests获取某一个网站,网址:http://www.gxccedu.com/sp2017/zli/index.html 然后使用正则表达式提取页面中的"专利名称" ...

  3. Python爬虫入门之爬虫解析提取数据的四种方法

    本文主要介绍了Python爬虫入门之爬虫解析提取数据的四种方法,通过具体的内容向大家展现,希望对大家Python爬虫的学习有所帮助. 基础爬虫的固定模式 笔者这里所谈的基础爬虫,指的是不需要处理像异步 ...

  4. python爬虫数据提取,Python 信息提取-爬虫,爬虫提取数据, import re

    Python 信息提取-爬虫,爬虫提取数据, import re import requestsimport refrom bs4 import BeautifulSoupurl = "ht ...

  5. python 下载文件 限速-Python网络爬虫---scrapy通用爬虫及反爬技巧

    一.通用爬虫 通用爬虫一般有以下通用特性:爬取大量(一般来说是无限)的网站而不是特定的一些网站. 不会将整个网站都爬取完毕,因为这十分不实际(或者说是不可能)完成的.相反,其会限制爬取的时间及数量. ...

  6. Python 网络爬虫笔记4 -- 信息标记与提取

    Python 网络爬虫笔记4 – 信息标记与提取 Python 网络爬虫系列笔记是笔者在学习嵩天老师的<Python网络爬虫与信息提取>课程及笔者实践网络爬虫的笔记. 课程链接:Pytho ...

  7. 利用python进行tf-idf算法绘制词云图_利用python实现通过TF-IDF和BM25提取文章关键词...

    使用TF-IDF和BM25提取文章关键词 评估方法: 人工从文章中提取1-5个关键词,和机器提取的关键词做比较 召回 = 机器提词∩人工提词 / 人工提词 准确 = 机器提词∩人工提词 / 机器提词 ...

  8. python如何爬虫eps数据_Python爬虫数据提取总结

    原博文 2019-01-24 18:06 − 关于Python的爬虫的一些数据提取的方法总结 第一种 : 正则表达式2. 正则表达式相关注解2.1 数量词的贪婪模式与非贪婪模式2.2 常用方法第二种: ...

  9. python编写爬虫爬取先知社区文章

    python编写爬虫爬取先知社区文章的标题.标题链接.作者.作者链接.文章分类.发布时间.评论数(O(∩_∩)O哈哈~初级小白,暂时没用正则表达式) import requests '''爬取全部'' ...

最新文章

  1. 【数据结构与算法】之深入解析“寻找旋转排序数组中的最小值II”的求解思路与算法示例
  2. Javascript中数组去重的六种方法
  3. java反射机制详解_JAVA反射机制详解_JSP/Java编程_互联网开发技术网_传播最新的编程技术_php361.com...
  4. 分布式数据库中间件概念
  5. 想做开源软件开发谁能带一下呀
  6. 7.6 C程序的存储空间布局
  7. 交通信息工程 实验四:交通仿真实验(二)
  8. 截图工具:VeryCapture
  9. 1080 端口被占用
  10. Aras Innovator 11 sp2 IE客户端设置
  11. rtb中的win_广告:RTB
  12. html怎么去除照片背景颜色,photoshop怎么去除图片背景色
  13. 建筑企业“出租脚手架”究竟如何缴纳增值税
  14. 计算机基础课程应用论文,新课标下的《计算机应用基础》课程研究论文
  15. python办公自动化(2)——字符串转小、转移目标文件、判断文件是否存在(带过程与结果)
  16. exe程序嵌入Winform窗体(转载)
  17. 《四书五经》之大学全文、注释及读解 好东西啊
  18. Java基础练习题_Random
  19. 计算机类公务员 真题解析,公务员考试C类计算机考试真题及答案2[文].pdf
  20. System32下几乎所有文件的简单说明

热门文章

  1. 数据库之Timestamp 的用法
  2. Anaconda pytorch cpu版本安装——图文详情版
  3. 华为OD机试真题Java_2022-2023-题目0188-网上商城优惠活动(一)
  4. 众享比特中标中电投电力工程有限公司区块链项目
  5. 基于win10 和python3.6激活虚拟环境成功!
  6. 私服服务器原理,传奇私服新手gm如何假设一个属于自己的服务器
  7. Git使用命令(超详细)
  8. 计算机软件技术基础图片,计算机软件技术基础.ppt
  9. cocos2dx的图片加载
  10. java se拖动插件_JQuery之拖拽插件实现代码