【网页正文识别及提取算法】提取网络正文的实践

Python的newspaper

安装：

pip3 install newspaper3k

github:

https://github.com/codelucas/newspaper

什么是网络正文？

简单介绍什么是网络正文。

例子

参考官方的例子，进行如下尝试：

博客

>>> from newspaper import Article
>>> url = 'https://blog.csdn.net/LU_ZHAO/article/details/104860830'
>>> article = Article(url, language = 'zh')
>>> article.download()
>>> article.parse()
Building prefix dict from /usr/local/lib/python3.7/site-packages/jieba/dict.txt ...
Dumping model to file cache /var/folders/zf/n2xjp7t53yg_m7wyrjt6p1_40000gn/T/jieba.cache
Loading model cost 2.059746742248535 seconds.
Prefix dict has been built succesfully.
>>> print(article.title)
【自然语言处理】 常见的文本相似度计算方法_Python_LU_ZHAO的博客-CSDN博客
>>> print(article.text)
引言在自然语言处理中，我们经常需要判定两个东西是否相似。比如，在微博的热点话题推荐那里，我们需要比较微博之间的相似度，让相似度高的微博聚集在一起形成一个簇，提出一个主题。在问答系统中，比如说人工客服，我们需要提前准备好问题和一些答案，让用户输入的问题与题库中的问题进行相似度的比较，最后输出答案。在推荐系统中，我们需要提取一个用户的所有物品，在根据这个物品找到对应的用户群，比较两个用户之间的相似性，在进行相应的推荐（协同过滤）。在对语料进行预处理的时候，我们需要给予文本的相似度，把相似度高的重复主题过滤掉。总之，相似度是一种非常有用的工具，可以帮助我们解决很多问题。任务目标一般来说，是比较两个物体（商品，文本。。）之间的相似度。这里的相似度是一个抽象的值，它可以抽象成估计的百分比。在推荐工程中，计算相似度是为了给用户推送一定量的物品。即把所有的相似度排序，然后选出最高的那几个物品。人是很容易判断出物品的相似度的，人们会在心里有一个考量。那么程序如何判断呢？这里呢？如果是文本分析，它首先就要用到分词技术，然后去掉不必要的词（语气词，连接词。。）。然后对词给一个抽象的量表示权重，最后在用一些方法去统计出整体的相似度。如果是其他的，可能首先也需要进行数据清洗的工作，留下那些关键的能够表示物体特征的部分，对这些部分定权值，再去估计整体。相似度计算关键组件相似度计算方法有2个关键组件：表示模型度量方法前者负责将物体表示为计算机可以计算的数值向量，也就是提供特征。后者负责基于前面得到的数值向量计算物体之间的相似度。距离的度量方式欧几里得距离使用python计算欧式距离：distance = numpy . linalg . norm ( vec1 - vec2 )相似度为：similarity = 1.0 / ( 1.0 + np . linalg . norm ( dataA - dataB ) )余弦距离余弦距离的计算方式与欧氏距离的区别：欧氏距离能够体现个体数值特征的绝对差异，所以更多的用于需要从维度的数值大小中体现差异的分析，如使用用户行为指标分析用户价值的相似度或差异。余弦距离更多的是从方向上区分差异，而对绝对的数值不敏感，更多的用于使用用户对内容评分来区分兴趣的相似度和差异，同时修正了用户间可能存在的度量标准不统一的问题（因为余弦距离对绝对数值不敏感）Jacard相似度distance = 1 / similarity思想非常简单，两个集合共有的元素越多，二者越相似。汉明距离两个字码中不同位值的数目称为汉明距离。Hamming distance = 0 （a i = b i ) Hamming distance = 1 （a i != b i )最后统计相加。最小编辑距离最小编辑距离是一种经典的距离计算方法，用来度量字符串之间的差异。它认为，将字符串A不断修改(增删改)、直至成为字符串B，所需要的修改次数代表了字符串A和B的差异大小。当然了，将A修改为B的方案非常多，选哪一种呢？我们可以用动态规划找到修改次数最小的方案，然后用对应的次数来表示A和B的距离。总结待学：朴素贝叶斯分类器，文本切分粒度，分词，句法分析，特征构建方法

感觉还是可以的。

淘宝

>>> url = 'https://www.taobao.com/list/product/%E6%B7%98%E5%AE%9D%E7%BD%91%E9%A6%96%E9%A1%B5%E7%89%88.htm'
>>> article = Article(url, language = 'zh')
>>> article.download()
>>> article.parse()
>>> print(article.title)
品牌 - 淘宝海外
>>> print(article.text)
关于商品淘宝当前有260件淘宝网首页版相关的商品在售。

不太行。

商品详情页

0亿美元的紧急资金储备，用于各州医疗机构应对新冠肺炎疫情，同时要求各州尽快建立应对新冠肺炎的应急指挥中心。(完)
>>> url = 'https://item.jd.com/3152659.html'
>>> article = Article(url, language = 'zh')
>>> article.download()
>>> article.parse()
>>> print(article.title)
【肌肤之钥妆前乳】CPB肌肤之钥光透妆前乳 30ml（ 短管控油 打底）【行情 报价 价格 评测】-京东
>>> print(article.text)
京东上的所有商品信息、客户评价、商品咨询、网友讨论等内容，是京东重要的经营资源，未经许可，禁止非法转载使用。注：本站商品信息均来自于合作方，其真实性、准确性和合法性由信息拥有者（合作方）负责。本站不提供任何保证，并不承担任何法律责任。京东价：京东价为商品的销售价，是您最终决定是否购买商品的依据。划线价：商品展示的划横线价格为参考价，并非原价，该价格可能是品牌专柜标价、商品吊牌价或由品牌供应商提供的正品零售价（如厂商指导价、建议零售价等）或该商品在京东平台上曾经展示过的销售价；由于地区、时间的差异性和市场行情波动，品牌专柜标价、商品吊牌价等可能会与您购物时展示的不一致，该价格仅供您参考。折扣：如无特殊说明，折扣指销售商在原价、或划线价（如品牌专柜标价、商品吊牌价、厂商指导价、厂商建议零售价）等某一价格基础上计算出的优惠比例或优惠金额；如有疑问，您可在购买前联系销售商进行咨询。异常问题：商品促销信息以商品详情页“促销”栏中的信息为准；商品的具体售价以订单结算页价格为准；如您发现活动商品售价或促销信息有异常，建议购买前先联系销售商咨询

新闻

去试了新闻，发现也很不错。

搜索引擎

>>> url = 'https://www.baidu.com/s?wd=newspapers&tn=84053098_3_dg&ie=utf-8'
>>> article = Article(url, language = 'zh')
>>> article.download()
>>> article.parse()
>>> print(article.title)>>> print(article.text)>>>

感觉新闻和博客这样以文本内容为主的还是很准确的。

【网页正文识别及提取算法】提取网络正文的实践相关推荐

声音信号基音提取算法基频和谐波处理分析
1.内容简介略 293-可以交流.咨询.答疑 2.内容说明略一. 实验原理: 傅里叶变换建立了信号频谱的概念.所谓傅里叶分析即分析信号的频谱(频率构成).频带宽度等.要想合成出一段音乐,就要了解 ...
基于QT和Node.js的八叉树算法提取图片主题色
资源下载地址:https://download.csdn.net/download/sheziqiong/85883609 资源下载地址:https://download.csdn.net/downl ...
php 正文提取算法,基于机器学习的网页正文提取方法
摘要: 先将网页转换为规范的DOM树,然后计算每行文本的文本密度.与标题相关度等值,并将其作为输入参数利用BP神经网络进行训练,进而形成抽取规则,最后通过实验验证该方法的可行性. 关键词: 信息提 ...
点云孔洞定位_散乱点云的孔洞识别和边界提取算法研究
散乱点云的孔洞识别和边界提取算法研究王春香,孟宏,张勇 [摘要] 针对逆向工程中已有孔洞识别算法执行效率低.孔洞边界点提取不完整等问题,提出一种新的基于 KD 树和 K 邻域搜索的点云孔洞识 ...
python如何提取网络链接_Python网络爬虫——把一个网页中所有的链接地址提取出来（去重）...
# 把一个网页中所有的链接地址提取出来. 运行环境Python3.6.4-实现代码:import urllib.request import re #1. 确定好要爬取的入口链接 url = &quo ...
文本关键词的提取算法实验
转载自:http://blog.csdn.net/samule704/article/details/5118425 近期刚刚开始进入 SE 的领域,觉得这里面确实有很多值得研究的东西,从网络爬虫 ...
文本关键词的提取算法实验[又是转的]
近期刚刚开始进入 SE 的领域,觉得这里面确实有很多值得研究的东西,从网络爬虫到网页信息的抽取再到文本关键词的提取以及用户检索(个性化SE) 等等包罗万象. 下午玩完,先来无事,再次浏览 ...
KeyBert、TextRank等九种本文关键词提取算法（KPE）原理及代码实现
关键词提取 (Keyphrase Extraction,KPE) 任务可以自动提取文档中能够概括核心内容的短语,有利于下游信息检索和 NLP 任务.当前,由于对文档进行标注需要耗费大量资源且缺乏大规模 ...
关键词提取算法TextRank
很久以前,我用过TFIDF做过行业关键词提取.TFIDF仅仅从词的统计信息出发,而没有充分考虑词之间的语义信息.现在本文将介绍一种考虑了相邻词的语义关系.基于图排序的关键词提取算法TextRank. ...

【网页正文识别及提取算法】提取网络正文的实践

Python的newspaper

什么是网络正文？

例子

博客

淘宝

商品详情页

新闻

搜索引擎

【网页正文识别及提取算法】提取网络正文的实践相关推荐

最新文章

热门文章