做爬虫,当然就要用数据。想拿数据进行分析,首先清洗数据。这个清洗数据包括清除无用数据列和维度,删除相同数据,对数据进行勘误之类的。

  从各大不同新闻网站可以爬到重复新闻。。。这个可以有。之前为了对爬到的新闻信息进行深度挖掘去了这个网站http://blog.reetsee.com/archives/237虽说没有对数据进行更进一步的挖掘,好歹有处理数据。处理重复新闻可以使用python结巴分词。统计分词信息,词典差距过大,词典频度比差距过大,都可以算不同新闻。

  对新闻内容字符串进行检查需要这3种操作:提取分词,统计频度和查重。

  提取分词函数:

def ExtractTagsFromContent(content, num_of_tags):tags = jieba.analyse.extract_tags(content, topK = num_of_tags)return tags

View Code

  统计频度函数:

def GetTermFreqFromContent(tags, content):tfdict = {}for tag in tags:tfdict[tag] = 0 #把已出现的词频度初始化为0
seg_list = jieba.cut(content) #把新闻内容切分成词has_words = Falsefor word in seg_list:if tfdict.has_key(word):tfdict[word] = tfdict[word] + 1 #统计频度has_words = Trueif has_words:return tfdictelse:return None

View Code

  余弦相似度函数:

def CosinSimilarity(vector1, vector2):if len(vector1) != len(vector2):print "Error: vector1:" + vector1 + " and vector2: " + vector2 + "have different dimensions" return Nonenumerator = 0.0v1_square = 0.0v2_square = 0.0for i in range(0, len(vector1)):numerator += vector1[i] * vector2[i]v1_square += vector1[i] * vector1[i]v2_square += vector2[i] * vector2[i]denominator = math.sqrt(v1_square * v2_square)if denominator == 0:return Noneelse:return numerator / denominator

View Code

  查重函数:

def FindSimilarPassageFromSet(news_set, example_tf):heap = []tags = []for tag in example_tf.keys():tags.append(tag)for file_path in news_set:tf = GetTermFreqFromFile(tags, file_path)if tf == None:continuesimilarity = CosinSimilarityForDict(example_tf, tf)# 插入堆if not similarity == None:heap.append(SimilarPassage(similarity * -1.0, file_path))# 把最高相似度弹出(有*-1的关系,最小弹出实际是最大弹出)
    heapq.heapify(heap)if len(heap) == 0:return Noneresult = heapq.heappop(heap)if result.Relevant():print "Similarity: " + str(result.similarity)news_set.discard(result.file_path)return result.file_pathelse:return None

View Code

  然后新闻就成功去重了。

  爬新浪微博的数据,wap端比较容易爬,而且数据也较为纯净。

  不过根据关键词爬出来的数据还是有些奇怪的:

:春季番最新销量:《机甲少女》热卖 《樱花任务》暴死  被认为是“买手办送光碟”的《机甲少女FRAME ARMS GIRL》第1卷不负众望取得了好成绩。而P.A.WORKS动画公司继《花开伊吕波》《白箱》之后的第三部工作题材动画《樱花任务》销量仅为1392张,在春季番中属于垫底。<br/>2017年春季番销量及排名情况(截止2017年7月23日)<br/><br/>第1名:《碧蓝幻想》 53571张<br/><br/>第2名:《偶像大师 灰姑娘女孩剧场》 42959张<br/><br/>第3名:《埃罗芒阿老师》 10417张<br/><br/>第4名:《高校星歌剧》第2季 9827张<br/><br/>第5名:《机甲少女FRAME ARMS GIRL》 7614张<br/><br/>第6名:《进击的巨人》第2季 7525张<br/><br/>第7名:《王室教师海涅》 6532张<br/><br/>第8名:《夏目友人帐》第6季 4862张<br/><br/>第9名:《我的英雄学院》第2季 4145张<br/><br/>第10名:《sin七大罪》 3305张<br/><br/>第11名:《Re:CREATORS》 2631张<br/><br/>第12名:《不正经的魔术讲师与禁忌教典》 2485张<br/><br/>第13名:《末日时在做什么?有没有空?可以来拯救吗?》 1674张<br/><br/>第14名:《剑姬神圣谭》 1656张<br/><br/>第15名:《武装少女》 1425张<br/><br/>第16名:《樱花任务》 1392张<br/><br/>第17名:《时钟机关之星》 896张<br/><br/>第18名:《怪怪守护神》 834张<br/><br/>第19名:《覆面系Noise》 823张<br/><br/>第20名:《喧哗番长乙女》 673张<br/><br/>第21名:《恋爱暴君》 556张

我说的是任天堂的游戏arms...

:可惜,lost stars没有音频版的,不能更好听!实力唱将!幸好,open arms有啊<a href="/n/M%E9%B9%BFM">@M鹿M</a> 的<a href="https://weibo.cn/sinaurl?f=w&amp;u=http%3A%2F%2Ft.cn%2FRorgJGY&amp;ep=FerXXxPbm%2C1763629124%2CFerXXxPbm%2C1763629124">触发(Set it off)</a> 打榜就行!<a href="http://weibo.cn/pages/100808topic?extparam=%E4%BA%9A%E6%B4%B2%E6%96%B0%E6%AD%8C%E6%A6%9C&amp;from=feed">#亚洲新歌榜#</a> 现在参与打榜,还有机会获得8月27日举办的亚洲新歌榜2017年度盛典门票! ​​​

看来arms这个关键词太有歧义了

:发售中的Switch平台游戏《ARMS》公开全新TVCM,在近日任天堂公开的Q1财报中《ARMS》成功突破百万销量,期待今后的表现。[鼓掌] <a href="https://weibo.cn/sinaurl?f=w&amp;u=http%3A%2F%2Ft.cn%2FR9yV0Fz&amp;ep=FerBM7lQy%2C1764127957%2CFerBM7lQy%2C1764127957">秒拍视频</a> ​​​

有个正常的了。。。不过后面的话题符号明显就是在捣乱

:<a href="http://weibo.cn/pages/100808topic?extparam=%E5%AD%A6%E5%AD%90%E9%A3%8E%E9%87%87&amp;from=feed">#学子风采#</a> 【厉害了, 集大学子获第41届ACM国际大学生程序设计竞赛亚洲区域赛铜奖】日前,ACM/ICPC(国际大学生程序设计竞赛)亚洲区域赛在青岛落下帷幕。北京大学、复旦大学、武汉大学、厦门大学等115所高校的186支代表队参赛。经过激烈角逐,由我校计算机工程学院2014级学生吴晓仁、阚航、陈明振组成的集大ACM集训队(指导教师:林阳斌)获得一枚铜牌。<br/><br/>  ACM国际大学生程序设计竞赛(简称ACM-ICPC)是由国际计算机界具有悠久历史的权威性组织ACM学会(Association for Computing Machinery)主办,世界上公认的规模最大、水平最高、参与人数最多的国际大学生程序设计竞赛,被业界称为IT界的“奥林匹克”竞赛。 <a href="/n/%E9%9B%86%E5%A4%A7%E8%AE%A1%E7%AE%97%E6%9C%BA%E5%B7%A5%E7%A8%8B%E5%AD%A6%E9%99%A2%E5%AD%A6%E7%94%9F%E4%BC%9A">@集大计算机工程学院学生会</a>

后面那段人人皆知的介绍能不能去掉啊。。。

:ACM-ICPC竞赛算法类型 - 海岛Blog - CSDN博客 <a href="https://weibo.cn/sinaurl?f=w&amp;u=http%3A%2F%2Ft.cn%2FRK1sG4m&amp;ep=FdolV9DkF%2C6286510827%2CFdolV9DkF%2C6286510827">http://t.cn/RK1sG4m</a> ​​​

一看就知道这只是博客文章的入口。。。如果标题不对,想除杂就更麻烦了

:【我校学子在ACM国际大学生程序设计竞赛全国邀请赛上摘金】2017年5月,ACM国际大学生程序设计竞赛(ACM-ICPC)全国邀请赛在西北工业大学举行。由我校学生李志远、徐经纬、陈笑天三名同学组成的队伍“challenge”夺得金奖,捧回了我校历史上的第一枚ACM-ICPC金牌。详情可见<a href="https://weibo.cn/sinaurl?f=w&amp;u=http%3A%2F%2Ft.cn%2FRol0sxX&amp;ep=F9Vlbao8b%2C1845850033%2CF9Vlbao8b%2C1845850033">http://t.cn/Rol0sxX</a> ​​​

详情的数据是否有用?要不要特意再写一次分析策略?

:【我校学子在ACM国际大学生程序设计竞赛全国邀请赛上摘金】2017年5月,ACM国际大学生程序设计竞赛(ACM-ICPC)全国邀请赛在西北工业大学举行。由我校学生李志远、徐经纬、陈笑天三名同学组成的队伍“challenge”夺得金奖,捧回了我校历史上的第一枚ACM-ICPC金牌。详情可见<a href="https://weibo.cn/sinaurl?f=w&amp;u=http%3A%2F%2Ft.cn%2FRol0sxX&amp;ep=F9Vlbao8b%2C1845850033%2CF9Vlbao8b%2C1845850033">http://t.cn/Rol0sxX</a> ​​​

搜索结果收录了2次。。。

:等等,考虑到今后将推出的游戏,难不成NB社Switch上第三方一哥?回想起来马车8dx和arms后面都有对NBGI的特别鸣谢,真是可怕极了 <a href="https://weibo.cn/sinaurl?f=w&amp;u=http%3A%2F%2Ft.cn%2FRU14lZk&amp;ep=FeUqn8BXP%2C1886986281%2CFeUqn8BXP%2C1886986281">日本·横滨</a> ​​​

要不要把地址也作为变量录入呢?

  上面的问题只是一部分。。。如果爬其他数据还会有更多的问题要考虑。有空再考虑一下清洗策略

转载于:https://www.cnblogs.com/dgutfly/p/7264771.html

python爬虫——对爬到的数据进行清洗的一些姿势(5)相关推荐

  1. 初识Python爬虫----如何爬取网络数据

    一.什么是网络爬虫 即爬取网络数据的虫子,也就是Python程序. 二.爬虫的实质是什么? 模拟浏览器的工作原理,向服务器发送请求数据. 三.浏览器的工作原理是什么? 浏览器还可以起到翻译数据的作用. ...

  2. Pycharm + python 爬虫简单爬取网站数据

    本文主要介绍简单的写一个爬取网站图片并将图片下载的python爬虫示例. 首先,python爬虫爬取数据,需要先了解工具包requests以及BeautifulSoup requests中文文档:ht ...

  3. Python爬虫经常爬不到数据,或许你可以看一下小编的这篇文章

    原标题:解决Python爬虫爬不到数据 前言: 近期,通过做了一些小的项目,觉得对于Python爬虫有了一定的了解,于是,就对于Python爬虫爬取数据做了一个小小的总结,希望大家喜欢! 文章目录 原 ...

  4. 【Python爬虫】爬取大量数据网络超时的解决思路

    问题 在爬取大量数据的过程中,有时没有注意,会出现网络超时,结果也不知道爬到了哪里,重新爬一遍代价太大. 解决思路 目前提供解决思路,实践之后补充示例代码. 思路一 1.设置超时处理,超过时间返回异常 ...

  5. 【python爬虫】爬取网站数据,整理三句半语料数据集

    因为目前没有公开的三句半语料库,所以在网络上爬取一些网站上公开的三句半数据. 主要分为两部分: 目录 爬取数据 清洗数据 爬取数据 以爬取 http://p.onegreen.net/JuBen 上的 ...

  6. python爬取网页内容_你以为Python爬虫只能爬取网页数据吗?APP也是可以的呢!

    摘要 大多数APP里面返回的是json格式数据,或者一堆加密过的数据 .这里以超级课程表APP为例,抓取超级课程表里用户发的话题. 1 抓取APP数据包 方法详细可以参考这篇博文:http://my. ...

  7. 【python爬虫】爬取ajax数据-马蜂窝旅游网

    10-爬取ajax数据-马蜂窝旅游网 目标 马蜂窝旅游网-广州全部景点 地址:https://www.mafengwo.cn/jd/10088/gonglve.html 分析 网站分析: 打开目标网页 ...

  8. python爬虫之爬取网页基础知识及环境配置概括

    记:python爬虫是爬取网页数据.统计数据必备的知识体系,当我们想统计某个网页的部分数据时,就需要python爬虫进行网络数据的爬取,英文翻译为 spider 爬虫的核心 1.爬取网页:爬取整个网页 ...

  9. python爬网页数据用什么_初学者如何用“python爬虫”技术抓取网页数据?

    原标题:初学者如何用"python爬虫"技术抓取网页数据? 在当今社会,互联网上充斥着许多有用的数据.我们只需要耐心观察并添加一些技术手段即可获得大量有价值的数据.而这里的&quo ...

最新文章

  1. 只有程序员才能读懂的西游记,又看了一遍西游记!
  2. JBoss Seam 3.0.0.Beta1 发布
  3. 初识WordPress数据库
  4. 数据结构与算法 / 分治算法
  5. 论文浅尝 | 基于知识库的自然语言理解 01#
  6. 【操作系统】分段内存管理
  7. 小白必须要会的Github操作 确定不进来看看?
  8. 用concat批量生成MySQL查询语句
  9. git指定版本openwrt源码_关于Github Action自动编译Lean_Openwrt的配置修改问题
  10. APP 测试用例(大部分 APP 通用)
  11. [Android实例] 【eoeAndroid社区索引】图形图像之动画
  12. 编译的html帮助文件(.chm)打不开,chm文件无法打开怎么办
  13. QQ开放平台地址 http://open.qq.com/
  14. DBeaver 驱动安装
  15. 帝国cms登陆表单的制作与变量说明
  16. 通过Windows7升级正版Windows10
  17. 北京大学光华管理学院开通CnOpenData试用
  18. 容器化 Spring Boot 代码的 9 个技巧
  19. 向量范数与矩阵范数定义和python向量矩阵运算示例
  20. 985、211学校分为哪八个档次?

热门文章

  1. 新闻报道类摄影如何处理人物肖像权? | 拍者手记
  2. 用archlinux给小米手机刷lineageOS教程
  3. 猎头职场:职场社交拒绝做尬聊的人
  4. 这些例子不错,可以学习一下
  5. 记录使用freemarker生成word的模板ftl文件以及word的遍历数据
  6. 安卓蓝牙自动pin码
  7. Rational Rose的中间的工具栏消失以及工具栏中没有想要的工具(小人图标,用例图标)
  8. 【每日一题】旋变字符串
  9. [附源码]计算机毕业设计Python+uniapp基于Android的减肥菜谱APPn0n19(程序+源码+LW+远程部署)
  10. [latex]在箭头上写东西,写字