要识别论坛中被大量转载的同一篇文章,初看起来不是一个很难的技术问题,只要生成所有文章的信息指纹,再将相同指纹分组就可以了。至于产生信息指纹的方式,最简单的是用MD5或者SHA等单向Hash函数,如果为了减少存储以及提高性能,同时可以容许一定误差,可以再利用BloomFilter。
  但是结合实际情况看一下,就能发现产生这种类别文章的指纹不能简单的用MD5产生,因为当一篇文章被大量复制转载的时候,未必是一字不差的。特别是一些发帖软件为了规避论坛的检查,会有意的将内容进行变形,插入空格,空白字符,或者进行个别词语的替换等等;而只要有哪怕一个字的区别,都会产生全然不同的MD5结果。
  还有一个思路是文本向量的匹配,即将文本先分词再向量化之后比较他们在向量空间中的距离,设定一个阈值,距离小于该阈值的文本视为相同。这么做最大的好处是具有很好的抗干扰性,如果阈值调整合理,那么结果会有比较高的招回率。但是缺点也显而易见,即计算量太大,而且事实上把寻找大规模转载贴的问题又扩展成了聚类(Clustering)问题。
  我们后来采用的方式是结合了两种方案,即不将全文作为文本向量,而是在文中选取我们认为重要的词汇(重要性可以根据该行业语料库的TF/IDF词频信息判断),保留相应的语序,再生成MD5。这里的基本假设是为了传达相同的信息,大规模转载贴的变形只会发生在相对不重要的词汇上(包含空格,标点等),由于我们的算法会忽略这些元素,只关心核心词汇,因此能够在保证准确度的基础上获得一定抗干扰性。
  从部分分析结果看,算法的效果还是不错的,在我们随机选取的近600万的帖子中,查找到了近3万5千条有转载的帖子,而这4万条帖子包含了大约10000条独立的内容;其中一则内容为"所有现车 全部降价出手 .... 交易成功可送车出湖南或代办安全托运”的卖车贴,除了车型,价格,时间略有变化外,在我们的样本集里被转载了近1000次。
  当我们忽略转载量小于10的帖子后,剩余的独立内容有370个,而它们的转载总量达到了7878次。我们对转载数取了对数,并按照转载数对内容排名,绘出了下列图表

from:http://blog.csdn.net/CICTech/archive/2009/02/12/3880945.aspx

对大量转载贴识别算法的研究相关推荐

  1. 基于MATLAB的人脸识别算法的研究

    基于MATLAB的人脸识别算法的研究 作者:lee神 现如今机器视觉越来越盛行,从智能交通系统的车辆识别,车牌识别到交通标牌的识别:从智能手机的人脸识别的性别识别:如今无人驾驶汽车更是应用了大量的机器 ...

  2. 基于深度神经网络的遮挡人脸识别算法的研究(小白初学)

    基于深度神经网络的遮挡人脸识别算法的研究(小白初学) 研究背景 在自然条件下人脸面部的光照变化.角度变化.表情变化以及存在遮挡物,使得采集到的人脸图像存在人脸特征的损失.因此研究遮挡人脸识别算法提高识 ...

  3. 【车道识别】基于WOA-SVM算法的道路标志检测与识别算法的研究,通过MATLAB/FPGA实现

    1.软件版本 MATLAB2017b,Quartusii12.1 2.本算法理论知识 安装在车辆上的摄像机实际采集得到的图像,其往往存在噪声干扰,因此在进行道路标志检测之前,首先需要对图像进行预处理, ...

  4. 基于高阶累积量的调制信号识别算法的研究——详细版

    在进行调制方式识别之前,我们首先需要对信号的相关特征进行提取,信号特征的提取需要反映调制信号的细节信息,本文将选择信号的高阶累积量以及信号的希尔伯特变换结果作为特征提取值.在对调制信号进行识别之前,需 ...

  5. 基于深度学习的交通标识别算法对比研究-TensorFlow2实现

  6. 基于深度学习的天气识别算法对比研究-TensorFlow实现-卷积神经网络(CNN) | 第1例(内附源码+数据)

  7. 人脸识别算法原理过程详解

    本文为转载内容,由于找不到源作者链接,故特此说明. 人脸识别各算法详解 最近,由于工作需要,为了找到一款高效的人脸识别算法,对各种人脸识别算法都研究了一番,以下记录的是各算法的理论基础. 一.MTCN ...

  8. 基于CRNN+CTC的改进图像文本识别算法

    上一次介绍了基于改进EAST(An Efficient and Accurate Scene Text Detector)算法的文本定位算法这次我来介绍基于卷积循环神经网络CRNN (Convolut ...

  9. 【调制识别】基于高阶累积量的调制方式识别算法matlab仿真,课题识别BPSK, QPSK, 16QAM, 64QAM

    目录 一.理论基础 二.核心程序 三.仿真测试结果 一.理论基础 由于数字调制信号越来越多地应用于通信信号处理领域,因此对数字信号调制识别的研究也越来越多.传统的调制识别的判决方法有:决策判决法.高阶 ...

最新文章

  1. LeetCode-链表-203. 移除链表元素
  2. 帖子回复——无限级分类
  3. 第103天:CSS3中Flex布局(伸缩布局)详解
  4. html 行级元素和块级元素标签列表分别有哪些
  5. [原创]Scala学习:流程控制,异常处理
  6. java tostring 格式化日期_ASP.NET格式化日期
  7. 实现全站统一的Page_PreInit()等事件
  8. 服务器网口聚合操作文档,服务器网口聚合怎么操作
  9. folder汇总字段的实现
  10. Hola Stduio导入RUBE配置的过程
  11. 电子邮件格式详细介绍
  12. 2018 Arab Collegiate Programming Contest (ACPC 2018) L.Looking for Taste(按位或)
  13. 怎么查看电脑开机记录
  14. 苹果App Store简介
  15. linux虚拟桌面设置不同的背景,虚拟桌面增强器为Windows 10中的每个虚拟桌面设置不同的壁纸 | MOS86...
  16. sourcemap功能简介
  17. Bugly 之热修复学习
  18. 华为rh2288v2服务器系统,华为RH2288H V2服务器外部简介_华为 FusionServer RH2288 V2_服务器评测与技术-中关村在线...
  19. windows11隐藏/删除 导航栏主文件夹图标
  20. 51nod3113 涂气球

热门文章

  1. 【Matlab】函数输入个数不定怎么办?
  2. [云炬创业基础笔记]第七张创业团队测试7
  3. 《蓝桥小记》 2018-04-01
  4. [我的1024开源程序]60元写的宠物网页和音乐网页
  5. [MATLAB学习笔记]clf清空图窗1013(1)
  6. GitHub如何下载单个文件夹
  7. 校园网站服务器配置参数,校园网服务器性能 配置及分布
  8. 主成分分析的数学原理
  9. .bashrc和.vimrc以及一些比较有用的linux命令
  10. 【转】反病毒攻防研究第002篇:利用缝隙实现代码的植入