上个星期写过一篇文章, 让你的站跟新浪的新闻数据保持同步,有一些网友产生了兴趣,于是我决定再和大家分享一下里面所提及的伪原创系统,介绍其实现的原理,这个系统在我的西西弗斯工作室 ( 北京网站建设 , http://www.beijingjianzhan.com/ )北京网站建设中也有介绍.

搜索引擎毕竟还是个机器,通过改改标题,替换一些词语,打乱一些章节,插入一些链接等手段,就能达到伪原创的目的,目前网上也有类似的伪原创工具,但还需要人工操作去生成,所以我就想做一个全自动,无人监控的自动伪原创系统,结合自动采集程序,可以实现采集->入库->伪原创的流程,并且整个过程实现无人管理,并具有实时性.

言归正传,要做到更改词语而不影响文章语义,比较好的方法就是使用同义词进行替换,所以我想到第一步,是建立同义词库,在网上搜索这种数据库无果后,决定找相关的网站进行采集,发现金山词霸可以很好地满足我的要求,通过采集,建立起了词库,上万条数据.

然后就是进行关键词替换了,那么怎么样替呢,替换哪些呢?我的想法是先对文章进行分词,分成若干个词组,然后取长度大于两个汉字的,在同义词库中进行搜索,如果有,则替换之,我使用python来实现这个流程的,另外为了加速同义词的速度,可以使用key-value进行存储。一些关键代码如下:

def getnewword(text,list):

cxn.execute("select id from tool_words where name='%s' limit 1"%text)

result=cxn.fetchone()

if type(result) is not NoneType:

cxn.execute("select name from tool_wordslike where wid=%d order by rand() limit 1"%result[0])

result4=cxn.fetchone()

if type(result4) is not NoneType:

list[text]=result4[0]

def cuttest(text,flag):

list={}

wlist = seg.cut(text)

wlist.reverse()

result=""

for tmp in wlist:

if len(tmp)>1:

if flag==1:

getnewword(tmp,list)

if flag==1:

result=""

for k in list.iterkeys():

result+=k+","+list[k]+";"

else:

result+=tmp+";";

return result

不过毕竟伪原创系统,也是一个程序,肯定不可能完全保证语义的不恰当,语句的流畅,主要提供给那些做垃圾站的达人们,哈哈,我记得我的网站有一篇转换后相当搞笑, http://www.xxfsw.com/show24047.html,诺贝尔物理学奖得主俄院士金茨堡逝世,结果把逝世转成了圆寂,我都无语了。。。当然除了近义词的替换外,还有段落的颠倒,插入链接等,这些就比较容易实现,我就不细语了,大家根据实现情况选择,后来我也想了一些方法,可以实现对搜索引擎呈现使用伪原创后的内容,对实现用户提供伪原创前的内容,这样既达到了目的,又不影响用户体验,只是不知道这样的危险有多大,会不会被百度人工查出。。。

于是乎,经过这样一番折腾,百度蜘蛛来到了你的站,大惊了一下:哎呀小样,这文章内容没见过啊!收了。有什么问题可以加我QQ376504340讨论, 本文由西西弗斯工作室( 北京网站建设, http://www.beijingjianzhan.com/)首发,转载请注明,谢谢。

介绍西西弗斯伪原创系统相关推荐

  1. php伪原创思路,伪原创系统的原理及其实现_PHP

    上个星期写过一篇文章, 让你的站跟新浪的新闻数据保持同步,有一些网友产生了兴趣,于是我决定再和大家分享一下里面所提及的伪原创系统,介绍其实现的原理,这个系统在我的西西弗斯工作室中也有介绍. 搜索引擎毕 ...

  2. 解救西西弗斯- 模型驱动架构

    前言 西西弗斯是古希腊神话中的科林斯国王,他被罚将一块巨石推到山上,但无论西西弗斯如何努力,每次石头到达山顶之前都不可避免地滚下来,周而复始,永无休止. 在<应用MDA>一书中,作者Fra ...

  3. 解救西西弗斯- 模型驱动架构(MDA,Model Driven Architecture)浅述

    这是应邀发表在<软件世界>2007年7月刊上的一个MDA介绍文章,入门者可以看看 :) ================================================== ...

  4. 转:解救西西弗斯- 模型驱动架构(MDA,Model Driven Architecture)浅述

    原文: 解救西西弗斯- 模型驱动架构(MDA,Model Driven Architecture)浅述 前言 西西弗斯是古希腊神话中的科林斯国王,他被罚将一块巨石推到山上,但无论西西弗斯如何努力,每次 ...

  5. 数学黑洞(二)任何数都逃不出的西西弗斯黑洞

    如果我写的博文<数学黑洞(一)令人拍案叫绝的卡布列克常数>惊艳到您了,那西西弗斯黑洞也同样不会让您感到失望.西西弗斯黑洞又叫123黑洞,很明显,这个要出现的不可思议的现象要与再简单不过的数 ...

  6. 卡普雷卡与西西弗斯.C

    传说数学家 卡普雷卡 (Kaprekar)偶然发现铁路旁的里程碑"3025"被雷击得一分为二:30与25.他敏锐地注意到:30+25=55,55^2=3025. 现称这样具有分段和 ...

  7. 西西弗斯--生命的意义--人为什么活着

    古希腊神话一国之君西西弗斯,戏弄死神,等待他的是一座高山和一颗巨石,永无止境的推石头.滚落,生命就这样消耗殆尽. 活着好累,最终一定会死,那生命的意义是什么呢? 上班.下班.最后一座山死亡,推了一辈子 ...

  8. java西西_1004. 西西弗斯式的命运——java

    Description 古希腊有个关于西西弗斯的神话: 西西弗斯被众神判决推运一块石头至山顶.由于巨石本身的重量,它被推到山顶却又总要滚下山脚.于是西西弗斯又得把石块推上山去.如此反复,永无止境,没有 ...

  9. Java——西西弗斯数

    西西弗斯数是一个简单的黑洞数,也是十分有趣 任意输入一个数字,尽量越长越好,统计其中奇数和偶数的个数,统计数字总长度,这三个数拼起来就得到一个新的数字,例如,"奇数个数"+&quo ...

最新文章

  1. Asp.net中时间格式化的几种方法
  2. 开发日记-20190510
  3. HttpPost测试工具类,传递xml型文档
  4. 源代码分析工具推荐Understand
  5. 谨慎选择镭射祛斑,极易反黑!一定要做好防晒,否则会变成永无止尽的黑斑地狱!
  6. rapidxml学习记录
  7. 【逆向】修改软件标题(基于PE Explorer)
  8. 1024购书狂欢节,优惠券送给有需要的伙伴们
  9. 网络安全系列-VIII: 什么是渗透测试 Penetration Test?
  10. SQL 简介以及MySQL的优点
  11. StringUtils常用方法(五)
  12. 深度学习中,范数有什么意义
  13. 矿物质饲料补充剂的全球与中国市场2022-2028年:技术、参与者、趋势、市场规模及占有率研究报告
  14. 将checkbox选中样式用图片替换
  15. 网页向女友告白和纪念日专用特效
  16. 统一了Excel和Python的神级编辑器GridStudio,安装起来确实不简单
  17. CPU Designer
  18. html svg 移动缩放,SVG缩放,移动,倾斜和旋转变换
  19. lib3ds java_Lib3DS教程:我的第一个模型
  20. 计算机音频 视频教程,如何给视频配音 电脑录音再合成到视频[图文教程]

热门文章

  1. 金属膜电阻 碳膜电阻 水泥电阻 铝壳电阻比较
  2. NLP+2vec︱认识多种多样的2vec向量化模型
  3. 【HDU2155】小黑的镇魂曲
  4. 等差数列计算机函数公式大全,等差数列公式都有哪些
  5. 角色建模(四)——总结
  6. 恢复安卓谷歌套件 to replace
  7. [麦肯锡三部曲] 麦肯锡三部曲(1) - 麦肯锡方法读书笔记
  8. Windows系统下QT+OpenCasCAD仿真开发
  9. [元带你学NVMe协议] 端到端NVMe?| NVMe-OF或FC-NVMe
  10. 从MySQL数据库读取图片和向数据库插入图片