维基百科数据 - Charts - 汉语
Originally uploaded by Che Dong.

最近很热门的一本书:
其中很一章提到了搜索引擎:你和任何一个网站之间的距离缩短到一个(组)关键词。感受最深的是:在互联网中wiki/blog无疑是最平坦的两块自留地。从blog/wiki的设计中也可以看到CMS设计面向搜索引擎抓取优化的2个要点:
1 蜘蛛遍历的速度:帮助搜索引擎快速遍历整个网站,而又不在个别页面中集中太多的链接。
2 内容的稳定性:承诺一个稳定的内容映射,不会在搜索过来使实际内容已经面目全非;

简单比较一下传统的BBS和Blog Wiki之间的发布模式:

论坛:滚动的索引/列表页,当论坛内容很多的时候,当论坛中的内容较多以后,遍历完一个论坛往往需要蜘蛛从入口抓取5层以上。

- web - ?Forum=1 - ?post=1|- ?post=2|- ?post=5- ?Forum=2 - ?post=4|- ?post=22|- ?post=8

Blog的发布模式的优点:主题的permalink + 按时间归档 + 按分类归档 BLOG: Better Listing On Google

- index - post10.html|- post9.html|- monthly_archive  - post8.html|- post7.html|- category_archive - post8.html|- post2.html

由于个人内容发布量较少,在百级或者千级,蜘蛛经过3层遍历基本上能够遍历完整个网站。而blog之间的相互引用非常丰富。邮件列表归档和blog的发布结构非常像:邮件列表归档也有按时间归档的机制,并且使用permalink,

WIKI完全扁平的发布格式,内容之间链接/引用丰富。

|- topic1 -> topic2-> topic3
|- topic2 -> topic3
|- topic3 -> topic2-> topic1

在很多发布系统提供了RSS/XML接口以后: 达到同样的同步速度,RSS帮助蜘蛛节省了数倍刷新首页/归档索引页的过程。

rss.xml  - post10.html|- post9.html|- post8.html

什么是Tag:
和原有的固定分类相比,tag可以提供一个更灵活的“多对多”类聚方法,在自动分类实现难度很高的情况下,让作者/编辑在发布内容的时候附上几个关键词,可以帮助内容之间实现更丰富的引用。关键词越多,类聚就越精确。很多blogger之间还使用一些特殊制造出来的关键词,利用technorati这样的blog引擎实现在更大空间内的聚合。 什么是PermaLink:
PermaLink给搜索引擎和其他应用一个承诺:在未来很长一段时间内,这个链接和其对应的内容是稳定的。搜索引擎也不喜欢带有复杂参数的动态链接,因为 foo.php?a=1&b=2和foo.php?b=2&a=1 可能是一个页面。搜索引擎更希望索引 foo/a/b 这样的稳定内容链接。而且尽可能直接将用户导向到他需要的内容页,而不是内容经常变换的首页/索引页。

由于wiki和blog在搜索引擎中获得巨大的影响力,也促使在这2个平台上汇聚了写作质量很高的一群人创作更多的内容。以下是wikipedia.cnblog.org这半年来的镜像统计数据做一些分析:

数字截至2005年底:原始数据
WikiPedia上编辑超过10篇的用户共2118人。目前WikiPedia上中文条目共5万多,每条长度平均在2.6k,其中长度在2k以上条目占11%。
内部链接是1M个,链接到其他语言的条目的个数是37万个,链接到外面网站的个数是46k个。

内部的链接密度:
平均每个条目和其他条目之间的链接个数
100万/5万=20个。

由于内部内容之间良好的引用和链接设计,搜索引擎的蜘蛛能在4层之内遍历到的网站的内容:20^4 = 16万

而后台的统计上可以看到:各个引擎的抓取都非常频繁和深入
搜索引擎网站的机器人 (前 10) - 全部列出 - 最近参观日期
Googlebot 89303+15 296.35 M字节 2006年 三月 04日 23:54
BaiDuSpider 51499+3 1.10 G字节 2006年 三月 04日 16:24
Yahoo Slurp 13122+705 97.86 M字节 2006年 三月 04日 23:59
MSNBot 12434+85 244.40 M字节 2006年 三月 04日 23:57

中文网的每天PV为15万,独立用户1.5万左右。外部来源几乎完全来自搜索引擎,而包含英文网站在内的wikipedia.org已经成为全球第22位的 http://www.alexa.com/data/details/traffic_details?q=&url=wikipedia.org

从日志统计来看:
http://blog.cnblog.org/cgi-bin/awstats/awstats.pl?config=wikipedia
wikipedia被搜索引擎搜索到的有千个关键词,每天的访问量在10万PV/1万人次左右。

用以搜索的短语 (前 10)
13747 个不同的关键字句 搜索 百分比
繁体字 2121 5.8 %
少年阿宾 1242 3.4 %
色情电影 1076 2.9 %
维基百科 483 1.3 %
维基 259 0.7 %
阴毛 187 0.5 %
海伦.凯勒 162 0.4 %
海伦 凯勒 156 0.4 %
美少女战士 152 0.4 %
奇幻小说 139 0.3 %

其他短语 30041 83.4 %

关键词的分布较广泛:top 10关键词流量占总体来源关键词不到20%。 作者:车东 发表于:2006-03-05 22:03 最后更新于:2007-11-09 10:11
版权声明:可以转载,转载时请务必以超链接形式标明文章 Wiki is flat 的原始出处和作者信息及本版权声明。
http://www.chedong.com/blog/archives/001129.html

« debian上使用rc.local | (回到Blog入口)|(回到首页) | 基于群体分析发现网站的相关性 » [再编辑]

Wiki is flat相关推荐

  1. 快速访问github镜像 wiki镜像重点_github问题小结

    20220331 https://mp.weixin.qq.com/s/7ZFcD9BMB5WQnDAqZUgELg 高效的搜索github 20210821 https://zgc261.com/w ...

  2. 使用 mkdocs 搭建个人 wiki 站点

    原文: https://rebootcat.com/2020/09/20/wiki/ why wiki 博客通常是用来记录一些完整的文章,每篇文章有一个主题.但是我想把平日里的一些笔记也记录到我的博客 ...

  3. WebBrowserProgramming - Python Wiki

    WebBrowserProgramming - Python Wiki Web Browser Programming in Python

  4. 如何使用Next.js创建动态的Rick and Morty Wiki Web App

    Building web apps with dynamic APIs and server side rendering are a way to give people a great exper ...

  5. WIKI与BLOG殊途同归(转)

    现在很多朋友都拥有了自己的BLOG网页,尽管他们可能并不打算走木子美那种写私人日记的路子,但彰显个性.张扬自我的目的,大都类似.其实在这个时候,中国的许多技术迷们已经把目光投向了WIKI. 历经了网络 ...

  6. Wiki为什么会流行

    我来开题,老段补充一下,嘿嘿... Wiki的优点: 版本管理和版本比较 多作者,多编辑的协作 简洁 Wiki的缺点(或者第一次用不是很习惯的地方): 非所见即所得 需要学习一下简单的语法 文章的分类 ...

  7. OpenStack入门修炼之实战--实现阿里云ESC多FLAT网络(21)

    1.给两台虚拟机增加网卡,使用仅主机模式,网段为:192.168.57.0/24 2.修改两台主机网卡配置 [root@linux-node1 ~]# cp /etc/sysconfig/networ ...

  8. PingCode Wiki ——国内最顶级的产研团队知识库产品介绍

    PingCode Wiki 在发布之初,就是希望打造成一个 面向产研组织的知识管理系统.通过结构化沉淀高价值信息,形成组织完整的知识体系.通过便捷地分享和传播,轻松提升知识的流转效率,更好地成就组织和 ...

  9. PingCode Wiki 多人实时协同编辑功能发布

    PingCode Wiki 在发布之初,就是希望打造成一个面向组织的知识管理系统. 通过结构化沉淀高价值信息,形成组织完整的知识体系.通过便捷地分享和传播,轻松提升知识的流转效率,更好地成就组织和个人 ...

最新文章

  1. 趣谈HTTP协议中的那些MIME header
  2. docker 错误 request canceled while waiting for connection 或 TLS handshake timeout 解决方案
  3. Android使用ActivityGroup设置android:windowSoftInputMode失效的问题
  4. Leetcode114二叉树转链表-树中修改
  5. 【linux草鞋应用编程系列】_3_ 进程间通信
  6. 本地突破XP系统权限
  7. python len函数_知识清单Python必备的69个函数,你掌握了吗?
  8. oracle数据库操作文档,oracle数据库操作
  9. Lack of free swap space on zabbix,增加swap空间
  10. UOJ #206. 【APIO2016】Gap
  11. 百度的搜索好厉害,刚刚发文就能搜索到
  12. 2008 r2安装总是跳出 server sql_Microsoft SQL Server 2008 R2 安装遇到的问题
  13. windows7 x64x86专业纯净版(usb3.0_nvme)2019.12.17
  14. MAGENTO for XAMPP install config -搬家配置与安装配置
  15. Mongodb 按照时间进行分组统计查询
  16. RK3568替换开机logo界面
  17. 羊毛出在狗身上让猪来买单 - 智能音箱背后的平台经济...
  18. 关于软件研发生产力的误区与思考
  19. 每日一题 笨拙的手指
  20. 三个月能学到多少网络安全知识?

热门文章

  1. html在下拉框加入滑轮,css自定义 range radio select的样式滑轮,按钮,选择框
  2. TVS参数、选型、使用注意事项
  3. 微软杀毒软件Microsoft Security Essentials试用
  4. 微软模拟飞行2020服务器连不上打不开,X-Plane 10 Flight Simulator无法连接服务器如何解决...
  5. 【Python、C++、R 三合一效果好】Julia 重磅发布,全球热度上升最快
  6. Linux基础(day54)
  7. 计算机教师使用计划书,教师个人计算机学习计划书
  8. linux进程VSZ(Virtual Memory Size 虚拟内存)RSS(Resident Set Size 驻留集大小,实际占用的物理内存)PSS、USS、ANON、RESVIRTDirty
  9. 秦始皇陵上榜世界十大绝密胜境
  10. IOS端一款超多书源的看书神器,不怕你找不到书!