Wiki is flat
维基百科数据 - Charts - 汉语
Originally uploaded by Che Dong.
最近很热门的一本书:
其中很一章提到了搜索引擎:你和任何一个网站之间的距离缩短到一个(组)关键词。感受最深的是:在互联网中wiki/blog无疑是最平坦的两块自留地。从blog/wiki的设计中也可以看到CMS设计面向搜索引擎抓取优化的2个要点:
1 蜘蛛遍历的速度:帮助搜索引擎快速遍历整个网站,而又不在个别页面中集中太多的链接。
2 内容的稳定性:承诺一个稳定的内容映射,不会在搜索过来使实际内容已经面目全非;
简单比较一下传统的BBS和Blog Wiki之间的发布模式:
论坛:滚动的索引/列表页,当论坛内容很多的时候,当论坛中的内容较多以后,遍历完一个论坛往往需要蜘蛛从入口抓取5层以上。
- web - ?Forum=1 - ?post=1|- ?post=2|- ?post=5- ?Forum=2 - ?post=4|- ?post=22|- ?post=8
Blog的发布模式的优点:主题的permalink + 按时间归档 + 按分类归档 BLOG: Better Listing On Google
- index - post10.html|- post9.html|- monthly_archive - post8.html|- post7.html|- category_archive - post8.html|- post2.html
由于个人内容发布量较少,在百级或者千级,蜘蛛经过3层遍历基本上能够遍历完整个网站。而blog之间的相互引用非常丰富。邮件列表归档和blog的发布结构非常像:邮件列表归档也有按时间归档的机制,并且使用permalink,
WIKI完全扁平的发布格式,内容之间链接/引用丰富。
|- topic1 -> topic2-> topic3 |- topic2 -> topic3 |- topic3 -> topic2-> topic1
在很多发布系统提供了RSS/XML接口以后: 达到同样的同步速度,RSS帮助蜘蛛节省了数倍刷新首页/归档索引页的过程。
rss.xml - post10.html|- post9.html|- post8.html
什么是Tag:
和原有的固定分类相比,tag可以提供一个更灵活的“多对多”类聚方法,在自动分类实现难度很高的情况下,让作者/编辑在发布内容的时候附上几个关键词,可以帮助内容之间实现更丰富的引用。关键词越多,类聚就越精确。很多blogger之间还使用一些特殊制造出来的关键词,利用technorati这样的blog引擎实现在更大空间内的聚合。 什么是PermaLink:
PermaLink给搜索引擎和其他应用一个承诺:在未来很长一段时间内,这个链接和其对应的内容是稳定的。搜索引擎也不喜欢带有复杂参数的动态链接,因为 foo.php?a=1&b=2和foo.php?b=2&a=1 可能是一个页面。搜索引擎更希望索引 foo/a/b 这样的稳定内容链接。而且尽可能直接将用户导向到他需要的内容页,而不是内容经常变换的首页/索引页。
数字截至2005年底:原始数据
WikiPedia上编辑超过10篇的用户共2118人。目前WikiPedia上中文条目共5万多,每条长度平均在2.6k,其中长度在2k以上条目占11%。
内部链接是1M个,链接到其他语言的条目的个数是37万个,链接到外面网站的个数是46k个。
内部的链接密度:
平均每个条目和其他条目之间的链接个数
100万/5万=20个。
由于内部内容之间良好的引用和链接设计,搜索引擎的蜘蛛能在4层之内遍历到的网站的内容:20^4 = 16万
而后台的统计上可以看到:各个引擎的抓取都非常频繁和深入
搜索引擎网站的机器人 (前 10) - 全部列出 - 最近参观日期
Googlebot 89303+15 296.35 M字节 2006年 三月 04日 23:54
BaiDuSpider 51499+3 1.10 G字节 2006年 三月 04日 16:24
Yahoo Slurp 13122+705 97.86 M字节 2006年 三月 04日 23:59
MSNBot 12434+85 244.40 M字节 2006年 三月 04日 23:57
中文网的每天PV为15万,独立用户1.5万左右。外部来源几乎完全来自搜索引擎,而包含英文网站在内的wikipedia.org已经成为全球第22位的 http://www.alexa.com/data/details/traffic_details?q=&url=wikipedia.org
从日志统计来看:
http://blog.cnblog.org/cgi-bin/awstats/awstats.pl?config=wikipedia
wikipedia被搜索引擎搜索到的有千个关键词,每天的访问量在10万PV/1万人次左右。
用以搜索的短语 (前 10)
13747 个不同的关键字句 搜索 百分比
繁体字 2121 5.8 %
少年阿宾 1242 3.4 %
色情电影 1076 2.9 %
维基百科 483 1.3 %
维基 259 0.7 %
阴毛 187 0.5 %
海伦.凯勒 162 0.4 %
海伦 凯勒 156 0.4 %
美少女战士 152 0.4 %
奇幻小说 139 0.3 %
其他短语 30041 83.4 %
关键词的分布较广泛:top 10关键词流量占总体来源关键词不到20%。 作者:车东 发表于:2006-03-05 22:03 最后更新于:2007-11-09 10:11
版权声明:可以转载,转载时请务必以超链接形式标明文章 Wiki is flat 的原始出处和作者信息及本版权声明。
http://www.chedong.com/blog/archives/001129.html
« debian上使用rc.local | (回到Blog入口)|(回到首页) | 基于群体分析发现网站的相关性 » [再编辑]
Wiki is flat相关推荐
- 快速访问github镜像 wiki镜像重点_github问题小结
20220331 https://mp.weixin.qq.com/s/7ZFcD9BMB5WQnDAqZUgELg 高效的搜索github 20210821 https://zgc261.com/w ...
- 使用 mkdocs 搭建个人 wiki 站点
原文: https://rebootcat.com/2020/09/20/wiki/ why wiki 博客通常是用来记录一些完整的文章,每篇文章有一个主题.但是我想把平日里的一些笔记也记录到我的博客 ...
- WebBrowserProgramming - Python Wiki
WebBrowserProgramming - Python Wiki Web Browser Programming in Python
- 如何使用Next.js创建动态的Rick and Morty Wiki Web App
Building web apps with dynamic APIs and server side rendering are a way to give people a great exper ...
- WIKI与BLOG殊途同归(转)
现在很多朋友都拥有了自己的BLOG网页,尽管他们可能并不打算走木子美那种写私人日记的路子,但彰显个性.张扬自我的目的,大都类似.其实在这个时候,中国的许多技术迷们已经把目光投向了WIKI. 历经了网络 ...
- Wiki为什么会流行
我来开题,老段补充一下,嘿嘿... Wiki的优点: 版本管理和版本比较 多作者,多编辑的协作 简洁 Wiki的缺点(或者第一次用不是很习惯的地方): 非所见即所得 需要学习一下简单的语法 文章的分类 ...
- OpenStack入门修炼之实战--实现阿里云ESC多FLAT网络(21)
1.给两台虚拟机增加网卡,使用仅主机模式,网段为:192.168.57.0/24 2.修改两台主机网卡配置 [root@linux-node1 ~]# cp /etc/sysconfig/networ ...
- PingCode Wiki ——国内最顶级的产研团队知识库产品介绍
PingCode Wiki 在发布之初,就是希望打造成一个 面向产研组织的知识管理系统.通过结构化沉淀高价值信息,形成组织完整的知识体系.通过便捷地分享和传播,轻松提升知识的流转效率,更好地成就组织和 ...
- PingCode Wiki 多人实时协同编辑功能发布
PingCode Wiki 在发布之初,就是希望打造成一个面向组织的知识管理系统. 通过结构化沉淀高价值信息,形成组织完整的知识体系.通过便捷地分享和传播,轻松提升知识的流转效率,更好地成就组织和个人 ...
最新文章
- 趣谈HTTP协议中的那些MIME header
- docker 错误 request canceled while waiting for connection 或 TLS handshake timeout 解决方案
- Android使用ActivityGroup设置android:windowSoftInputMode失效的问题
- Leetcode114二叉树转链表-树中修改
- 【linux草鞋应用编程系列】_3_ 进程间通信
- 本地突破XP系统权限
- python len函数_知识清单Python必备的69个函数,你掌握了吗?
- oracle数据库操作文档,oracle数据库操作
- Lack of free swap space on zabbix,增加swap空间
- UOJ #206. 【APIO2016】Gap
- 百度的搜索好厉害,刚刚发文就能搜索到
- 2008 r2安装总是跳出 server sql_Microsoft SQL Server 2008 R2 安装遇到的问题
- windows7 x64x86专业纯净版(usb3.0_nvme)2019.12.17
- MAGENTO for XAMPP install config -搬家配置与安装配置
- Mongodb 按照时间进行分组统计查询
- RK3568替换开机logo界面
- 羊毛出在狗身上让猪来买单 - 智能音箱背后的平台经济...
- 关于软件研发生产力的误区与思考
- 每日一题 笨拙的手指
- 三个月能学到多少网络安全知识?
热门文章
- html在下拉框加入滑轮,css自定义 range radio select的样式滑轮,按钮,选择框
- TVS参数、选型、使用注意事项
- 微软杀毒软件Microsoft Security Essentials试用
- 微软模拟飞行2020服务器连不上打不开,X-Plane 10 Flight Simulator无法连接服务器如何解决...
- 【Python、C++、R 三合一效果好】Julia 重磅发布,全球热度上升最快
- Linux基础(day54)
- 计算机教师使用计划书,教师个人计算机学习计划书
- linux进程VSZ(Virtual Memory Size 虚拟内存)RSS(Resident Set Size 驻留集大小,实际占用的物理内存)PSS、USS、ANON、RESVIRTDirty
- 秦始皇陵上榜世界十大绝密胜境
- IOS端一款超多书源的看书神器,不怕你找不到书!