屏蔽搜索引擎蜘蛛的代码
有些时候我们会遇到这样的困难:我们原本不想被搜索引擎收录的网站\地址却被搜索引擎“无情”的收录,遇到这样的情况时,我们如何阻止搜索引擎收录我们不想被收录的文件呢?
我们常用的办法有两个,一个是编辑robots.txt文件,另外一个是在不想被收录的页面头部放置META NAME="ROBOTS"标签。
所谓的robots.txt文件,是每一个搜索引擎到你的网站之后要寻找和访问的第一个文件,robots.txt是你对搜索引擎制定的一个如何索引你的网站的规则。通过这个文件,搜索引擎就可以知道在你的网站中,哪些文件是可以被索引的,哪些文件是被拒绝索引的。
编辑rebots.txt文件就不说了。聊聊页面头部添加meta的方式
SEO优化meta标签 name="robots" content="index,follow,noodp,noydir",我们这就来解释一下。
<meta name="ROBOTS" content="NOODP">
这些元标记控制搜索引擎如何抓取和索引页。 "robots"元标记指定的规则适用于所有搜索引擎。Google可以理解以下值(当指定多个值时,用逗号将它们分开):
- noindex: 防止网页被索引
- nofollow: 不要通过当前页的链接来寻找并抓取新的网页
- nosnippet: 在搜索结果中显示当前页时,不要显示页面摘要
- noodp: 在为本页产生标题或页面摘要时,不要使用开放式目录项目(又名dmoz.org)中的文本
- noarchive: 在显示本网页于搜索结果中时,不要显示一个"网页快照"链接
- unavailable_after:[日期]:在指定的日期和时间后从搜索结果中删除这个网页
当你完全省略此标记或当你指定content= "all"时,默认规则是"index, follow"。"作为一个说明,你现在也可以在你的页面首部通过"X-Robots-标签"HTTP头指令来指定这一信息。这特别有用,尤其是当你想微调抓取和索引诸如PDF、图片或其他类型的非HTML文件时。
屏蔽搜索引擎蜘蛛的代码相关推荐
- 帝国织梦和各种php网页将局部广告进行屏蔽搜索引擎蜘蛛
帝国织梦和各种php网页 将局部广告进行屏蔽搜索引擎蜘蛛 搜索引擎收录的信息是以快照为准.百度站长工具里有一个抓取诊断功能,在使用后可以用它来测试 是否正常被屏蔽 网站SEO为什么要屏蔽广告? 广告有 ...
- 屏蔽垃圾蜘蛛php代码,伪静态屏蔽垃圾蜘蛛的方法
所以这里还是建议屏蔽一些垃圾蜘蛛! 目前宝塔的防火墙UA能有效的屏蔽部分蜘蛛,但是有一些蜘蛛对这个是无效的,所以这里用修改伪静态方式有效闭屏蜘蛛,代码如下! SetEnvIfNoCase ^User- ...
- html元素不让蜘蛛抓取,屏蔽网站后台禁止搜索引擎蜘蛛抓取的方法
搜索引擎爬取网页内容的工具我们都称之为搜索引擎蜘蛛,如果希望屏蔽蜘蛛抓取某个页面到搜索引擎服务器中,可以通过robots.txt文件来限制蜘蛛抓取.很多朋友希望屏蔽网站后台禁止搜索引擎蜘蛛抓取,又不希 ...
- 搜索引擎蜘蛛的基本原理及工作流程
搜索引擎用来爬行和访问页面的程序被称为蜘蛛(spider),也叫机器人(bot).搜索引擎蜘蛛访问网站页面时类似于普通用户使用浏览器,蜘蛛程序发出页面访问请求后,服务器返回HTML代码,蜘蛛程序把收到 ...
- [方法篇](禁止YisouSpider|EasouSpider|EtaoSpider)搜索引擎蜘蛛给网站带来的危害,有效指引爬虫对应的措施...
搜索引擎蜘蛛给网站带来的危害,有效指引爬虫对应的措施[方法篇](禁止YisouSpider|EasouSpider|EtaoSpider) 上一遍文章<搜索引擎蜘蛛给网站带来的危害,有效指引爬虫 ...
- 最积极的搜索引擎蜘蛛有哪些可以屏蔽掉
最积极的搜索引擎蜘蛛有哪些可以屏蔽掉 大家都知道搜索引擎蜘蛛的数量越多越好,爬的页面也越多越好,不爬就不会在收录存在了.那么,最积极的搜索引擎蜘蛛有哪些呢?垃圾蜘蛛真的是爬遍全网,步极网提醒赶快屏蔽掉 ...
- WordPress纯PHP代码实现记录搜索引擎蜘蛛爬行记录
在新站或网站收录有问题时,可能需要持续关注搜索引擎蜘蛛的抓取情况.每次打开服务器端访问日志查看非常麻烦,特别是当日志文件比较大时更是不便.最好的办法就是在线直接打开看蜘蛛爬行记录.为此,我们可以免插件 ...
- PHP判断来访是搜索引擎蜘蛛还是普通用户的代码小结
1.推荐的一种方法:php判断搜索引擎蜘蛛爬虫还是人为访问代码,摘自Discuz x3.2 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 ...
- php 判断爬虫程序,php判断搜索引擎蜘蛛爬虫还是人为访问代码
php判断搜索引擎蜘蛛爬虫还是人为访问代码. function checkrobot($useragent=''){ static $kw_spiders = array('bot', 'crawl' ...
最新文章
- 一文讲透推荐系统提供web服务的2种方式
- Monkey原理初步和改良优化--Android自动化测试学习历程
- Python的一些技巧
- docker:Error running DeviceCreate (createSnapDevice) dm_task_run failed
- VMware install MikroTik RouterOS
- 微信小程序开发之路(三)
- JS 异步发展流程(回调函数=Async/await)
- MySQL列类型之——数值类型
- 网络存储空间_Filecoin网络经济模型剖析
- Atitit各种SDM 软件SDP sdm的ddd tdd bdd设计
- Centos6.5下搭建nagios详解
- 有道词典翻译功能数字有时无法翻译出来解决方案
- 战地1服务器怎么显示fps,战地1怎么显示FPS帧数-战地1显示FPS帧数方法介绍
- 生物信息分析服务器平台,高通量数据生物信息分析平台
- javascript中的Strict模式
- 植物纳米探测器简介 | 综述(Nanobiotechnology approaches for engineering smart plant sensors)
- mysql数据库启动_MySQL数据库之Mysql启动的方式(四种)
- LeetCode 6009. 使两字符串互为字母异位词的最少步骤数
- 15数字华容道解法 图解_数字华容道最后一行技巧 数字华容道教学步骤
- matlab中频域信号IFFT,MATLAB中ifft函数用法、性质、特性-以及与fft的组合应用全面深入解析(含程序)...