前言
一、robots.txt是什么？
二、使用步骤
- 1.引擎对应名称
- 2.配置内容
- 3.配置方法
- - nginx配置
  - 网页配置
三、校验生效
- 1、校验方式
- 2、懒狗生成robot.txt文件方式

前言

整体上为什么需要防止抓录呢？总会存在虽然是测试阶段，但是仍需要直接配置外网访问的情况，这时候一旦配置了外网地址，就容易被收录，一旦收录了就会直接暴露到搜索引擎上，这是不符合流程要求的，那怎么办呢？当然是robots.txt 来个君子协定解决。

一、robots.txt是什么？

属于一个给爬虫看的希望清单，希望爬虫不要怎么去做（实际上如果别人无视，你也是没得办法，但是正常搜索引擎是有底线的，也是大多数人最常用的搜索方式）

整体结构如下

整体上存在下列属性：
User-agent：代理引擎的名称
Disallow：不希望被访问的url 或路径
Allow：可以被访问的url 或路径

# 示例为拒绝所有爬虫的愿望清单配置
User-Agent: *  //所有代理引擎
Disallow: /    //根目录下的任意不要收录# 多目录配置
User-Agent: Baiduspider  //百度代理引擎
Disallow: /secret
Disallow: /mylove# 多个配置
User-Agent: Baiduspider  //百度代理引擎
Disallow: /User-Agent: Googlebot //谷歌代理引擎
Allow: /

二、使用步骤

1.引擎对应名称

基本常用的引擎爬虫如下

引擎名称	引擎代码
百度	Baiduspider
有道	YodaoBot
腾讯SOSO	Sosospider
搜狗	sogou spider
谷歌	Googlebot
必应	Bingbot
雅虎	Slurp

代码如下（示例）：

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')
import  ssl
ssl._create_default_https_context = ssl._create_unverified_context

2.配置内容

通常是Deny All,针对需要的Allow即可的方式配置
允许的地址归置上方，Deny All放置下方，与nginx配置一致

User-agent: Baiduspider
Allow: /application/  User-Agent: *  //所有代理引擎
Disallow: /    //根目录下的任意不要收录

3.配置方法

总体配置是基于域名下能访问到robots.txt
例如知乎专栏： https://zhuanlan.zhihu.com/robots.txt.
我们也可以参照各大网站的配置去配置

nginx配置

# 懒狗防爬虫方法location =/robots.txt {default_type text/html;add_header Content-Type "text/plain; charset=UTF-8";return 200 "User-Agent: *\nDisallow: /";}
#通常方法
# 存放地址 /var/www/html/robots.txtlocation =/robots.txt {robot /var/www/html/robots.txt;}

网页配置

指令名称	指令说明
`noindex`	不在搜索结果中显示该网页。否则该网页可能会编入索引并显示在搜索结果中。
`nofollow`	不追踪该网页上的链接。否则使用该网页上的链接来发现链接到的网页
`noarchive`	不在搜索结果中显示缓存链接，否则可通过搜索结果缓存访问
`nosnippet`	不在搜索结果中显示该网页的文本摘要或视频预览

<meta name="robots" content="noindex,nofollow,nosnippet" />

三、校验生效

若没有被搜索引擎搜录的话通常生效时间需要12小时即可，若已经被收录通常需要48小时左右才能生效

1、校验方式

通过百度的资源平台校验：https://ziyuan.baidu.com/robots/index

通过google的资源平台校验：https://www.google.com/webmasters/tools/robots-testing-tool

2、懒狗生成robot.txt文件方式

站长工具:http://tool.chinaz.com/robots/

防止引擎爬虫记录（君子协定）相关推荐

网络爬虫记录《企业工商注册信息》第一篇目标抓取平台
为什么80%的码农都做不了架构师?>>> 网络爬虫记录<企业工商注册信息> 国家企业信用信息公示系统(http://www.gsxt.gov.cn)是企业信息公示系 ...
BeanShell 跟jdk js引擎使用记录
2019独角兽企业重金招聘Python工程师标准>>> 今天看到http://www.oschina.net/question/1024977_112313 这个帖子,原来自己是使用 ...
第一次scrapy爬虫记录
一.说明最近心血来潮想学一下爬虫,简单看了些速成视频,用scrapy从一些结构简单的网站上爬了一些数据下来,这里记录一下步骤. 下图是把人家的ip扒下来了. 二.环境准备(下载pycharm,创建s ...
python爬虫记录时间_Python新手写爬虫全过程记录分析
目标网站:http://bohaishibei.com/post/category/main/(一个很有趣的网站,一段话配一个图,老有意思了-)网站形式如下: 目标:把大的目标分为几个小的目标.因为第 ...
Google Filament引擎编译记录
我之前写过两篇Filament编译文档,就在我的网站上,可以到如下地址找到: 捉不住的鼬鼠的训练场 - 文档现在又在做安卓有关开发和编译的问题,尤其是涉及到C++原生代码编译so文件,然后安卓端引入 ...
Python3.6爬虫记录
Python2和Python3的区别这里有个网站可以参考,下面都是实战小Demo 在Python3中包urllib2归入了urllib中,所以要导入urllib.request,并且要把urllib ...
记 | 程序员客栈-爬虫记录（查重增量导出）
写在前面: 上一篇<爬虫Scrapy框架初体验>初步介绍了Scrapy有关的理论知识和基本常用的命令,可以简单的爬取网页上大部分的内容.建议没看过的朋友们可以先点进去看一下哈学习了解一下. ...
python 爬虫记录
python3 爬虫需要安装:requests,beautifulsoup4,html5lib 带有中文的需要这样写,要不然就会出现乱码 html = response.content.decode( ...
apache服务器查看网络爬虫记录的方法说明
问 :使用Apache服务器,如何查看哪些网站的蜘蛛来爬过自己的网站或者哪些IP访问过我们的网站呢? 答 :通过Apache服务器的访问日志记录! Apache服务器的访问日志名 ...

防止引擎爬虫记录（君子协定）

前言