• 前言
  • 一、robots.txt是什么?
  • 二、使用步骤
    • 1.引擎对应名称
    • 2.配置内容
    • 3.配置方法
      • nginx配置
      • 网页配置
  • 三、校验生效
    • 1、校验方式
    • 2、懒狗生成robot.txt文件方式

前言

整体上为什么需要防止抓录呢?总会存在虽然是测试阶段,但是仍需要直接配置外网访问的情况,这时候一旦配置了外网地址,就容易被收录,一旦收录了就会直接暴露到搜索引擎上,这是不符合流程要求的,那怎么办呢?当然是robots.txt 来个君子协定解决。

一、robots.txt是什么?

属于一个给爬虫看的希望清单,希望爬虫不要怎么去做(实际上如果别人无视,你也是没得办法,但是正常搜索引擎是有底线的,也是大多数人最常用的搜索方式)

整体结构如下

整体上存在下列属性
User-agent:代理引擎的名称
Disallow:不希望被访问的url 或 路径
Allow:可以被访问的url 或 路径

# 示例为拒绝所有爬虫的愿望清单配置
User-Agent: *  //所有代理引擎
Disallow: /    //根目录下的任意不要收录# 多目录配置
User-Agent: Baiduspider  //百度代理引擎
Disallow: /secret
Disallow: /mylove# 多个配置
User-Agent: Baiduspider  //百度代理引擎
Disallow: /User-Agent: Googlebot //谷歌代理引擎
Allow: /

二、使用步骤

1.引擎对应名称

基本常用的引擎爬虫如下

引擎名称 引擎代码
百度 Baiduspider
有道 YodaoBot
腾讯SOSO Sosospider
搜狗 sogou spider
谷歌 Googlebot
必应 Bingbot
雅虎 Slurp

代码如下(示例):

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')
import  ssl
ssl._create_default_https_context = ssl._create_unverified_context

2.配置内容

通常是Deny All,针对需要的Allow即可的方式配置
允许的地址归置上方,Deny All放置下方,与nginx配置一致

User-agent: Baiduspider
Allow: /application/  User-Agent: *  //所有代理引擎
Disallow: /    //根目录下的任意不要收录

3.配置方法

总体配置是基于域名下能访问到robots.txt
例如知乎专栏: https://zhuanlan.zhihu.com/robots.txt.
我们也可以参照各大网站的配置去配置

nginx配置

# 懒狗防爬虫方法location =/robots.txt {default_type text/html;add_header Content-Type "text/plain; charset=UTF-8";return 200 "User-Agent: *\nDisallow: /";}
#通常方法
# 存放地址 /var/www/html/robots.txtlocation =/robots.txt {robot /var/www/html/robots.txt;}

网页配置

指令名称 指令说明
noindex 不在搜索结果中显示该网页。否则该网页可能会编入索引并显示在搜索结果中。
nofollow 不追踪该网页上的链接。否则使用该网页上的链接来发现链接到的网页
noarchive 不在搜索结果中显示缓存链接,否则可通过搜索结果缓存访问
nosnippet 不在搜索结果中显示该网页的文本摘要或视频预览
<meta name="robots" content="noindex,nofollow,nosnippet" />

三、校验生效

若没有被搜索引擎搜录的话通常生效时间需要12小时即可,若已经被收录通常需要48小时左右才能生效

1、校验方式

通过百度的资源平台校验:https://ziyuan.baidu.com/robots/index

通过google的资源平台校验:https://www.google.com/webmasters/tools/robots-testing-tool

2、懒狗生成robot.txt文件方式

站长工具:http://tool.chinaz.com/robots/

防止引擎爬虫记录(君子协定)相关推荐

  1. 网络爬虫记录《企业工商注册信息》第一篇目标抓取平台

    为什么80%的码农都做不了架构师?>>>    网络爬虫记录<企业工商注册信息> 国家企业信用信息公示系统(http://www.gsxt.gov.cn)是企业信息公示系 ...

  2. BeanShell 跟jdk js引擎使用记录

    2019独角兽企业重金招聘Python工程师标准>>> 今天看到http://www.oschina.net/question/1024977_112313 这个帖子,原来自己是使用 ...

  3. 第一次scrapy爬虫记录

    一.说明 最近心血来潮想学一下爬虫,简单看了些速成视频,用scrapy从一些结构简单的网站上爬了一些数据下来,这里记录一下步骤. 下图是把人家的ip扒下来了. 二.环境准备(下载pycharm,创建s ...

  4. python爬虫记录时间_Python新手写爬虫全过程记录分析

    目标网站:http://bohaishibei.com/post/category/main/(一个很有趣的网站,一段话配一个图,老有意思了-)网站形式如下: 目标:把大的目标分为几个小的目标.因为第 ...

  5. Google Filament引擎编译记录

    我之前写过两篇Filament编译文档,就在我的网站上,可以到如下地址找到: 捉不住的鼬鼠的训练场 - 文档 现在又在做安卓有关开发和编译的问题,尤其是涉及到C++原生代码编译so文件,然后安卓端引入 ...

  6. Python3.6爬虫记录

    Python2和Python3的区别 这里有个网站可以参考,下面都是实战小Demo 在Python3中包urllib2归入了urllib中,所以要导入urllib.request,并且要把urllib ...

  7. 记 | 程序员客栈-爬虫记录(查重增量导出)

    写在前面: 上一篇<爬虫Scrapy框架初体验>初步介绍了Scrapy有关的理论知识和基本常用的命令,可以简单的爬取网页上大部分的内容.建议没看过的朋友们可以先点进去看一下哈学习了解一下. ...

  8. python 爬虫 记录

    python3 爬虫需要安装:requests,beautifulsoup4,html5lib 带有中文的需要这样写,要不然就会出现乱码 html = response.content.decode( ...

  9. apache服务器查看网络爬虫记录的方法说明

    问 :使用Apache服务器,如何查看哪些网站的蜘蛛来爬过自己的网站或者哪些IP访问过我们的网站呢? 答 :通过Apache服务器的访问日志记录!            Apache服务器的访问日志名 ...

最新文章

  1. java 只运行一次吗_java程序循环只执行一次的问题
  2. LeetCode 1102. 得分最高的路径(优先队列BFS/极大极小化 二分查找)
  3. 轻松矿工抽水多少_欧冠 皇马vs顿涅茨克矿工 矿工主力缺席 皇马主场霸气狂飙...
  4. IDEA中创建maven web的详细部署
  5. 线束测试仪新应用:针对于高铁级电动“新巴客”的线束测试
  6. 均匀白噪声的定义及特点_白噪声深度分析
  7. 30行python代码实现豆瓣电影排行爬取
  8. 计算机c盘怎样重命名,怎么对C盘一子文件夹重命名
  9. gmail邮件分组_如何使用Gmail和G Suite设置专业电子邮件地址
  10. 沉降观测原始数据编译
  11. Unity C# compiler: CS0121: The call is ambiguous between the following methods or properties
  12. optaplanner学习笔记(十)约束配置:动态调整约束权重
  13. java HashMap集合的使用
  14. 解决video更多选项按钮点击无反应以及操控video标签的控制按钮
  15. 文字前带小点点的样式代码
  16. 2019.02.24
  17. Linux开机自启的三种方式
  18. 一个很好用的maven settings.xml 配置文件镜像
  19. android打电话,接电话,挂电话过程
  20. ArcGIS API for javascript开发笔记 —— 地图打印

热门文章

  1. android studio官网
  2. 生物信息学|新颖的深度学习模型,更准确地预测药物-药物相互作用
  3. 计算机信息技术管理试题及答案,计算机软考信息技术处理员模拟试题及答案(3)[4]...
  4. 半年时间,拍摄8省市10个案例,我们见到了这样的智能中国
  5. RK3399平台开发系列讲解(内核调试篇)2.50、嵌入式产品启动速度优化
  6. weblogic测试环境安装部署--傻瓜式安装教程
  7. 中间件weblogic部署详情
  8. 美颜sdk是什么?美颜技术详解
  9. BOM123编辑器(123BOM编辑器)是硬件工程师整理BOM的好帮手,3分钟完成一份BOM集成整理,很适合自己创业的工程师
  10. AS7341光谱传感器测量色温color_temperature_学习笔记