防止引擎爬虫记录(君子协定)
- 前言
- 一、robots.txt是什么?
- 二、使用步骤
- 1.引擎对应名称
- 2.配置内容
- 3.配置方法
- nginx配置
- 网页配置
- 三、校验生效
- 1、校验方式
- 2、懒狗生成robot.txt文件方式
前言
整体上为什么需要防止抓录呢?总会存在虽然是测试阶段,但是仍需要直接配置外网访问的情况,这时候一旦配置了外网地址,就容易被收录,一旦收录了就会直接暴露到搜索引擎上,这是不符合流程要求的,那怎么办呢?当然是robots.txt 来个君子协定解决。
一、robots.txt是什么?
属于一个给爬虫看的希望清单,希望爬虫不要怎么去做(实际上如果别人无视,你也是没得办法,但是正常搜索引擎是有底线的,也是大多数人最常用的搜索方式)
整体结构如下
整体上存在下列属性:
User-agent:代理引擎的名称
Disallow:不希望被访问的url 或 路径
Allow:可以被访问的url 或 路径
# 示例为拒绝所有爬虫的愿望清单配置
User-Agent: * //所有代理引擎
Disallow: / //根目录下的任意不要收录# 多目录配置
User-Agent: Baiduspider //百度代理引擎
Disallow: /secret
Disallow: /mylove# 多个配置
User-Agent: Baiduspider //百度代理引擎
Disallow: /User-Agent: Googlebot //谷歌代理引擎
Allow: /
二、使用步骤
1.引擎对应名称
基本常用的引擎爬虫如下
引擎名称 | 引擎代码 |
---|---|
百度 | Baiduspider |
有道 | YodaoBot |
腾讯SOSO | Sosospider |
搜狗 | sogou spider |
谷歌 | Googlebot |
必应 | Bingbot |
雅虎 | Slurp |
代码如下(示例):
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')
import ssl
ssl._create_default_https_context = ssl._create_unverified_context
2.配置内容
通常是Deny All,针对需要的Allow即可的方式配置
允许的地址归置上方,Deny All放置下方,与nginx配置一致
User-agent: Baiduspider
Allow: /application/ User-Agent: * //所有代理引擎
Disallow: / //根目录下的任意不要收录
3.配置方法
总体配置是基于域名下能访问到
robots.txt
例如知乎专栏: https://zhuanlan.zhihu.com/robots.txt.
我们也可以参照各大网站的配置去配置
nginx配置
# 懒狗防爬虫方法location =/robots.txt {default_type text/html;add_header Content-Type "text/plain; charset=UTF-8";return 200 "User-Agent: *\nDisallow: /";}
#通常方法
# 存放地址 /var/www/html/robots.txtlocation =/robots.txt {robot /var/www/html/robots.txt;}
网页配置
指令名称 | 指令说明 |
---|---|
noindex
|
不在搜索结果中显示该网页。否则该网页可能会编入索引并显示在搜索结果中。 |
nofollow
|
不追踪该网页上的链接。否则使用该网页上的链接来发现链接到的网页 |
noarchive
|
不在搜索结果中显示缓存链接,否则可通过搜索结果缓存访问 |
nosnippet
|
不在搜索结果中显示该网页的文本摘要或视频预览 |
<meta name="robots" content="noindex,nofollow,nosnippet" />
三、校验生效
若没有被搜索引擎搜录的话通常生效时间需要12小时即可,若已经被收录通常需要48小时左右才能生效
1、校验方式
通过百度的资源平台校验:https://ziyuan.baidu.com/robots/index
通过google的资源平台校验:https://www.google.com/webmasters/tools/robots-testing-tool
2、懒狗生成robot.txt文件方式
站长工具:http://tool.chinaz.com/robots/
防止引擎爬虫记录(君子协定)相关推荐
- 网络爬虫记录《企业工商注册信息》第一篇目标抓取平台
为什么80%的码农都做不了架构师?>>> 网络爬虫记录<企业工商注册信息> 国家企业信用信息公示系统(http://www.gsxt.gov.cn)是企业信息公示系 ...
- BeanShell 跟jdk js引擎使用记录
2019独角兽企业重金招聘Python工程师标准>>> 今天看到http://www.oschina.net/question/1024977_112313 这个帖子,原来自己是使用 ...
- 第一次scrapy爬虫记录
一.说明 最近心血来潮想学一下爬虫,简单看了些速成视频,用scrapy从一些结构简单的网站上爬了一些数据下来,这里记录一下步骤. 下图是把人家的ip扒下来了. 二.环境准备(下载pycharm,创建s ...
- python爬虫记录时间_Python新手写爬虫全过程记录分析
目标网站:http://bohaishibei.com/post/category/main/(一个很有趣的网站,一段话配一个图,老有意思了-)网站形式如下: 目标:把大的目标分为几个小的目标.因为第 ...
- Google Filament引擎编译记录
我之前写过两篇Filament编译文档,就在我的网站上,可以到如下地址找到: 捉不住的鼬鼠的训练场 - 文档 现在又在做安卓有关开发和编译的问题,尤其是涉及到C++原生代码编译so文件,然后安卓端引入 ...
- Python3.6爬虫记录
Python2和Python3的区别 这里有个网站可以参考,下面都是实战小Demo 在Python3中包urllib2归入了urllib中,所以要导入urllib.request,并且要把urllib ...
- 记 | 程序员客栈-爬虫记录(查重增量导出)
写在前面: 上一篇<爬虫Scrapy框架初体验>初步介绍了Scrapy有关的理论知识和基本常用的命令,可以简单的爬取网页上大部分的内容.建议没看过的朋友们可以先点进去看一下哈学习了解一下. ...
- python 爬虫 记录
python3 爬虫需要安装:requests,beautifulsoup4,html5lib 带有中文的需要这样写,要不然就会出现乱码 html = response.content.decode( ...
- apache服务器查看网络爬虫记录的方法说明
问 :使用Apache服务器,如何查看哪些网站的蜘蛛来爬过自己的网站或者哪些IP访问过我们的网站呢? 答 :通过Apache服务器的访问日志记录! Apache服务器的访问日志名 ...
最新文章
- java 只运行一次吗_java程序循环只执行一次的问题
- LeetCode 1102. 得分最高的路径(优先队列BFS/极大极小化 二分查找)
- 轻松矿工抽水多少_欧冠 皇马vs顿涅茨克矿工 矿工主力缺席 皇马主场霸气狂飙...
- IDEA中创建maven web的详细部署
- 线束测试仪新应用:针对于高铁级电动“新巴客”的线束测试
- 均匀白噪声的定义及特点_白噪声深度分析
- 30行python代码实现豆瓣电影排行爬取
- 计算机c盘怎样重命名,怎么对C盘一子文件夹重命名
- gmail邮件分组_如何使用Gmail和G Suite设置专业电子邮件地址
- 沉降观测原始数据编译
- Unity C# compiler: CS0121: The call is ambiguous between the following methods or properties
- optaplanner学习笔记(十)约束配置:动态调整约束权重
- java HashMap集合的使用
- 解决video更多选项按钮点击无反应以及操控video标签的控制按钮
- 文字前带小点点的样式代码
- 2019.02.24
- Linux开机自启的三种方式
- 一个很好用的maven settings.xml 配置文件镜像
- android打电话,接电话,挂电话过程
- ArcGIS API for javascript开发笔记 —— 地图打印
热门文章
- android studio官网
- 生物信息学|新颖的深度学习模型,更准确地预测药物-药物相互作用
- 计算机信息技术管理试题及答案,计算机软考信息技术处理员模拟试题及答案(3)[4]...
- 半年时间,拍摄8省市10个案例,我们见到了这样的智能中国
- RK3399平台开发系列讲解(内核调试篇)2.50、嵌入式产品启动速度优化
- weblogic测试环境安装部署--傻瓜式安装教程
- 中间件weblogic部署详情
- 美颜sdk是什么?美颜技术详解
- BOM123编辑器(123BOM编辑器)是硬件工程师整理BOM的好帮手,3分钟完成一份BOM集成整理,很适合自己创业的工程师
- AS7341光谱传感器测量色温color_temperature_学习笔记