这是一个存在多年、经常出现但又从来没有标准解决办法的问题:搜索引擎爬虫(尤其是百度)抓取JS、CSS、JSON文件,robots屏蔽依然抓取的情况。

这就引出了几个问题:

1、爬虫抓取JS、CSS是干什么的?

2、爬虫能否执行JS?

3、爬虫抓取JS对SEO有什么影响?

针对以上问题,我说下自己的看法:

第一个,爬虫抓取CSS,用于判断页面元素的重要程度,及保证快照显示的完整性;抓取JS,用于发现新链接,及判断是否存在作弊的情况

第二个, 会执行JS,但不确定所有的JS是否都会执行。像网上好多人说的“搜索引擎会直接忽略JS、iframe什么的,只抓取纯文本信息”,这从实际情况上站不住脚啊,如果搜索引擎对JS、iframe鸟都不鸟,那内些做黑帽的同学岂不爽死了(不懂为什么爽?请看前两篇关于黑帽的文章,你就懂了!)

第三个,这个不知道。某些情况下,可能会占用抓取配额,不过我经历的几个存在蜘蛛抓取JS的站,流量上并没有什么异常。

说到这,我的现在工作的站在上半年出现过这种情况,百度疯狂的抓json,robots屏蔽各种无效,然而流量上并没有下降等异常状况,本来依我的心理承受能力是根本不会在乎这种情况的┏ (゜ω゜)=☞,但是一查json的抓取比例着实让我菊花一紧,接近40%,是的,你没有看错,40%,假设百度一天抓100万页面,40万都是json这玩意。

然后发现日志中百度的抓取总量跟百度站长工具的抓取频次对不上,几次检查后发现,日志中的抓取总量 = 百度工具的抓取频次 + 日志中json的抓取总量。也就是说,对于百度给出的抓取频次数据,抓取json的部分是没有计算在内的,等于说是附赠的抓取。从这点看,应该对SEO没什么影响,不存在占用抓取配额的问题么,但看抓取比例总是非常蛋疼,还是决定解决下这个情况。

经过排查,发现有些页面包含一个功能:当页面被请求时先判断来访用户是否登录,如果登录则返回该用户历史访问的其他产品,如果未登录,则返回指定的内容。返回的内容转换成一个json文件(没错,就是百度疯狂抓的那个),然后传递到前台的js,js通过解析json文件,将解析json后的数据显示在前端界面。

用的是异步加载,从业务逻辑上看,对该页面的任何访问者,如果不执行这个js,相当于页面没加载完。

json路径是明文写在js里的,也不知道百度是把json的路径识别出来了还是执行js了,反正只要抓了包含这个功能的页面,都会顺带抓对应的json文件。

综上,预定的解决办法有两种:

第一种是直接把这个功能对应的JS删了

第二种是面对搜索引擎访问,不返回这个js。所以蜘蛛根本看不到,也就不会抓了

最后因为这个功能上线多月,但数据表现一直不好,点击率低,直接把这个功能砍了.......然后转天在看日志,json抓取量为0......

来源:本文由思享SEO博客原创撰写,欢迎分享本文,转载请保留出处和链接!

分享:

html中隐藏内容蜘蛛会抓取吗,蜘蛛会抓取识别JS、CSS、JSON,对SEO有什么影响相关推荐

  1. CSS中隐藏内容的3种方法及属性值

    在制作网页时,隐藏内容也是一种比较常用的手法,它的作用一般有:隐藏文本/图片.隐藏链接.隐藏超出范围的内容.隐藏弹出层.隐藏滚动条.清除错位和浮动等等. 使用CSS即可使以上提到的内容隐藏起来,几种隐 ...

  2. python中爬取a标签中的内容_python3用BeautifulSoup用字典的方法抓取a标签内的数据...

    #-*- coding:utf-8 -*-#python 2.7#XiaoDeng#http://tieba.baidu.com/p/2460150866#标签操作 from bs4 importBe ...

  3. [Python爬虫] 四、数据抓取之HTTP/HTTPS抓包工具Fiddler

    往期内容提要: [Python爬虫] 一.爬虫原理之HTTP和HTTPS的请求与响应 [Python爬虫] 二.爬虫原理之定义.分类.流程与编码格式 [Python爬虫] 三.数据抓取之Request ...

  4. android中的so加固,so加固-加密特定section中的内容

    Android逆向之旅-基于对so中的section加密技术实现so加固 这篇文章写得真心好,建议先阅读一下原著,这里只是自己的实践过程(纸上得来终觉浅,绝知此事要躬行),和一些更细节的解释罢了. 一 ...

  5. php抓取标签内的内容,php抓取网页中的内容

    以下就是几种常用的用php抓取网页中的内容的方法. 1.file_get_contents PHP代码 代码如下:>>>>>>>>>>> ...

  6. 百度搜索关键字抓取_百度搜索引擎收录的抓取规则 - 蜘蛛池

    最蜘蛛池,快速提高网站收录,百度蜘蛛池.搜狗蜘蛛池.360蜘蛛池.神马蜘蛛池.繁殖池.权重池,欢迎使用. 浅谈搜索引擎收录的抓取规则?谈到SEO优化我们就必须不得不谈网站的收录问题,没有收录的站是不可 ...

  7. python爬取百度贴吧中的所有邮箱_使用 Python 编写多线程爬虫抓取百度贴吧邮箱与手机号...

    原标题:使用 Python 编写多线程爬虫抓取百度贴吧邮箱与手机号 不知道大家过年都是怎么过的,反正栏主是在家睡了一天,醒来的时候登QQ发现有人找我要一份贴吧爬虫的源代码,想起之前练手的时候写过一个抓 ...

  8. 如何使cmd的输入和输出重定向到管道中(用这种方法可以将指令写入cmd并抓取输出)

    / //                                                                                      // //      ...

  9. 表格table中的td标签中的内容太多,影响整体外观,不美观。将一部分内容隐藏起来,用省略号代替

    表格table中的td标签中的内容太多,影响整体外观,不美观.将一部分内容隐藏起来,用省略号代替. 招式:1.在table标签中加上style="table-layout: fixed;&q ...

最新文章

  1. 微信小程序签名(横屏+竖屏)
  2. 计算机网络技术实训应用层,计算机网络技术
  3. 写程序时,经常要重载OnPaint,定位很麻烦,现在有个简单办法
  4. 密码学基础知识(九)密钥管理
  5. 2021Java就业笔试题总结
  6. flutter ios打包_Flutter通过BasicMessageChannel与Android iOS 的双向通信
  7. 不忘初心,砥砺前行;只争朝夕,不负韶华——国家开放大学2018年度首届优秀青年教师总结报告
  8. svn合并不同树_SVN分支与合并【超详细的图文教程】(转载)
  9. C语言-求阶乘的两种方法
  10. 故障树分析 - 事件概率模型
  11. python 双重差分模型_计量经济学导论13:虚拟变量与双重差分
  12. 英语计算机自我介绍范文面试,计算机面试英文自我介绍范例
  13. 论文总结-交通预测(未完成)
  14. 什么是AT指令,AT指令是什么
  15. Android 检测手机的敲击事件
  16. Ubuntu硬盘分区/格式化/挂载文件系统各种应用(转载)
  17. 2019年20个最佳产品信息管理(PIM)软件(一)
  18. 存储技术现在的困境以及未来的发展
  19. Mac安装JDK详解
  20. A CHAIN OF SHORT STORIES ABOUT THEIR DISTANCE(秒速五厘米)

热门文章

  1. 有关php链接MySql数据库的总结
  2. Struts2的输入验证(三)-短路验证与非字段验证
  3. C中指针和数组引发的探索二
  4. 标题在优化排名的写法
  5. 11-JSP开发模型
  6. linux运维故障报告,iis7报为应用程序池“xx”提供服务的进程在启动过程中尝试读取配置时报告故障(503错误)处理方法...
  7. 为什么这么多python广告_为什么铺天盖地都是Python的广告?
  8. socket python udp_python-socket UDP
  9. 设计字体打包_再也不用熬夜设计字体了!525款世界级绝美PS字体包免费送
  10. win2008服务器系统功能,详解Win2008初始配置任务功能的应用