目标采集网址:中文网站总排名_网站排行榜

类型:标准列表页+详情页+翻页

数据量:1895页 x 30/页 = 56850条数据

采集工具:爬山虎采集器

爬山虎采集器 - 简单易用的网页数据采集工具_免费网页爬虫软件

首先我们建立一个任务,填写起始网址,因为本次采集结构没有那么复杂,不用生成网址,只要有一个List起始页就可以启动了,点击下一步。

如图,可以看到,爬山虎采集器的分析非常智能化,由于这个是List页,所以爬山虎自动化解析了相应字段和格式。而我们只需要对字段名称修改一下,保证理解和符合命名规范便可。

由于本次是List - Detail的二级采集结构,有些字段在Detail页重复,所以可以在List页或Detail页采集时去掉部分,本案例中在Detail页中去除List页中已经采集的部分字段。

需要注意的是,List页采集时,由于我不想采集重复的Detail数据,并且以后我还想增量更新,所以我这里选择Detail_url字段不得为空也不得重复。

除此之外,对部分字段里不想要的数据,做了简单的文本替换。字段处理这部分确实爬山虎做的体验不够好,希望改进。

这里需要注意一下,首先是该页面并没有复杂的JS或者Ajax之类影响采集的代码,所以点击HTTP引擎后,仍然可以正常加载和采集。所以这个时候一定要勾选http引擎,可以极大地提高采集速度,类似于真正的爬虫采集机制,而不是浏览器渲染后采集。

之后,我们选择detail_url,然后选择深入此链接采集,这样我们就可以进入了二级页面。但是在此之前,我们还需要对翻页进行设置,爬山虎的翻页比较智能化,如果是普通翻页可以尝试自动识别。

本页面略微有些特殊,虽然显示已经自动识别翻页元素,但是本身应该标亮的却没有显示。安全起见我们选择手动标记,这样可以更安心而且不用最后才校验。

手动选择也很简单,通过点击定位到翻页的元素即可,本页面里就是1895后面的">"部分。

之后可以在手动设置xpath里看到软件自动定位的xpath结果。

之后就可以进入Detail页面进行采集了,由于页面内容较多,而且Detail是没有自动解析的,只能自已一个一个手动添加字段,然后通过点击就可以采集到数据了,虽然繁琐,但是并不复杂。需要注意的是,采集百度权重和谷歌权重的时候,直接采集到的是图片的URL,但是由于图片的文件名就代表了PR值,所以可以用很简单的数据处理方式解决。

比如谷歌PR值,可以看到text部分只有一个数字,那么我们的正则表达式就用\d匹配便可。其他所有需要处理的数据都类似处理,基本上用文本替换就足够了。记得这个页面也可以选择http引擎处理,加快速度。

到了最后一步了,由于我对采集速度没有太特别的要求,我又不希望被站长之家封杀,所以我宁可采集慢一些,比如线程数2-3,间隔1000-5000毫秒。又或者直接挂代理服务器,速度全部可以加快。UA我习惯性的会选择一下,保证请求头数据的完整性。其他设置基本无需修改便可以启动采集。

由于不用渲染整个页面,所以用http引擎采集的速度是远大于浏览器引擎的,这点和火车头采集器的作用类似,但是更直观的界面和操作可以说让一般人很轻松就可以采集。对我来说,上述采集规则可以10分钟以内写完,已经比较熟练。尤其是理解采集机制的话,基本无需停留和思考便可搞定。

数据导出也很容易,这里放出以前采集并导入到数据库中的表格图片,在Navicat中可以比较直观和容易管理数据库。

以上的采集步骤和数据库管理都是面向非技术人员的,总体来说是比较容易上手的,大家可以尝试一下。

Jay的技术交流博客 - 洞悉商业和技术的结合,挖掘数据的价值与潜力!

爬山虎采集实战-站长之家网站排行榜相关推荐

  1. 站长之家网页模板爬取(未分页)

    #下载站长之家网站模板 import requests from lxml import etree import os if not os.path.exists('./moban1'):os.mk ...

  2. Python爬虫实战爬取租房网站2w+数据-链家上海区域信息(超详细)

    Python爬虫实战爬取租房网站-链家上海区域信息(过程超详细) 内容可能有点啰嗦 大佬们请见谅 后面会贴代码 带火们有需求的话就用吧 正好这几天做的实验报告就直接拿过来了,我想后面应该会有人用的到吧 ...

  3. 爬虫实战:链家租房数据爬取,实习僧网站数据爬取

    前面已经进行了爬虫基础部分的学习,于是自己也尝试爬了一些网站数据,用的策略都是比较简单,可能有些因素没有考虑到,但是也爬取到了一定的数据,下面介绍两个爬过的案例. 爬虫实战 链家网站爬取 实习僧网站爬 ...

  4. 高权重网站站长之家,站长专栏申请暂时关闭了!

    站长之家,站长专栏申请暂时关闭了,做SEO的朋友应该知道站长之家是可以免费投稿的,且发布内容是可以带外链. 不论是从SEO角度发布外链,还是软文推广方面来看,站长之家确实是非常不错的一个外链推广平台, ...

  5. python爬取汽车之家_python爬虫实战之爬取汽车之家网站上的图片

    随着生活水平的提高和快节奏生活的发展.汽车开始慢慢成为人们的必需品,浏览各种汽车网站便成为购买合适.喜欢车辆的前提.例如汽车之家网站中就有最新的报价和图片以及汽车的相关内容,是提供信息最快最全的中国汽 ...

  6. python3 scrapy 爬虫实战之爬取站长之家

    爬取目标 站长之家:http://top.chinaz.com/all/ 爬取工具 win10 python3 scrapy BeautifulSoup 爬取内容 1 网站缩略图 2 网站名称 3 网 ...

  7. SEO实战」站长之家站长工具使用教程

    站长之家站长对象(以下简称站长对象)是异常受迎接的站长对象,这个可以经由过程在百度搜刮引擎搜刮SEO重点词的排名看出,如图1,一个纯真的对象页面,没有过多的内容支撑,可以将SEO重点词做到百度搜刮引擎 ...

  8. 【python爬虫实战】批量爬取站长之家的图片

    概述: 站长之家的图片爬取 使用BeautifulSoup解析html 通过浏览器的形式来爬取,爬取成功后以二进制保存,保存的时候根据每一页按页存放每一页的图片 第一页:http://sc.china ...

  9. Python 爬虫实战入门——爬取汽车之家网站促销优惠与经销商信息

    在4S店实习,市场部经理让我写一个小程序自动爬取汽车之家网站上自家品牌的促销文章,因为区域经理需要各店上报在网站上每一家经销商文章的露出频率,于是就自己尝试写一个爬虫,正好当入门了. 一.自动爬取并输 ...

最新文章

  1. C++ 函数的引用返回值
  2. golang处理kill命令总结
  3. Enjoy Android
  4. c#枚举类似于java_如何在Java中获得类似于C的性能
  5. php 武汉海关对接_“双11”临近 海口海关全力备战跨境电商监管高峰
  6. 【Python爬虫】Windows环境下wxpy不需每次登陆重新扫描
  7. 单片机中段程序_单片机c语言中的一小段程序解读
  8. JavaScript(五):变量的作用域
  9. 使用自定义端口连接SQL Server 2008的方法
  10. 服务器端 viewstate
  11. 如何在EXCEL中锁定表格的某一行
  12. 初一上册数学用计算机进行运算,初一上册数学
  13. C语言修行中(2)学习了分支和循环结构
  14. opencv codebook学习
  15. 定义Student类,该类中有Sting name和int age两个属性,该类实现Comparable接口,实现根据学生姓名和年龄排序,该类重写toString()输出学生的姓名和年龄。
  16. win7设置锁屏壁纸
  17. Leetcode:799. 香槟塔
  18. 过滤对象属性值为空的属性
  19. scau 10306 Prison break
  20. MTK平台Metadata的加载(4)—Q版本后

热门文章

  1. canvas离线画板画图
  2. 兄弟连python培训
  3. 堵俊平:开放治理是开源社区的终极之路 | DEV. Together 2021 中国开发者生态峰会...
  4. HackTheBox::Grandpa
  5. 预告 | 烤仔在世界区块链大会 区块链与数字经济发展论坛等你
  6. 小程序跳转到另一个小程序很慢很卡
  7. JIL Widget应用开发必读
  8. 2017京东前端校招面试
  9. 2018年腾讯校招和小米校招本人所做笔试题——前端Web开发工程师方向
  10. 使用Windows自带“录音机”录制音乐(转)