webmagic是java里头比较优秀的一个爬虫框架:

  • 使用Jsoup作为HTML解析工具,并基于其开发了解析XPath的工具Xsoup。
  • 默认使用了Apache HttpClient作为下载工具。

这里展示一下入门级使用。

maven

        <dependency><groupId>us.codecraft</groupId><artifactId>webmagic-core</artifactId><version>0.7.3</version></dependency><dependency><groupId>us.codecraft</groupId><artifactId>webmagic-extension</artifactId><version>0.7.3</version></dependency>

启动类

public static void main(String[] args) {Spider.create(new GithubRepoPageProcessor())//从https://github.com/code4craft开始抓    .addUrl("https://github.com/code4craft")//设置Scheduler,使用Redis来管理URL队列.setScheduler(new RedisScheduler("localhost"))//设置Pipeline,将结果以json方式保存到文件.addPipeline(new JsonFilePipeline("D:\\data\\webmagic"))//开启5个线程同时执行.thread(5)//启动爬虫.run();
}

PageProcessor

核心的工作主要是自定义PageProcessor,比如

new PageProcessor() {@Overridepublic void process(Page page) {List<String> links = page.getHtml().xpath("//table[@id='jrjthreadtable']//td/a/@href").regex("/msg,\\d+.*.html").all();System.out.println(links);}@Overridepublic Site getSite() {return Site.me().setRetryTimes(3).setSleepTime(1000).setTimeOut(10000);}

这里使用了xpath的语法来选取,不熟悉xpath的话,可以使用chrome:检查-copy-copy xpath来学习。

doc

  • webmagic

webmagic小试牛刀相关推荐

  1. Node.js开发WEB项目后端接口API,基于mysql5.7数据库(小试牛刀)

    项目结构 main.js(入口文件,开启9999端口监听,实现RESTful风格接口访问) const express = require("express"); const ap ...

  2. WebMagic实现分布式抓取以及断点抓取

    访问我的博客 前言 从去年到今年,笔者主要负责的是与合作方的内容对接,新增的合作商不是很多的情况下,在我自从去年引入了 WebMagic 这个爬虫框架之后,基本很少需要去关注维护爬虫,做的最多的是新接 ...

  3. WebMagic之优秀爬虫框架

    2019独角兽企业重金招聘Python工程师标准>>> 1. 一个框架,一个领域 一个好的框架必然凝聚了领域知识.WebMagic的设计参考了业界最优秀的爬虫Scrapy,而实现则应 ...

  4. webmagic 获取文本_WebMagic Selectable抽取元素

    昨天用的?WebMagic 最新版本,还存在一些问题.导致控制台报错,报错内容为找不到 jsoup 类文件.详情大家可以到 https://github.com/code4craft/webmagic ...

  5. SpringBoot + WebMagic实现一个的爬虫框架

    作者 | jessehua 来源 | www.jianshu.com/p/cfead4b3e34e WebMagic是一个开源的java爬虫框架.WebMagic框架的使用并不是本文的重点,具体如何使 ...

  6. mongoose小试牛刀

    参考: Mongoose Networking Library Documentation 正文: 先展示一下小试牛刀的结果吧- 一. 首先在程序默认指定的端口上开启服务,在后台运行 ./http_c ...

  7. WebMagic功能——XPath、CSS选择器、正则表达式 || 抽取元素API、获取结果API || ​​​​​​​获取链接||​​​​​​​使用Pipeline保存结果

    WebMagic功能 实现PageProcessor 抽取元素Selectable WebMagic里主要使用了三种抽取技术:XPath.正则表达式和CSS选择器.另外,对于JSON格式的内容,可使用 ...

  8. 爬虫框架webmagic与spring boot的结合使用--转

    原文地址:http://www.jianshu.com/p/c3fc3129407d 1. 爬虫框架webmagic WebMagic是一个简单灵活的爬虫框架.基于WebMagic,你可以快速开发出一 ...

  9. CSS学习18之小试牛刀

    小试牛刀 到现在为止,我们已经将css要学习的初级中级高级知识都已经学完了,接下来我们就应该对自己做一个小测验了,以下就是我的小测验,模拟qq会员官网的头部栏! 素材 bg.png背景图 logo.p ...

最新文章

  1. 2003網域升級到2008網域以及遷移DNS
  2. 基因组组装的那些困扰,用单倍体基因组一一破解!
  3. C程序设计的抽象思维-递归过程-砝码称重
  4. 深入理解 JavaScript 原型
  5. mysql校验字符集
  6. 特邀丨前阿里巴巴产品运营专家、中国计算机学会专业会员,揭秘增长共同点
  7. 人脸检测与识别年度进展概述
  8. Spring中@ Component,@ Service,@ Controller和@Repository之间的区别
  9. 剑指Offer题解(Python版)
  10. 锐捷ap怎么设置_新房装修网络布线方案一:AC+AP模式,弱电箱只放光猫和集成AC...
  11. VirtualBox 网络链接配置
  12. 14个新鲜的免费图标集
  13. JavaWeb Cookie客户端技术和Session服务端技术详解
  14. Word怎么删除背景颜色
  15. 7月23日云栖精选夜读丨前端leader找我谈心:我是如何从刚毕业的前端菜鸟一步步成长为前端工程师的?...
  16. 小程序和H5有什么区别?
  17. 【eMMC学习记录】emmc相关名词解释和基础概念
  18. pycharm配置python2.7.6环境_pycharm如何配置python环境
  19. 江苏金丰机电有限公司参观考察
  20. [益智]:为什么下水道的盖子是圆的?

热门文章

  1. Android studio课程设计仿微信app开发
  2. 第一次实习遇到的项目问题与心得体会
  3. python字典zip函数_python字典怎么使用zip
  4. 平面设计作品集如何设计更专业
  5. 联易融科技在港交所上市:腾讯、红杉等加持,金融业务逾期率翻倍
  6. 贝塞尔曲线动画C++简单实践
  7. 关于shift-jis编码转换utf-8
  8. AWB图像增强算法 Opencv实现
  9. Python爬虫入门实战之猫眼电影数据抓取(实战篇)
  10. Causal effect可识别的一般条件