webmagic小试牛刀
序
webmagic是java里头比较优秀的一个爬虫框架:
- 使用Jsoup作为HTML解析工具,并基于其开发了解析XPath的工具Xsoup。
- 默认使用了Apache HttpClient作为下载工具。
这里展示一下入门级使用。
maven
<dependency><groupId>us.codecraft</groupId><artifactId>webmagic-core</artifactId><version>0.7.3</version></dependency><dependency><groupId>us.codecraft</groupId><artifactId>webmagic-extension</artifactId><version>0.7.3</version></dependency>
启动类
public static void main(String[] args) {Spider.create(new GithubRepoPageProcessor())//从https://github.com/code4craft开始抓 .addUrl("https://github.com/code4craft")//设置Scheduler,使用Redis来管理URL队列.setScheduler(new RedisScheduler("localhost"))//设置Pipeline,将结果以json方式保存到文件.addPipeline(new JsonFilePipeline("D:\\data\\webmagic"))//开启5个线程同时执行.thread(5)//启动爬虫.run();
}
PageProcessor
核心的工作主要是自定义PageProcessor,比如
new PageProcessor() {@Overridepublic void process(Page page) {List<String> links = page.getHtml().xpath("//table[@id='jrjthreadtable']//td/a/@href").regex("/msg,\\d+.*.html").all();System.out.println(links);}@Overridepublic Site getSite() {return Site.me().setRetryTimes(3).setSleepTime(1000).setTimeOut(10000);}
这里使用了xpath的语法来选取,不熟悉xpath的话,可以使用chrome:检查-copy-copy xpath来学习。
doc
- webmagic
webmagic小试牛刀相关推荐
- Node.js开发WEB项目后端接口API,基于mysql5.7数据库(小试牛刀)
项目结构 main.js(入口文件,开启9999端口监听,实现RESTful风格接口访问) const express = require("express"); const ap ...
- WebMagic实现分布式抓取以及断点抓取
访问我的博客 前言 从去年到今年,笔者主要负责的是与合作方的内容对接,新增的合作商不是很多的情况下,在我自从去年引入了 WebMagic 这个爬虫框架之后,基本很少需要去关注维护爬虫,做的最多的是新接 ...
- WebMagic之优秀爬虫框架
2019独角兽企业重金招聘Python工程师标准>>> 1. 一个框架,一个领域 一个好的框架必然凝聚了领域知识.WebMagic的设计参考了业界最优秀的爬虫Scrapy,而实现则应 ...
- webmagic 获取文本_WebMagic Selectable抽取元素
昨天用的?WebMagic 最新版本,还存在一些问题.导致控制台报错,报错内容为找不到 jsoup 类文件.详情大家可以到 https://github.com/code4craft/webmagic ...
- SpringBoot + WebMagic实现一个的爬虫框架
作者 | jessehua 来源 | www.jianshu.com/p/cfead4b3e34e WebMagic是一个开源的java爬虫框架.WebMagic框架的使用并不是本文的重点,具体如何使 ...
- mongoose小试牛刀
参考: Mongoose Networking Library Documentation 正文: 先展示一下小试牛刀的结果吧- 一. 首先在程序默认指定的端口上开启服务,在后台运行 ./http_c ...
- WebMagic功能——XPath、CSS选择器、正则表达式 || 抽取元素API、获取结果API || 获取链接||使用Pipeline保存结果
WebMagic功能 实现PageProcessor 抽取元素Selectable WebMagic里主要使用了三种抽取技术:XPath.正则表达式和CSS选择器.另外,对于JSON格式的内容,可使用 ...
- 爬虫框架webmagic与spring boot的结合使用--转
原文地址:http://www.jianshu.com/p/c3fc3129407d 1. 爬虫框架webmagic WebMagic是一个简单灵活的爬虫框架.基于WebMagic,你可以快速开发出一 ...
- CSS学习18之小试牛刀
小试牛刀 到现在为止,我们已经将css要学习的初级中级高级知识都已经学完了,接下来我们就应该对自己做一个小测验了,以下就是我的小测验,模拟qq会员官网的头部栏! 素材 bg.png背景图 logo.p ...
最新文章
- 2003網域升級到2008網域以及遷移DNS
- 基因组组装的那些困扰,用单倍体基因组一一破解!
- C程序设计的抽象思维-递归过程-砝码称重
- 深入理解 JavaScript 原型
- mysql校验字符集
- 特邀丨前阿里巴巴产品运营专家、中国计算机学会专业会员,揭秘增长共同点
- 人脸检测与识别年度进展概述
- Spring中@ Component,@ Service,@ Controller和@Repository之间的区别
- 剑指Offer题解(Python版)
- 锐捷ap怎么设置_新房装修网络布线方案一:AC+AP模式,弱电箱只放光猫和集成AC...
- VirtualBox 网络链接配置
- 14个新鲜的免费图标集
- JavaWeb Cookie客户端技术和Session服务端技术详解
- Word怎么删除背景颜色
- 7月23日云栖精选夜读丨前端leader找我谈心:我是如何从刚毕业的前端菜鸟一步步成长为前端工程师的?...
- 小程序和H5有什么区别?
- 【eMMC学习记录】emmc相关名词解释和基础概念
- pycharm配置python2.7.6环境_pycharm如何配置python环境
- 江苏金丰机电有限公司参观考察
- [益智]:为什么下水道的盖子是圆的?