关于7个款来抓数据的开源爬虫软件工具
一、爬虫是什么?
爬虫:是一种按照一定的规则,自动地抓取万维网,信息的程序或者脚本。使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。
1.QuickRecon
QuickRecon是一个简单的信息收集工具,它可以帮助你查找子域名名称、Perform zone transfe、收集电子邮件地址和使用microformats寻找人际关系等。QuickRecon使用python编写,支持linux和 windows操作系统
授权协议: GPLv3
开发语言: Python
操作系统: Windows Linux
2.Scrapy
授权协议: BSD
开发语言: Python
操作系统: 跨平台
github源代码
擅长:Twisted的异步处理框架,文档齐全
3.Methabot
Methabot 是一个经过速度优化的高可配置的 WEB、FTP、本地文件系统的爬虫软件。
授权协议: 未知
开发语言: C/C++
操作系统: Windows Linux
擅长:过速度优化、可抓取WEB、FTP及本地文件系统
源代码链接
4.Sinawler
国内第一个针对微博数据的爬虫程序!原名“微博爬虫”。
登录后,可以用户为起点,以该用户的关注人、粉丝为线索,关系搜集用户基本信息、微博数据、评论数据。
擅长:界面上提供参数设置,灵活方便
对爬虫控制,可随时暂停、继续、停止爬虫
授权协议: GPLv3
开发语言: C# .NET
操作系统: Windows
5.网络矿工
网站数据采集软件 网络矿工采集器(原soukey采摘)
Soukey采摘网站数据采集软件是一款基于.Net平台的开源软件,也是网站数据采集软件类型中唯一款开源软件。尽管Soukey采摘开源,但并不会影响软件功能的提供
擅长:功能丰富
授权协议: BSD
开发语言: C# .NET
操作系统: Windows
6.ThinkUp
ThinkUp 是一个可以采集推特,facebook等社交网络数据的社会媒体视角引擎。通过采集个人的社交网络账号的数据,对其存档以及处理的交互分析工具,并将数据图形化以便更直观的查看。
授权协议: GPL
开发语言: PHP
操作系统: 跨平台
github源码
擅长:采集推特、脸谱等社交网络数据的社会媒体视角引擎,可进行交互分析并将结果以可视化形式展现
7.微购
微购社会化购物系统是一款基于ThinkPHP框架开发的开源的购物分享系统,同时它也是一套针对站长、开源的的淘宝客网站程序,它整合了淘宝、天猫、淘宝客等300多家商品数据采集接口,为广大的淘宝客站长提供傻瓜式淘客建站服务,会HTML就会做程序模板,免费开放下载,是广大淘客站长的首选。
演示网址
授权协议: GPL
开发语言: PHP
操作系统: 跨平台
关于7个款来抓数据的开源爬虫软件工具相关推荐
- 33款可用来抓数据的开源爬虫软件工具
要玩大数据,没有数据怎么玩?这里推荐一些33款开源爬虫软件给大家. 爬虫,即网络爬虫,是一种自动获取网页内容的程序.是搜索引擎的重要组成部分,因此搜索引擎优化很大程度上就是针对爬虫而做出的优化. 网络 ...
- 可用来抓数据的开源爬虫软件工具
原文地址:http://www.36dsj.com/archives/34383 要玩大数据,没有数据怎么玩?这里推荐一些33款开源爬虫软件给大家. 爬虫,即网络爬虫,是一种自动获取网页内容的程序.是 ...
- 33款你可能不知道的开源爬虫软件工具
要玩大数据,没有数据怎么玩?这里推荐一些33款开源爬虫软件给大家. 2 爬虫,即网络爬虫,是一种自动获取网页内容的程序.是搜索引擎的重要组成部分,因此搜索引擎优化很大程度上就是针对爬虫而做出的优化. ...
- 3款Python 开源爬虫软件工具
Python爬虫 1.QuickRecon QuickRecon是一个简单的信息收集工具,它可以帮助你查找子域名名称.perform zone transfe.收集电子邮件地址和使用microform ...
- python抓取数据包_python抓数据包
广告关闭 腾讯云11.11云上盛惠 ,精选热门产品助力上云,云服务器首年88元起,买的越多返的越多,最高返5000元! 前言:数据科学越来越火了,网页是数据很大的一个来源. 最近很多人问怎么抓网页数据 ...
- 要玩大数据,没有数据怎么玩?这里推荐一些33款开源爬虫软件给大家。
爬虫,即网络爬虫,是一种自动获取网页内容的程序.是搜索引擎的重要组成部分,因此搜索引擎优化很大程度上就是针对爬虫而做出的优化. 网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索 ...
- 一款满足企业级数据需求的web报表工具
近年来,数据积累已经达到一定可用的阶段,伴随着数据的增长,数据需要进行处理分析,并进行可视化展示.选择一款合适的数据可视化工具可以实现数据分析.挖掘数据之间的关联,帮助使用者发现数据中潜藏的价值,帮助 ...
- python爬取大众点评评论_python爬虫抓取数据 小试Python——爬虫抓取大众点评上的数据 - 电脑常识 - 服务器之家...
python爬虫抓取数据 小试Python--爬虫抓取大众点评上的数据 发布时间:2017-04-07
- 荐六十款针对Hadoop和大数据顶级开源工具
为什么80%的码农都做不了架构师?>>> 荐六十款针对Hadoop和大数据顶级开源工具 2015-08-10 10:37 布加迪编译 51CTO 字号: T | T 说到处理 ...
最新文章
- 车路协同让城市更智慧
- MySQL dump文件导入
- jp在java中无法编译_为什么我的JAVA程序无法编译呢?
- D-Genius‘s Gambit(构造)
- 气象数据产品下载网址汇总
- JavaScript之多小球非对心弹性碰撞
- 统计分析用户信息量的工具Flurry的使用
- 转载【电波话题】10:电波群友关于广播电台短波带宽的讨论
- 九九乘法c语言的编程,C语言九九乘法表
- mysql数据库熔断_服务熔断
- 运行shell脚本时报错“[[ : not found“解决方法
- excel怎么设置自动计算_EXCEL内输入起始时间,如何自动计算小时时间差?
- 计算机黑屏论文,在家写论文电脑突然黑屏自救方案,这几个方法可以解决95%以上的电脑问题...
- Java:外包Java项目有什么好处?
- 2022年恒生指数研究报告
- 使用ActiveMQ实现阶梯式消息通知
- crh寄存器_STM32直接操作寄存器
- 旺季大促白热化,如何做好谷歌广告投放
- 【思维·状压】 jzoj1434灌水(COCI2009) 纪中集训提高B组
- 理解Python并发编程一篇就够了 - 线程篇