一、爬虫是什么?

爬虫:是一种按照一定的规则,自动地抓取万维网,信息的程序或者脚本。使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

1.QuickRecon

QuickRecon是一个简单的信息收集工具,它可以帮助你查找子域名名称、Perform zone transfe、收集电子邮件地址和使用microformats寻找人际关系等。QuickRecon使用python编写,支持linux和 windows操作系统

授权协议: GPLv3

开发语言: Python

操作系统: Windows Linux

擅长:查找子域名名称、收集电子邮件地址并寻找人际关系等功能

2.Scrapy

Scrapy 是一套基于基于Twisted的异步处理框架,纯python实现的爬虫框架,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非常之方便~

授权协议: BSD

开发语言: Python

操作系统: 跨平台

github源代码

擅长:Twisted的异步处理框架,文档齐全

3.Methabot

Methabot 是一个经过速度优化的高可配置的 WEB、FTP、本地文件系统的爬虫软件。

授权协议: 未知

开发语言: C/C++

操作系统: Windows Linux

擅长:过速度优化、可抓取WEB、FTP及本地文件系统

源代码链接

4.Sinawler

国内第一个针对微博数据的爬虫程序!原名“微博爬虫”。

登录后,可以用户为起点,以该用户的关注人、粉丝为线索,关系搜集用户基本信息、微博数据、评论数据。

擅长:界面上提供参数设置,灵活方便

对爬虫控制,可随时暂停、继续、停止爬虫

授权协议: GPLv3

开发语言: C# .NET

操作系统: Windows

5.网络矿工

网站数据采集软件 网络矿工采集器(原soukey采摘)

Soukey采摘网站数据采集软件是一款基于.Net平台的开源软件,也是网站数据采集软件类型中唯一款开源软件。尽管Soukey采摘开源,但并不会影响软件功能的提供

擅长:功能丰富

授权协议: BSD

开发语言: C# .NET

操作系统: Windows

6.ThinkUp

ThinkUp 是一个可以采集推特,facebook等社交网络数据的社会媒体视角引擎。通过采集个人的社交网络账号的数据,对其存档以及处理的交互分析工具,并将数据图形化以便更直观的查看。

授权协议: GPL

开发语言: PHP

操作系统: 跨平台

github源码

擅长:采集推特、脸谱等社交网络数据的社会媒体视角引擎,可进行交互分析并将结果以可视化形式展现

7.微购

微购社会化购物系统是一款基于ThinkPHP框架开发的开源的购物分享系统,同时它也是一套针对站长、开源的的淘宝客网站程序,它整合了淘宝、天猫、淘宝客等300多家商品数据采集接口,为广大的淘宝客站长提供傻瓜式淘客建站服务,会HTML就会做程序模板,免费开放下载,是广大淘客站长的首选。

演示网址

授权协议: GPL

开发语言: PHP

操作系统: 跨平台

关于7个款来抓数据的开源爬虫软件工具相关推荐

  1. 33款可用来抓数据的开源爬虫软件工具

    要玩大数据,没有数据怎么玩?这里推荐一些33款开源爬虫软件给大家. 爬虫,即网络爬虫,是一种自动获取网页内容的程序.是搜索引擎的重要组成部分,因此搜索引擎优化很大程度上就是针对爬虫而做出的优化. 网络 ...

  2. 可用来抓数据的开源爬虫软件工具

    原文地址:http://www.36dsj.com/archives/34383 要玩大数据,没有数据怎么玩?这里推荐一些33款开源爬虫软件给大家. 爬虫,即网络爬虫,是一种自动获取网页内容的程序.是 ...

  3. 33款你可能不知道的开源爬虫软件工具

    要玩大数据,没有数据怎么玩?这里推荐一些33款开源爬虫软件给大家. 2 爬虫,即网络爬虫,是一种自动获取网页内容的程序.是搜索引擎的重要组成部分,因此搜索引擎优化很大程度上就是针对爬虫而做出的优化. ...

  4. 3款Python 开源爬虫软件工具

    Python爬虫 1.QuickRecon QuickRecon是一个简单的信息收集工具,它可以帮助你查找子域名名称.perform zone transfe.收集电子邮件地址和使用microform ...

  5. python抓取数据包_python抓数据包

    广告关闭 腾讯云11.11云上盛惠 ,精选热门产品助力上云,云服务器首年88元起,买的越多返的越多,最高返5000元! 前言:数据科学越来越火了,网页是数据很大的一个来源. 最近很多人问怎么抓网页数据 ...

  6. 要玩大数据,没有数据怎么玩?这里推荐一些33款开源爬虫软件给大家。

    爬虫,即网络爬虫,是一种自动获取网页内容的程序.是搜索引擎的重要组成部分,因此搜索引擎优化很大程度上就是针对爬虫而做出的优化. 网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索 ...

  7. 一款满足企业级数据需求的web报表工具

    近年来,数据积累已经达到一定可用的阶段,伴随着数据的增长,数据需要进行处理分析,并进行可视化展示.选择一款合适的数据可视化工具可以实现数据分析.挖掘数据之间的关联,帮助使用者发现数据中潜藏的价值,帮助 ...

  8. python爬取大众点评评论_python爬虫抓取数据 小试Python——爬虫抓取大众点评上的数据 - 电脑常识 - 服务器之家...

    python爬虫抓取数据 小试Python--爬虫抓取大众点评上的数据 发布时间:2017-04-07

  9. 荐六十款针对Hadoop和大数据顶级开源工具

    为什么80%的码农都做不了架构师?>>>    荐六十款针对Hadoop和大数据顶级开源工具 2015-08-10 10:37 布加迪编译 51CTO 字号: T |  T 说到处理 ...

最新文章

  1. 车路协同让城市更智慧
  2. MySQL dump文件导入
  3. jp在java中无法编译_为什么我的JAVA程序无法编译呢?
  4. D-Genius‘s Gambit(构造)
  5. 气象数据产品下载网址汇总
  6. JavaScript之多小球非对心弹性碰撞
  7. 统计分析用户信息量的工具Flurry的使用
  8. 转载【电波话题】10:电波群友关于广播电台短波带宽的讨论
  9. 九九乘法c语言的编程,C语言九九乘法表
  10. mysql数据库熔断_服务熔断
  11. 运行shell脚本时报错“[[ : not found“解决方法
  12. excel怎么设置自动计算_EXCEL内输入起始时间,如何自动计算小时时间差?
  13. 计算机黑屏论文,在家写论文电脑突然黑屏自救方案,这几个方法可以解决95%以上的电脑问题...
  14. Java:外包Java项目有什么好处?
  15. 2022年恒生指数研究报告
  16. 使用ActiveMQ实现阶梯式消息通知
  17. crh寄存器_STM32直接操作寄存器
  18. 旺季大促白热化,如何做好谷歌广告投放
  19. 【思维·状压】 jzoj1434灌水(COCI2009) 纪中集训提高B组
  20. 理解Python并发编程一篇就够了 - 线程篇

热门文章

  1. SpringMVC项目添加日志
  2. Nature子刊 | 周集中团队揭示长期气候变暖导致草地土壤微生物多样性降低
  3. Quartz.基本使用
  4. pysheeet ,一个标星近 6k ,小众且又不失文艺范,又很有价值的一个开源库
  5. matlab数字滤波器设计实验,用MATLAB设计IIR数字滤波器
  6. Android开发大牛博客
  7. 离散数学(图论) 学习笔记
  8. volatile详解(任何人都能懂的那种)
  9. 使用摩客原型托管发布原型的五大理由
  10. 概率论之大数定理与中心极限定理