最近因为实验验证的需要,想要爬取推特的数据,首先想到的是通过推特官方的开发者计划拿到key然后直接爬取,连接如下:
twitter myapp
但是问题就在于,这玩意我用两个号申请都被拒绝了,据说是+86的号码被拒就是会很大。我……,想要申请试试的参考下面这个链接
知乎问题,这个下面的评论多看看,注意一些话术,可能会成功。
后来我找到了这个开源的东西,twint,可以直接爬取
https://github.com/twintproject/twint
安装方式就是官方的这个安装方式:

git clone --depth=1 https://github.com/twintproject/twint.git
cd twint
pip3 install . -r requirements.txt

我是在ubunut20.04下面弄的,这个地方要注意,python的版本必须高于3.5,官方是要求3.6,我用3.8没问题。ubuntu20.04自带的就是python3.8。这个地方踩了大坑,弄了一晚上,ubuntu16.04自带的是3.5.
接下来就是使用了,直接使用twint命令就可以,看下官方的这几个说明:
usename替换为你想抓取的用户的名字就可以了。比如这个:

应该是LNstats。
twint -u username 抓取指定用户的所有推文,不包括转发,但是包括回复
twint -u username -s pineapple 抓取指定用户时间线上的所有包含"pineapple"的推文
twint -s pineapple 抓取所有人包含"pineapple"的推文
twint -u username --year 2014 抓取指定用户2014年之前发布的推文
twint -u username --since “2015-12-20 20:30:15” 收集指定用户指定时间之后的推文
twint -u username --since 2015-12-20 和上面一样的(没测试,翻译过来一样的,谁试了可以说下)
twint -u username -o file.txt 抓取指定用户的推文并存入file.txt
twint -u username -o file.csv --csv 抓取指定用户的推文存入file.csv
twint -u username --email --phone 抓取指定用户可能是电话或者是email的推文
twint -s “Donald Trump” --verified 抓取指定用户关于"Donald Trump"的推文
twint -g=“48.880048,2.385939,1km” -o file.csv --csv 抓取指定经纬度1km内的所有推文并存入file.csv
twint -u username -es localhost:9200 将抓取的推文输出给elasticsearch
twint -u username -o file.json --json 抓取指定用户的推文并输出为file.json
twint -u username --database tweets.db 抓取指定的推文并输出为tweets.db
twint -u username --followers 抓取指定用户的关注者
twint -u username --following 抓取指定用户关注的人
twint -u username --favorites 抓取指定用户喜欢的所有推文,最大上限3200条
**twint -u username --following --user-full ** 收集指定用户关注的所有用户信息
twint -u username --timeline 使用高效的方式从用户的个人资料中收集推文,最多3200条,包括推文和回复
twint -u username --retweets 使用快速的方式收集指定用户最后900条推文,包括转发
twint -u username --resume resume_file.txt 从最后保存的滚动id开始继续搜索。这个滚动id好像就是每个推文的id,当初看加载的内容,每个推文都有。

我抓取了上面的账号的数据,大概这样:

最后说一句,在widows下面也可以用,参见官方的文档,但是我没成功,说是无法连接推特,开全局模式也没用。

爬取twitter数据--使用twint相关推荐

  1. python爬取推特的详细教程_如何利用 Twitter 开放者平台爬取 Twitter 数据?

    泻药,Twitter是一个流行的社交网络,这里有大量的数据等着我们分析.Twitter R包是对twitter数据进行文本挖掘的好工具.本文是关于如何使用Twitter R包获取twitter数据并将 ...

  2. webscraper多页爬取_数据收集:web scraper 多页(无规律url)抓取

    前言 web scraper是一个很好用的Chrome爬虫插件,它易学易用,能够满足大部分需求,而且因为是基于浏览器渲染的,所以能回避很多反爬虫问题.另外,web scraper可以多开进程,对于一些 ...

  3. 《数据科学:R语言实现》——2.7 爬取网络数据

    本节书摘来自华章计算机<数据科学:R语言实现>一书中的第2章,第2.7节,作者 丘祐玮(David Chiu),更多章节内容可以访问云栖社区"华章计算机"公众号查看. ...

  4. python3爬取数据存入mysql_Python如何爬取51cto数据并存入MySQL

    实验环境 1.安装Python 3.7 2.安装requests, bs4,pymysql 模块 实验步骤1.安装环境及模块 2.编写代码 ? 1 2 3 4 5 6 7 8 9 10 11 12 1 ...

  5. Jsoup:用Java也可以爬虫,怎么使用Java进行爬虫,用Java爬取网页数据,使用Jsoup爬取数据,爬虫举例:京东搜索

    Jsoup:用Java也可以爬虫,怎么使用Java进行爬虫,用Java爬取网页数据,使用Jsoup爬取数据,爬虫举例:京东搜索 一.资源 为什么接下来的代码中要使用el.getElementsByTa ...

  6. tushare正确爬取 指数数据

    相信很搞金融数据分析的人,都知道Tushare,一个免费.开源的python财经数据接口包.可以非常简单爬取股票.宏观经济数据.新闻时事.银行间同业拆放利率.甚至电影票房数据都可以爬取,比起国外的雅虎 ...

  7. MATLAB爬虫爬取股票数据

    近年来,大数据盛行,有关爬虫的教程层次不穷.那么,爬虫到底是什么呢? 什么是爬虫? 百度百科是这样定义的: 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种 ...

  8. python爬虫多久能学会-不踩坑的Python爬虫:如何在一个月内学会爬取大规模数据...

    原标题:不踩坑的Python爬虫:如何在一个月内学会爬取大规模数据 Python爬虫为什么受欢迎 如果你仔细观察,就不难发现,懂爬虫.学习爬虫的人越来越多,一方面,互联网可以获取的数据越来越多,另一方 ...

  9. python如何爬虫网页数据-python爬虫——爬取网页数据和解析数据

    1.网络爬虫的基本概念 网络爬虫(又称网络蜘蛛,机器人),就是模拟客户端发送网络请求,接收请求响应,一种按照一定的规则,自动地抓取互联网信息的程序. 只要浏览器能够做的事情,原则上,爬虫都能够做到. ...

最新文章

  1. 如何零基础开始自学Python编程
  2. linux上寻找并杀死僵尸进程
  3. oracle忘记密码
  4. 第三次学JAVA再学不好就吃翔(part74)--Calendar类
  5. Windows Phone 8初学者开发—第7部分:本地化应用程序
  6. 复旦教授:不打不骂不罚是培养不出优秀孩子的!值得一看
  7. 201771010109焦旭超《面向对象程序设计(java)》第十六周学习总结
  8. CNN for image retrieval
  9. 0006 求三个数的平均数
  10. STM32CubeMX+Proteus仿真DS18B20
  11. 生育指南(写给临产准妈妈)
  12. 机敏问答[复变][5] #20210629
  13. 【图解HTTP】|【09】Web的攻击技术
  14. 罚函数(内点罚函数和外点罚函数)
  15. 总结-互联网校招面试锦囊
  16. 熊掌号历史php推送示例,百度熊掌号历史数据内容API提交URL整理小技巧
  17. 顶级测试框架Jest指南:跑通一个完美的程序,就是教出一群像样的学生
  18. SoundPool类简介与适用场合
  19. 算法-22-字符串的排序算法(四种排序)
  20. Linux总线之I2C

热门文章

  1. 计算机键盘上除在哪里,计算机键盘上的主页按钮在哪里?主页按钮的功能
  2. Tableau学习总结
  3. 快速排序及TOP K问题
  4. 一定要记住这20种PS技术,让你的照片美的不行! - imsoft.cnblogs
  5. 基于SSM的线上电子文件资源下载系统JavaWeb电子资源管理系统(源码调试+讲解+文档)
  6. Lottie系列四:使用建议
  7. python简单方便获取BDUSS
  8. Qt怎么获取摄像头状态
  9. 中科曙光Java笔试题_中科金财Java开发工程师笔试题的(带答案).docx
  10. 线索二叉树详解 - C语言