利用selenium爬取Twitter

从2月9日起,Twitter不再支持免费访问Twitter API,继续使用Twitter API支付较高的费用。下面将介绍一种绕过Twitter API爬取推文的方式

Selenium Webdriver框架

首先介绍一下Selenium Webdriver,这是一款web自动化测试框架,可以利用它在web浏览器上模拟。下面演示下在python中如何引入selenium模块

from selenium import webdriver

实例化配置对象

options = webdriver.ChromeOptions()

配置对象开启无界面模式

options.add_argument("--headless")

实例化带有配置对象的driver对象

driver = webdriver.Chrome('chromedriver', options=options)

进入Twitter页面

Twitter首页 Twitter首页

driver.get('https://twitter.com/home')

登陆Twitter

先在网页上登陆自己的twitter账号,然后把cookies取出来并

cookies=[] #你的cookies
for cookie in cookies:driver.add_cookie(cookie)

接下来就可以自由访问twitter啦

爬取Twitter

url = f"https://twitter.com/search?q=hello&src=typed_query"
driver.get(url)

利用BeautifulSoup对网页进行分析

from bs4 import BeautifulSoup
html = driver.page_source
soup = BeautifulSoup(html, "html.parser")

F12查看网页源码,可以看到每条推文的内容都写在红框标出来的区域里面

因此,我们先找出所有为这个属性的元素

tweets = soup.find_all("div", {'data-testid': "cellInnerDiv"})

然后我们再继续找推文内容的属性

提取推文内容

for tweet in tweets:content = container.find('div', {'data-testid': "tweetText"}).textprint(content)

【Twitter爬虫】Twitter网络爬虫相关推荐

  1. 第一章 爬虫(认识网络爬虫)

    第一章      认识网络爬虫 1.1 什么是网络爬虫 网络爬虫: 一种按规则,自动请求网站并提取网页数据的程序或脚本 网络爬虫分类(按照系统结构和技术划分): 1.通用网络爬虫 2.聚焦网络爬虫 3 ...

  2. 什么叫爬虫python_网络爬虫是什么?

    互联网诞生之初,是为了让人们更容易的分享数据.交流通讯.互联网是桥梁,连接了世界各地的人们.网站的点击.浏览都是人为的,与你聊天的也是活生生的人.然而,随着技术的发展,人们对数据的渴望,出现了各种网络 ...

  3. 什么是网络爬虫,网络爬虫的职能是什么?

    什么是网络爬虫,网络爬虫的职能是什么.网络蜘蛛即Web Spider,是一个很形象的名字.把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛.网络蜘蛛是通过网页的链接地址来寻找网页,从 ...

  4. 爬虫(一)网络爬虫/相关工具与知识

    网络爬虫 网络爬虫(web crawler), 以前经常称为网络蜘蛛(spider), 是按照一定的规则自动浏览万维网并获取信息的机器人程序(或叫脚本), 曾经被广泛的应用于互联网搜索引擎. 使用过互 ...

  5. python外国网站爬虫_python 网络爬虫-爬取网页外部网站

    前言 上一篇中我们在维基百科的内部网站上随机跳转进入文章类网页,而忽视外部网站链接.本篇文章将处理网站的外部链接并试图收集一些网站数据.和单个域名网站爬取不同,不同域名的网站结构千差万别,这就意味我们 ...

  6. python网络爬虫_Python网络爬虫——爬取视频网站源视频!

    原标题:Python网络爬虫--爬取视频网站源视频! 学习前提 1.了解python基础语法 2.了解re.selenium.BeautifulSoup.os.requests等python第三方库 ...

  7. java https 网络爬虫_Java 网络爬虫,就是这么的简单

    这是 Java 网络爬虫系列文章的第一篇,如果你还不知道 Java 网络爬虫系列文章,请参看 学 Java 网络爬虫,需要哪些基础知识.第一篇是关于 Java 网络爬虫入门内容,在该篇中我们以采集虎扑 ...

  8. 豆瓣网络爬虫-java网络爬虫[验证码模拟登陆]详细介绍

    目录 抓包介绍 解决验证码的思路 验证码地址拼接 爬虫实战 爬虫架构 model main 解析htmlparse 数据库操作程序db 近期,有人将本人博客,复制下来,直接上传到百度文库等平台. 本文 ...

  9. lofter 爬虫_Python网络爬虫1 - 爬取网易LOFTER图片

    LOFTER是网易出品的优质轻博客,灵感源于国外的tumblr,但比之更加文艺,更加本地化.本人非常喜欢LOFTER的UI设计,以及其中的优质用户和内容,似乎网易并不擅长推广,所以受众并不广泛.这都是 ...

  10. 详解网络爬虫:网络爬虫是干什么的?有哪些应用场景?

    随着互联网信息的爆炸,网络爬虫渐渐为人所熟知.作为一种自动爬取网页信息的手段,很多人其实都不太清楚它在实际生活的巨大作用.那么,网络爬虫是干什么的?有哪些应用场景呢?简单来讲,搜索引擎.统计数据.出行 ...

最新文章

  1. [Boost基础]并发编程——asio网络库——定时器deadline_timer
  2. Java中配置加密组件Bouncy_Castle
  3. 专访 | 执拗、纯粹的网易阮良,和他的梦想团队
  4. OpenCV 错误级别分析ELA的实例(附完整代码)
  5. 又拍网架构中的分库设计
  6. SpringBoot2.1.9 多MongoDB配置
  7. python语言format用法_详解Python中的format格式化函数的使用方法
  8. Java5线程并发库之LOCK(锁)CONDITION(条件)实现线程同步通信
  9. android手机 不显示本地视频,各位大神们 android怎么获取手机本地视频啊?
  10. inputstream是否一定要close_新车是否需要底盘保养?一定要喷底盘防锈漆吗?
  11. javascript - 你不容错过的es6模板写法
  12. linux--GCC用法
  13. Dictionary Union and Sort by value
  14. python入门基础语法答案_第一阶段:Python开发基础 Python基础语法入门  day03 课后作业...
  15. 苹果HomeKit、小米、谷歌HomeKit等智能家居系统,哪一款适合你?【智能家居评测】
  16. 国内外计算机视觉领域优秀研究团队汇总
  17. 招聘网站职位分析数据可视化系统(Hadoop课设)
  18. 简单数据类型的转换和条件控制语句(if else)的使用
  19. 中青报X牛客 “百校百企”青年就业扶持计划在京启动,共商青年就业蓝图
  20. 2015年最新苹果开发者账号注册流程详解

热门文章

  1. Win10解决自带查看照片软件的闪退问题
  2. 盈利困境下的途虎养车,如何在新赛道抢占先机?
  3. 一般数组的遍历,声明
  4. 我的世界怎么用虚拟服务器联机,60秒就能够操作成功,教你如何在MC里面,直接和朋友联机游玩...
  5. 相对位置编码之RPR式:《Self-Attention with Relative Position Representations》论文笔记
  6. YOLOV5融合SE注意力机制和SwinTransformer模块开发实践的中国象棋检测识别分析系统
  7. bat中for循环嵌套
  8. 最受欢迎中国技术博客评选(PB50)结果公布
  9. 泛微E9后端学习笔记 - IDEA远程调试
  10. 全球大气监控https://earth.nullschool.net