微博同城热搜抓取逻辑(333城市)
接口需要从移动端拿
安坐模拟器加Fiddler
import re
import sys
import timeimport pymysql
import requests# 获取经纬度
def get_ll():# 经纬度接口url = 'https://m.weibo.cn/api/container/getIndex?uid=1887387237&wm=9006_2001&from=10A8195010&sourcetype=weixin&display=0&retcode=6102&containerid=2306860024'resp = requests.get(url)info = resp.json()['data']['cards']infos = info[3:]for i in infos:p = i['card_type_name']all_citys = i['card_group']for citys in all_citys:citys = citys['group']for city in citys:url = city['scheme']city_name = city['title_sub']s = url.split('_')l1 = s[-2]l2 = s[-1]get_response(city_name, l1, l2)# sleep时间为一秒,ip处于安全状态,不会被封禁# sleep时间在0.5到一秒之间,请求约400次,ip被封禁# 不sleep,请求约200次,ip被封禁time.sleep(1)def get_response(city_name, l1, l2):headers = {'User-Agent': 'PRO 6 Plus_5.1.1_weibo_9.9.3_weibolite'}# 同城热搜最简接口base_url = 'https://api.weibo.cn/2/page?extparam=pos=0_0&lon={}&lat={}&c=weibolite&s=bbbbbbbb&from=3799395010&gsid=_2A25yRxAdDeRxGeBO6lYS9CzEyj6IHXVvVSTVrDV6PUJbkdANLVbAkWpNSiLhtqAmtyzao5wyTR0CInrjrcWA35NC&containerid=106003type=25&t=3&disable_hot=1&filter_type=region'url = base_url.format(l1, l2)resp = requests.get(url, headers=headers)resp = resp.text# 获取失败会返回404页面,但是状态码和响应都正常,所以程序不会报异常# 判断响应内容长度,强制执行退出if len(resp) < 10:print('error')print(resp)print('----')exit()title = re.findall('"desc"', resp)# print(url)print(city_name, len(title))def exit():sys.exit()if __name__ == '__main__':while True:try:# 333个城市访问完需要时间约为7分40秒start_time = int(time.time())get_ll()end_time = int(time.time())print('时间:', str((end_time - start_time) / 60 ))except Exception as e:print(e)break
微博同城热搜抓取逻辑(333城市)相关推荐
- 基于python的微博热搜爬取及数据分析
刚学python爬虫,用爬虫爬取新浪微博热搜,看看效果如何,也是对这段时间学习python的总结. 一.目的: 抓取新浪微博2020年1月3日星期五的热搜榜,将抓取到的数据进行动态展示,并生成当天的微 ...
- python热搜排行功能_简单几行代码用Python爬取微博的热搜榜
简单几行代码用Python爬取微博的热搜榜 想要实时的看微博热搜 但是又不想去微博网站看!怎么办呢?其实很简单! 我们学了这个requests_html 这个库之后 就更加的简单了! 小编只用了短短的 ...
- 爬取微博实时热搜数据可视化分析
文章目录 爬取微博实时热搜数据可视化分析 一.爬取数据 1.1 Spider主要函数 1.2 根据微博一分钟更新一次的状态进行爬虫 二.可视化 2.1 利用轮播图加柱状图进行可视化 爬取微博实时热搜数 ...
- 爬虫获取微博首页热搜
爬虫获取微博首页热搜 步骤: 打开微博首页 https://s.weibo.com/top/summary? 右键点击检查,分析静态网页 将爬取到的内容保存为csv文件格式 需要导入的库 import ...
- 用selenium实现对微博搜索数据的抓取
http://computational-communication.com/post/bian-cheng-gong-ju/2014-06-25-searching-weibo-with-se ...
- 微博带cookie访问抓取热搜
# -*- coding: utf-8 -*- ''' @author: Yalei Meng E-mail: yaleimeng@sina.com @license: (C) Copyright 2 ...
- php获取微博热搜,爬取微博热搜top50(示例代码)
一.主题式网络爬虫设计方案(15分) 1.主题式网络爬虫名称:爬取微博热搜top50 2.主题式网络爬虫的内容与数据特征分析:排名 关键词 点击量 3.主题式网络爬虫设计方案概述: 先分析页面 对比源 ...
- python 爬取微博实时热搜,并存入数据库实例
刚学python没几天,打算用paython爬去微博热搜数据试验一下,但是发现微博热搜是动态数据,网页源码并不能直接获取想要的数据,network里也并不能找到相关内容,这时重新查看网页源码,发现有类 ...
- 利用cookies+requests包登陆微博,使用xpath抓取目标用户的用户信息、微博以及对应评论...
本文目的:介绍如何抓取微博内容,利用requests包+cookies实现登陆微博,lxml包的xpath语法解析网页,抓取目标内容. 所需python包:requests.lxml 皆使用pip安装 ...
最新文章
- MPB:邓晔、王尚等-​环境样本中的细菌总量测定—流式细胞法
- java获取手机号码归属地_手机号码归属地能否取消?这些热点问题,工信部回复了...
- 正经“长生不老药”新进展:口服那种,贝佐斯投资 | 柳叶刀子刊
- Kendo Web UI Grid数据绑定,删除,编辑,并把默认英文改成中文
- 集合objectjava_collection
- rsync配置与报错总结
- Win7中修改Chrome浏览器缓存文件目录
- 2字节取值范围_5G NR 下行同步SSB(2)—PSS和SSS的用途
- 联邦快递认了:转运华为货件到美国,但称是“失误”!
- html修改列表内的audio样式,如何修改H5中的audio样式
- azkaban的最简版搭建
- Climbing Stairs @python
- nodejs 做后台的一个完整业务整理
- 译: 进化的系统需要进化的系统工程
- 2021湖北省普通高考成绩查询果,2021年湖北高考体检时间项目及体检结果查询公布时间...
- 干货 | 这是一份详细的用户成长体系总结笔记
- JTAG-SWD转接
- S3C2440 I2C实现
- CentOS中安装与配置Tomcat-7的方法
- CTF之懵懂时期系列---后台登录