微博同城热搜抓取逻辑（333城市）

接口需要从移动端拿

安坐模拟器加Fiddler

import re
import sys
import timeimport pymysql
import requests# 获取经纬度
def get_ll():# 经纬度接口url = 'https://m.weibo.cn/api/container/getIndex?uid=1887387237&wm=9006_2001&from=10A8195010&sourcetype=weixin&display=0&retcode=6102&containerid=2306860024'resp = requests.get(url)info = resp.json()['data']['cards']infos = info[3:]for i in infos:p = i['card_type_name']all_citys = i['card_group']for citys in all_citys:citys = citys['group']for city in citys:url = city['scheme']city_name = city['title_sub']s = url.split('_')l1 = s[-2]l2 = s[-1]get_response(city_name, l1, l2)# sleep时间为一秒，ip处于安全状态，不会被封禁# sleep时间在0.5到一秒之间，请求约400次，ip被封禁# 不sleep，请求约200次，ip被封禁time.sleep(1)def get_response(city_name, l1, l2):headers = {'User-Agent': 'PRO 6 Plus_5.1.1_weibo_9.9.3_weibolite'}# 同城热搜最简接口base_url = 'https://api.weibo.cn/2/page?extparam=pos=0_0&lon={}&lat={}&c=weibolite&s=bbbbbbbb&from=3799395010&gsid=_2A25yRxAdDeRxGeBO6lYS9CzEyj6IHXVvVSTVrDV6PUJbkdANLVbAkWpNSiLhtqAmtyzao5wyTR0CInrjrcWA35NC&containerid=106003type=25&t=3&disable_hot=1&filter_type=region'url = base_url.format(l1, l2)resp = requests.get(url, headers=headers)resp = resp.text# 获取失败会返回404页面，但是状态码和响应都正常，所以程序不会报异常# 判断响应内容长度，强制执行退出if len(resp) < 10:print('error')print(resp)print('----')exit()title = re.findall('"desc"', resp)# print(url)print(city_name, len(title))def exit():sys.exit()if __name__ == '__main__':while True:try:# 333个城市访问完需要时间约为7分40秒start_time = int(time.time())get_ll()end_time = int(time.time())print('时间：', str((end_time - start_time) / 60 ))except Exception as e:print(e)break

微博同城热搜抓取逻辑（333城市）相关推荐

基于python的微博热搜爬取及数据分析
刚学python爬虫,用爬虫爬取新浪微博热搜,看看效果如何,也是对这段时间学习python的总结. 一.目的: 抓取新浪微博2020年1月3日星期五的热搜榜,将抓取到的数据进行动态展示,并生成当天的微 ...
python热搜排行功能_简单几行代码用Python爬取微博的热搜榜
简单几行代码用Python爬取微博的热搜榜想要实时的看微博热搜但是又不想去微博网站看!怎么办呢?其实很简单! 我们学了这个requests_html 这个库之后就更加的简单了! 小编只用了短短的 ...
爬取微博实时热搜数据可视化分析
文章目录爬取微博实时热搜数据可视化分析一.爬取数据 1.1 Spider主要函数 1.2 根据微博一分钟更新一次的状态进行爬虫二.可视化 2.1 利用轮播图加柱状图进行可视化爬取微博实时热搜数 ...
爬虫获取微博首页热搜
爬虫获取微博首页热搜步骤: 打开微博首页 https://s.weibo.com/top/summary? 右键点击检查,分析静态网页将爬取到的内容保存为csv文件格式需要导入的库 import ...
用selenium实现对微博搜索数据的抓取
http://computational-communication.com/post/bian-cheng-gong-ju/2014-06-25-searching-weibo-with-se ...
微博带cookie访问抓取热搜
# -*- coding: utf-8 -*- ''' @author: Yalei Meng E-mail: yaleimeng@sina.com @license: (C) Copyright 2 ...
php获取微博热搜,爬取微博热搜top50(示例代码)
一.主题式网络爬虫设计方案(15分) 1.主题式网络爬虫名称:爬取微博热搜top50 2.主题式网络爬虫的内容与数据特征分析:排名关键词点击量 3.主题式网络爬虫设计方案概述: 先分析页面对比源 ...
python 爬取微博实时热搜，并存入数据库实例
刚学python没几天,打算用paython爬去微博热搜数据试验一下,但是发现微博热搜是动态数据,网页源码并不能直接获取想要的数据,network里也并不能找到相关内容,这时重新查看网页源码,发现有类 ...
利用cookies+requests包登陆微博，使用xpath抓取目标用户的用户信息、微博以及对应评论...
本文目的:介绍如何抓取微博内容,利用requests包+cookies实现登陆微博,lxml包的xpath语法解析网页,抓取目标内容. 所需python包:requests.lxml 皆使用pip安装 ...

微博同城热搜抓取逻辑（333城市）

微博同城热搜抓取逻辑（333城市）相关推荐

最新文章

热门文章