接口需要从移动端拿

安坐模拟器加Fiddler

import re
import sys
import timeimport pymysql
import requests# 获取经纬度
def get_ll():# 经纬度接口url = 'https://m.weibo.cn/api/container/getIndex?uid=1887387237&wm=9006_2001&from=10A8195010&sourcetype=weixin&display=0&retcode=6102&containerid=2306860024'resp = requests.get(url)info = resp.json()['data']['cards']infos = info[3:]for i in infos:p = i['card_type_name']all_citys = i['card_group']for citys in all_citys:citys = citys['group']for city in citys:url = city['scheme']city_name = city['title_sub']s = url.split('_')l1 = s[-2]l2 = s[-1]get_response(city_name, l1, l2)# sleep时间为一秒,ip处于安全状态,不会被封禁# sleep时间在0.5到一秒之间,请求约400次,ip被封禁# 不sleep,请求约200次,ip被封禁time.sleep(1)def get_response(city_name, l1, l2):headers = {'User-Agent': 'PRO 6 Plus_5.1.1_weibo_9.9.3_weibolite'}# 同城热搜最简接口base_url = 'https://api.weibo.cn/2/page?extparam=pos=0_0&lon={}&lat={}&c=weibolite&s=bbbbbbbb&from=3799395010&gsid=_2A25yRxAdDeRxGeBO6lYS9CzEyj6IHXVvVSTVrDV6PUJbkdANLVbAkWpNSiLhtqAmtyzao5wyTR0CInrjrcWA35NC&containerid=106003type=25&t=3&disable_hot=1&filter_type=region'url = base_url.format(l1, l2)resp = requests.get(url, headers=headers)resp = resp.text# 获取失败会返回404页面,但是状态码和响应都正常,所以程序不会报异常# 判断响应内容长度,强制执行退出if len(resp) < 10:print('error')print(resp)print('----')exit()title = re.findall('"desc"', resp)# print(url)print(city_name, len(title))def exit():sys.exit()if __name__ == '__main__':while True:try:# 333个城市访问完需要时间约为7分40秒start_time = int(time.time())get_ll()end_time = int(time.time())print('时间:', str((end_time - start_time) / 60 ))except Exception as e:print(e)break

微博同城热搜抓取逻辑(333城市)相关推荐

  1. 基于python的微博热搜爬取及数据分析

    刚学python爬虫,用爬虫爬取新浪微博热搜,看看效果如何,也是对这段时间学习python的总结. 一.目的: 抓取新浪微博2020年1月3日星期五的热搜榜,将抓取到的数据进行动态展示,并生成当天的微 ...

  2. python热搜排行功能_简单几行代码用Python爬取微博的热搜榜

    简单几行代码用Python爬取微博的热搜榜 想要实时的看微博热搜 但是又不想去微博网站看!怎么办呢?其实很简单! 我们学了这个requests_html 这个库之后 就更加的简单了! 小编只用了短短的 ...

  3. 爬取微博实时热搜数据可视化分析

    文章目录 爬取微博实时热搜数据可视化分析 一.爬取数据 1.1 Spider主要函数 1.2 根据微博一分钟更新一次的状态进行爬虫 二.可视化 2.1 利用轮播图加柱状图进行可视化 爬取微博实时热搜数 ...

  4. 爬虫获取微博首页热搜

    爬虫获取微博首页热搜 步骤: 打开微博首页 https://s.weibo.com/top/summary? 右键点击检查,分析静态网页 将爬取到的内容保存为csv文件格式 需要导入的库 import ...

  5. 用selenium实现对微博搜索数据的抓取

     http://computational-communication.com/post/bian-cheng-gong-ju/2014-06-25-searching-weibo-with-se ...

  6. 微博带cookie访问抓取热搜

    # -*- coding: utf-8 -*- ''' @author: Yalei Meng E-mail: yaleimeng@sina.com @license: (C) Copyright 2 ...

  7. php获取微博热搜,爬取微博热搜top50(示例代码)

    一.主题式网络爬虫设计方案(15分) 1.主题式网络爬虫名称:爬取微博热搜top50 2.主题式网络爬虫的内容与数据特征分析:排名 关键词 点击量 3.主题式网络爬虫设计方案概述: 先分析页面 对比源 ...

  8. python 爬取微博实时热搜,并存入数据库实例

    刚学python没几天,打算用paython爬去微博热搜数据试验一下,但是发现微博热搜是动态数据,网页源码并不能直接获取想要的数据,network里也并不能找到相关内容,这时重新查看网页源码,发现有类 ...

  9. 利用cookies+requests包登陆微博,使用xpath抓取目标用户的用户信息、微博以及对应评论...

    本文目的:介绍如何抓取微博内容,利用requests包+cookies实现登陆微博,lxml包的xpath语法解析网页,抓取目标内容. 所需python包:requests.lxml 皆使用pip安装 ...

最新文章

  1. MPB:邓晔、王尚等-​环境样本中的细菌总量测定—流式细胞法
  2. java获取手机号码归属地_手机号码归属地能否取消?这些热点问题,工信部回复了...
  3. 正经“长生不老药”新进展:口服那种,贝佐斯投资 | 柳叶刀子刊
  4. Kendo Web UI Grid数据绑定,删除,编辑,并把默认英文改成中文
  5. 集合objectjava_collection
  6. rsync配置与报错总结
  7. Win7中修改Chrome浏览器缓存文件目录
  8. 2字节取值范围_5G NR 下行同步SSB(2)—PSS和SSS的用途
  9. 联邦快递认了:转运华为货件到美国,但称是“失误”!
  10. html修改列表内的audio样式,如何修改H5中的audio样式
  11. azkaban的最简版搭建
  12. Climbing Stairs @python
  13. nodejs 做后台的一个完整业务整理
  14. 译: 进化的系统需要进化的系统工程
  15. 2021湖北省普通高考成绩查询果,2021年湖北高考体检时间项目及体检结果查询公布时间...
  16. 干货 | 这是一份详细的用户成长体系总结笔记
  17. JTAG-SWD转接
  18. S3C2440 I2C实现
  19. CentOS中安装与配置Tomcat-7的方法
  20. CTF之懵懂时期系列---后台登录

热门文章

  1. 智慧交通建设如何全国一盘棋?
  2. 营销互动保障 - 捉猫猫在未知中前行
  3. 数据结构--停车管理系统
  4. jQuery Easing 使用方法及其图解
  5. 微信小程序美化方法大集合
  6. 编译Android系统源码推荐的电脑配置
  7. 牛鞭效应及其在ERP系统中的应用
  8. 【vue页面数据请求进度条--页面爱心--借助插件实现页面防抖-echarts实现自适应】
  9. 【开发教程2】开源蓝牙智能健康手表-心率血压采集
  10. 物联网毕设分享 RFID门禁防盗报警系统(源码+论文)