pyhton微博爬虫(2)——获取微博用户关注列表
本文的主要目标是获取微博用户关注列表以及关注列表中各微博用户的ID、昵称、详情链接、粉丝数、关注数等关键信息。
实现代码如下所示:
# -*- coding: utf-8 -*-
"""
Created on Thu Aug 3 20:59:53 2017@author: Administrator
"""import requests
import json
import time
import random
import pymysql.cursorsdef crawlDetailPage(url,page):#读取微博网页的JSON信息req = requests.get(url)jsondata = req.textdata = json.loads(jsondata)#获取每一条页的数据content = data['cards']#print(content)#循环输出每一页的关注者各项信息for i in content:followingId = i['user']['id']followingName = i['user']['screen_name']followingUrl = i['user']['profile_url']followersCount = i['user']['followers_count']followCount = i['user']['follow_count']print("---------------------------------")print("用户ID为:{}".format(followingId))print("用户昵称为:{}".format(followingName))print("用户详情链接为:{}".format(followingUrl))print("用户粉丝数:{}".format(followersCount))print("用户关注数:{}".format(followCount))'''数据库操作'''#获取数据库链接connection = pymysql.connect(host = 'localhost',user = 'root',password = '123456',db = 'weibo',charset = 'utf8mb4')try:#获取会话指针with connection.cursor() as cursor:#创建sql语句sql = "insert into `following` (`followingId`,`followingName`,`followingUrl`,`followersCount`,`followCount`) values (%s,%s,%s,%s,%s)"#执行sql语句cursor.execute(sql,(followingId,followingName,followingUrl,followersCount,followCount))#提交数据库connection.commit()finally:connection.close()for i in range(1,11):print("正在获取第{}页的关注列表:".format(i))#微博用户关注列表JSON链接url = "https://m.weibo.cn/api/container/getSecond?containerid=1005052164843961_-_FOLLOWERS&page=" + str(i)crawlDetailPage(url,i)#设置休眠时间t = random.randint(31,33)print("休眠时间为:{}s".format(t))time.sleep(t)
运行结果如下图所示:
mysql数据库中的数据存储如下图所示:
pyhton微博爬虫(2)——获取微博用户关注列表相关推荐
- python爬取微博用户关注列表_GitHub - dataabc/weibo-follow: 爬取关注列表中微博账号的微博...
爬取一个或多个指定微博用户关注列表中的微博账号,批量获取其user_id,并写入user_id_list.txt文件. 程序支持读文件,一个用户最多可以获取200个user_id,写入user_id_ ...
- 用java代码实现获取微信公众号用户关注列表
获取微信公众号用户关注列表 通用工具类:CommonUtil package com.weixin.util;import java.io.BufferedReader; import java.io ...
- python微博爬虫代码_python 微博爬虫 示例源码(lxml)
[实例简介]需要创建 D:/weibo/weibo_crawl.txt 文件,然后运行该示例即可 [实例截图] [核心代码] # -*- coding:utf-8 -*- ''' Created on ...
- 学习笔记-spring-mybatis-jsoup-http-client小说站点爬虫(1)--获取小说站点章节列表
获取小说站点章节列表 第一次写博客,写得不好请见谅 目的是让自己印象更加深刻,锻炼自己表达能力,同时可以和大家一起交流学习,大神勿喷! 本次学习教程来自吾爱破解小说站点爬虫-spring-mybati ...
- php 获取微博cookie,如何获取微博 Cookie
Cookie 是非常重要的东西,切勿将其发给陌生人. 如果发现可能被泄漏,请立即退出一切登录设备,或者修改你的账号密码. 非常不推荐用 Internet Explorer : 因为IE在Windows ...
- 招商银行fintech选拔课题---《基于微博爬虫的舆情分析》上
最近参加了招商银行总行的fintench精英技术训练营的选拔赛,在通过笔试后,进入了课题研究的环节.因为前段时间学习了一段时间Python,所以选择了<基于微博爬虫的舆情分析>这一课题.该 ...
- python刷微博关注_python获取指定微博用户的关注列表
发现新浪提供的python SDK中存在问题,导致无法获取用户所有的关注列表,只能获取前20个. 首先,看看SDK中获取关注列表的函数: Statuses/friends 获取用户关注列表及每个关注用 ...
- 爬虫实战3—微博的抓取
文章说明:本文是在学习一个网络爬虫课程时所做笔记,文章如有不对的地方,欢迎指出,积极讨论 针对动态页面抓取的两个思路 1.营造一个浏览器的环境,让它去运行js文件(PhantomJS+Selenium ...
- 「Python爬虫系列讲解」十一、基于登录分析的 Selenium 微博爬虫
本专栏是以杨秀璋老师爬虫著作<Python网络数据爬取及分析「从入门到精通」>为主线.个人学习理解为主要内容,以学习笔记形式编写的. 本专栏不光是自己的一个学习分享,也希望能给您普及一些关 ...
最新文章
- SQL Server孤立账户解决办法
- TypeError: __init__() got an unexpected keyword argument ‘ratio‘
- HTML5中关于wheel事件兼容性处理
- JS验证控制输入中英文字节长度(input、textarea等)
- 迅雷(XUNLEI)的工作原理揭密(续)---突出重围
- 12家股份银行当中,哪个盈利能力和口碑是最好的?
- golang的new函数_new()和make()函数以及Golang中的示例
- 【Elasticsearch】推荐一个同步Mysql数据到Elasticsearch的工具
- Java编程思想 (1~10)
- 类的声明、成员的访问控制和对象
- 摩托罗拉里程碑升级Android 2.2刷机知识
- java day04【 Idea、方法】
- 当规模到亿级,MySQL是一个更好的NoSQL!
- atlas对webpart的增强
- 有什么可以测试耳机性能的软件吗,什么是耳机音质测试软件?
- 奇妙的数字-2015省赛C语言A组第三题
- 输入输入是否为回文(如“abcba”和”123321”都是回文)。(c语言)
- win凭据添加计算机名,手动添加Windows凭据,彻底解决Win7系统打印共享-win7添加打印机...
- 跨时钟域问题(二)(单bit信号跨时钟域 1. 电平同步器 2. 边沿同步器 3. 脉冲检测器)
- 如何下载Windows和office官方镜像安装包,及安装激活详细步骤