python和人工智能爬虫_Python 演示人工智能爬虫 抓取新浪微博数据
时间:2019-04-10
概述:搜索爬虫 人工智能
一个Python 人工智能爬虫演示,本代码演示抓取新浪微博数据,若正在采集新浪微博数据,如需取消请按CTRL+C 退出程序。
#!/usr/bin/python
#download by http://www.codesc.net
import requests
import MySQL
import json
import urllib
import weibobase
import sys
import time
reload(sys)
sys.setdefaultencoding('utf-8')
cookie = {"Apache": "4085444405648.557.1517558859962",
"H5_INDEX": "2",
"H5_INDEX_TITLE": "%E7%A7%8B%E5%86%AC%E6%9A%96%E8%89%B2%E7%B3%BB",
"M_WEIBOCN_PARAMS": "lfid%3D1005052109066367%252Fhome%26luicode%3D20000174%26fid%3D102803%26uicode%3D10000011",
"SCF": "AlPdz7Wu9iu_xwiWfMtd1hBGr6mZqaKtCcidCgPrDl6ocdl8HcIvA5NZpk0cm36a0xrCpnFl0ZgfV-Bc5BUAktQ.",
"SSOLoginState": "1520562809",
"SUB": "_2A253pYIoDeRhGeRP61sR9ijPzTuIHXVVaS5grDV6PUJbktAKLRLQkW1NUFPZQRFUxRYf5itrGk6VqEtGIU3izGDT",
"SUBP": "0033WrSXqPxfM725Ws9jqgMF55529P9D9W5MyLbIiX5quKaqF190KSgT5JpX5K-hUgL.Fozpeh.7Soq0SoM2dJLoIEXLxKMLBKML12zLxK-L1hqLB-eLxKqL1-2L1KqLxKnL1h.LBozLxKMLBoeLB.zt",
"SUHB": "0Elrkzb0Smx-GW",
"WEIBOCN_FROM": "1110006030",
"_T_WM": "46f8072dc2db4752c9f5f1bb610d6934",
"browser": "d2VpYm9mYXhpYW4%3D",
"h5_deviceID": "da4db009e6ae38320111cc4fbc8d1998",
}
cookie2 = {"ALF": "1522043003",
"M_WEIBOCN_PARAMS": "luicode%3D10000011%26lfid%3D102803%26fid%3D102803%26uicode%3D10000011",
"SCF": "AlPdz7Wu9iu_xwiWfMtd1hBGr6mZqaKtCcidCgPrDl6oNht3rRthMvGzFst-DncCt1l6_LYi6h6jCGNO6OtXVDU.",
"SUB": "_2A253lIvWDeRhGeRP61sR9ijPzTuIHXVVdhWerDV6PUJbktANLVTakW1NUFPZQVmJdEJdcebLE3J8mIqAPe4rxEz4",
"SUBP": "0033WrSXqPxfM725Ws9jqgMF55529P9D9W5MyLbIiX5quKaqF190KSgT5JpX5K-hUgL.Fozpeh.7Soq0SoM2dJLoIEXLxKMLBKML12zLxK-L1hqLB-eLxKqL1-2L1KqLxKnL1h.LBozLxKMLBoeLB.zt",
"SUHB": "0pHAjcQEUb1cye",
"WEIBOCN_FROM": "1110006030",
"_T_WM": "46f8072dc2db4752c9f5f1bb610d6934",
"browser": "d2VpYm9mYXhpYW4%3D",
"h5_deviceID": "da4db009e6ae38320111cc4fbc8d1998",
}
headers = {
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
'Accept-Encoding':"gzip, deflate, br",
'Accept-Language': 'zh-CN,zh;q=0.9',
'Cache-Control': 'max-age=0',
'Connection': 'keep-alive',
'Host': 'm.weibo.cn',
'Cookie':'browser=d2VpYm9mYXhpYW4%3D; h5_deviceID=da4db009e6ae38320111cc4fbc8d1998; _T_WM=46f8072dc2db4752c9f5f1bb610d6934; ALF=1523154787; SCF=AlPdz7Wu9iu_xwiWfMtd1hBGr6mZqaKtCcidCgPrDl6ocdl8HcIvA5NZpk0cm36a0xrCpnFl0ZgfV-Bc5BUAktQ.; SUB=_2A253pYIoDeRhGeRP61sR9ijPzTuIHXVVaS5grDV6PUJbktAKLRLQkW1NUFPZQRFUxRYf5itrGk6VqEtGIU3izGDT; SUBP=0033WrSXqPxfM725Ws9jqgMF55529P9D9W5MyLbIiX5quKaqF190KSgT5JpX5K-hUgL.Fozpeh.7Soq0SoM2dJLoIEXLxKMLBKML12zLxK-L1hqLB-eLxKqL1-2L1KqLxKnL1h.LBozLxKMLBoeLB.zt; SUHB=0Elrkzb0Smx-GW; SSOLoginState=1520562809; H5_INDEX=2; H5_INDEX_TITLE=%E7%A7%8B%E5%86%AC%E6%9A%96%E8%89%B2%E7%B3%BB; WEIBOCN_FROM=1110006030; M_WEIBOCN_PARAMS=luicode%3D10000011%26lfid%3D102803%26fid%3D102803%26uicode%3D10000011',
'RA-Sid': 'B781E81A-20150402-024118-ce25e1-ba5345',
'RA-Ver': '3.0.8',
'Upgrade-Insecure-Requests': '1',
'User-Agent': 'Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1'
}
class GetWieBo(object):
alls_num=0;
def __init__(self):
super(GetWieBo, self).__init__()
print u'数据获取中,CTRL+C 退出程序...'
def request(self,num=0):
try:
proxies = {
"http": "http://120.79.223.130:3128",
}
url = 'https://m.weibo.cn/api/container/getIndex?containerid=102803&since_id=%s'%num
json_str = requests.get(url, cookies=cookie).content
json_base = json.loads(json_str)
except :
print "HTTPError--错误%s"
json_base=[]
time.sleep(1000)
print len(json_base["data"]["cards"])
if len(json_base["data"]["cards"])==0:
time.sleep(1000)
for cards in json_base["data"]["cards"]:
user=weibobase.wb_uset
user.avatar_hd=cards["mblog"]["user"].get("avatar_hd")# 用户头像
user.description=cards["mblog"]["user"].get("description")# 用户简介
user.screen_name=cards["mblog"]["user"].get("screen_name") # 用户名字
user.profile_url=cards["mblog"]["user"].get("profile_url") # 用户主页地址
user.followers_count=cards["mblog"]["user"].get("followers_count") # 用户粉丝数量
user.follow_count=cards["mblog"]["user"].get("follow_count") # 用户关注数量
user.id=cards["mblog"]["user"].get("id")# 用户id
mblog = weibobase.wb_mblog
mblog.id=cards["mblog"].get("id")# 微博id
mblog.scheme=cards.get("scheme") # 单条的地址
text=cards["mblog"].get("text") # 内容
mblog.text=text
mblog.created_at=cards["mblog"].get("created_at") # 内容
mblog.attitudes_count=cards["mblog"].get("attitudes_count") # 点赞
mblog.comments_count=cards["mblog"].get("comments_count") # 评论
mblog.reposts_count=cards["mblog"].get("reposts_count") # 转发
mblog.source=cards["mblog"].get("source")# 终端
mblog.obj_ext=cards["mblog"].get("obj_ext")#播放次数
if not cards["mblog"].get("pics"):
print "不是图片/没有图片"
mblog.image_urls = []
else:
mblog.image_urls=[]
for pics in cards["mblog"].get("pics"):
url=""
if not pics["large"]:
url = pics["url"]#缩略图
else:
url = pics["large"]["url"] #大图
mblog.image_urls.append(url)
if not cards["mblog"].get("page_info"):
print "不是视频"
mblog.stream_url = ""
mblog.page_url = ""
else:
if not cards["mblog"]["page_info"].get("media_info"):
print "未获取到视频地址"
mblog.stream_url=""
mblog.page_url=""
else:
mblog.stream_url = cards["mblog"]["page_info"].get("media_info").get("stream_url") # 视频地址
mblog.page_url = cards["mblog"]["page_info"].get("page_url") # 视频播放地址
MySQL.selectUset(user)
MySQL.selectMblog(mblog)
MySQL.db_cloce
python和人工智能爬虫_Python 演示人工智能爬虫 抓取新浪微博数据相关推荐
- Python网络爬虫,pyautogui与pytesseract抓取新浪微博数据,OCR
Python网络爬虫,pyautogui与pytesseract抓取新浪微博数据,OCR方案 用ocr与pyautogui,以及webbrowser实现功能:设计爬虫抓取新浪微博数据,比如,抓取微博用 ...
- iOS—网络实用技术OC篇网络爬虫-使用java语言抓取网络数据
网络爬虫-使用java语言抓取网络数据 前提:熟悉java语法(能看懂就行) 准备阶段:从网页中获取html代码 实战阶段:将对应的html代码使用java语言解析出来,最后保存到plist文件 上一 ...
- 爬虫入门(五)抓取网页数据
前面已经实现了获取整个网页HTML的功能,并且在获取HTML的基础上,加上一些诸如:下载出错自动重试.用户代理.服务器代理.爬取深度.避免重爬.id遍历.链接遍历等进阶功能.而且在处理过程中也初步使用 ...
- python爬虫代码实例源码_python 淘宝爬虫示例源码(抓取天猫数据)
爬取淘宝 天猫网站数据# -*- coding: utf-8 -*- #!/usr/bin/env Python import dateTime import URLparse import sock ...
- python爬取微博评论_python爬虫抓取新浪微博数据
需求分析 微博主页 抓取的内容包括:微博发布的时间,正文(仅提取文字),转发数,评论数,点赞数 抓取的内容 数据是怎么加载的 新浪微博的数据是用ajax异步下拉加载的,在chrome的调试模式下可捕捉 ...
- python爬虫淘宝实例-python 淘宝爬虫示例源码(抓取天猫数据)
[实例简介]爬取淘宝 天猫网站数据 [实例截图] [核心代码] # -*- coding: utf-8 -*- #!/usr/bin/env python import datetime import ...
- 爬虫小计(charles抓取wss数据--yy数据爬取)
背景 爬取一个直播平台的信息与一个普通网站的数据 直播平台的信息有热门主播的在线人数,时常,与热门直播的礼物情况(粉丝的人物画像) 难点 打赏礼物的人物画像 https wss(数据的实时性),需要模 ...
- 测试开发Python培训:抓取新浪微博抓取数据-技术篇
测试开发Python培训:抓取新浪微博抓取数据-技术篇 poptest是国内唯一一家培养测试开发工程师的培训机构,以学员能胜任自动化测试,性能测试,测试工具开发等工作为目标.在poptest的sele ...
- python windows自动化 爬虫_Python体系(网络爬虫、人工智能、WEB开发、自动化运维)详细介绍...
不论你是对Python初出茅庐,还是如指诸掌,这篇文章对你的收获总归还是有的啦,可能只是程度的问题.好了不扯远了,来说正题,下面在分享这套体系前还是要让Python做一下"自我介绍" ...
最新文章
- 在Asp.Net MVC中设定site路径所对应的默认action
- 听完李厂长和雷布斯在乌镇讲AI段子,我突然理解为什么这两个男人选择在一起了
- Linux命令(30):tar命令-归档工具
- iOS架构-c++工程在Mac下编译成.a库并调用(12)
- 如何在Java中创建一个新的List
- hdu 5434(状态压缩+矩阵优化)
- 在C#2.0中使用Nullable可空类型(转帖)
- 从源码分析创建线程池的4种方式
- 基于python的科技论文_实地科研 | 上海财经大学 | 金融科技、商业分析、人工智能:机器学习、人工智能及其在金融科技中的应用(2021.1.25开课)...
- Google退出中国,谁的压力最大?
- RHCE认证培训+考试七天实录(七)
- 利用BP神经网络 设计一个三层神经网络解决手写数字的识别问题
- WIN7Activation激活WIN7教程
- 【工控老马】三菱Q系列PLC调试及三菱触摸屏报警使用说明详解
- java学习篇(一)---从网络下载图片
- HDU-2182 Forg 动态规划DP 题解
- Ubantu18.04环境下编译android源码
- 数图互通高校房产管理模块,公租房管理是怎样对合同、续租,申请审核审批管理的;
- 顾客点餐系统-----后端代码编写(基于SSM)
- DC综合的一些基本概念
热门文章
- WSL安装devkitPro
- leetcode1599. 经营摩天轮的最大利润(Python3、c++)
- 司空见惯 - 2022世界杯
- Web前端 jQuery
- 猴子爬山编程java_小猴子摘桃子問題 -- JAVA 算法學習
- bloody download.php,WordPress DB Backup插件\'download.php\'目录遍历漏洞
- jquery滑入滑出
- Windows 如何打开和编辑.lnk文件
- 正交试验测试用例设计及工具推荐
- 问题解决:pvcreate过程中错误Device /dev/sdb not found (or ignored by filtering)