python爬知乎问题_python爬虫知乎问答

python爬虫知乎问答

import cookielib

import base64

import re

import hashlib

import json

import rsa

import binascii

import urllib2

import urllib

import sys

from lxml import etree

#coding:utf-8

def get_username(username):

username=urllib.quote(username)

username=base64.encodestring(username)[:-1]

return username

def get_passwd(servertime,nonce,password):

rsa_e=65537

public_key='EB2A38568661887FA180BDDB5CABD5F21C7BFD59C090CB2D245A87AC253062882729293E5506350508E7F9AA3BB77F4333231490F915F6D63C55FE2F08A49B353F444AD3993CACC02DB784ABBB8E42A9B1BBFFFB38BE18D78E87A0E41B9B8F73A928EE0CCEE1F6739884B9777E4FE9E88A1BBE495927AC4A799B3181D6442443'

encry_string=str(servertime)+'\t'+str(nonce)+'\n'+password

key=rsa.PublicKey(int(public_key,16),rsa_e)

encropy_pwd = rsa.encrypt(encry_string, key)

return binascii.b2a_hex(encropy_pwd)

def get_prelogin_args(pre_login):

prelogin_page=urllib2.urlopen(pre_login).read()

p=re.compile('\((.*?)\)')

json_data=p.search(prelogin_page).group(1)

data=json.loads(json_data)

servertime=data['servertime']

nonce=data['nonce']

return servertime,nonce

def do_login(login_url):

postdata={

'encoding':'UTF-8',

'entry':'weibo',

'from':'',

'gateway':'1',

'nonce':'',

'pagerefer':'http://login.sina.com.cn/sso/logout.php?entry=miniblog&r=http%3A%2F%2Fweibo.com%2Flogout.php%3Fbackurl%3D%252F',

'prelt':'45',

'pwencode':'rsa2',

'returntype':'META',

'rsakv':'1330428213',

'savestate':'7',

'servertime':'',

'service':'miniblog',

'sp':'',

'sr':'1366*768',

'su':'',

'url':'http://weibo.com/ajaxlogin.php?framelogin=1&callback=parent.sinaSSOController.feedBackUrlCallBack',

'useticket':'1',

'vsnf':'1'

}

username='644202562@qq.com'

passwd='18956480156jf'

pre_login='http://login.sina.com.cn/sso/prelogin.php?entry=weibo&callback=sinaSSOController.preloginCallBack&su=NjQ0MjAyNTYyJTQwcXEuY29tJTVD&rsakt=mod&checkpin=1&client=ssologin.js(v1.4.18)&_=1467687741384'

servertime,nonce=get_prelogin_args(pre_login)

postdata['servertime']=servertime

postdata['nonce']=nonce

su=get_username(username)

sp=get_passwd(servertime,nonce,passwd)

postdata['su']=su

postdata['sp']=sp

postdata=urllib.urlencode(postdata)

cookie_jar=cookielib.LWPCookieJar()

cookie_support=urllib2.HTTPCookieProcessor(cookie_jar)

opener2=urllib2.build_opener(cookie_support,urllib2.HTTPHandler)

urllib2.install_opener(opener2)

http_headers={'User-Agent': 'Mozilla/5.0 (X11; Linux i686; rv:8.0) Gecko/20100101 Firefox/8.0'}

req=urllib2.Request(login_url,data=postdata,headers=http_headers)

response=urllib2.urlopen(req)

test=response.read()

p1=re.compile('location\.replace\(\'(.*?)\'\)')

p2=re.compile('feedBackUrlCallBack\((.*?)\)')

url=p1.search(test).group(1)

login_page=urllib2.urlopen(url).read()

info=p2.search(login_page).group(1)

js_data=json.loads(info)

userinfo=js_data['userinfo']

final_login='http://weibo.com/' +userinfo['userdomain']

page=urllib2.urlopen(final_login).read()

type= sys.getfilesystemencoding()

content= page.decode("UTF-8").encode(type)

print 'Login Success!

return opener2,final_login

def get_fans(opener,final_login):

print final_login

page=opener.open(final_login).read()

type= sys.getfilesystemencoding()

content= page.decode("UTF-8").encode(type)

page=etree.HTML(page.lower().decode('utf-8','ignore'))

items=page.xpath('body/div[@class=\"WB_text W_f14\"][@node-type=\"feed_list_content\"]')

print items

if __name__ == '__main__':

opener,final_ulr=do_login("http://login.sina.com.cn/sso/login.php?client=ssologin.js(v1.4.18)")

get_fans(opener,final_ulr)

p1=re.compile('')

img_url=p1.search(page).group(1)

p2=re.compile('')

img_id=p2.search(page).group(1)

post_data['captcha-id']=img_id

post_datda['captcha-solution']=img_id

http://www.hiry.cn

python爬知乎问题_python爬虫知乎问答相关推荐

python爬虫知乎代码_python爬虫知乎的简单代码实现
随着时代的发展,我们很依赖网络帮助我们解决问题,遇到什么问题就会先百度.除了百度,现在大多数人还会选择通过知乎来解决问题.知乎类似于一个论坛,讨论度比百度高一些,那你知道如何用python爬虫爬知乎网 ...
python爬取收费素材_Python爬虫练习：爬取素材网站数据
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 在工作中的电子文案.ppt,生活中的新闻.广告,都离不开大量的素材,而素材 ...
python爬取cctalk视频_python爬虫urllib使用和进阶 | Python爬虫实战二
python爬虫urllib使用和进阶上节课已经介绍了爬虫的基本概念和基础内容,接下来就要开始内容的爬取了. 其实爬虫就是浏览器,只不过它是一个特殊的浏览器.爬取网页就是通过HTTP协议访问相应的网 ...
python爬取豆瓣小组_Python 爬虫实例+爬取豆瓣小组 + wordcloud 制作词云图
目标利用PYTHON爬取如下图中所有回答的内容,并且制作词云图. 用到的库 import requests # import json from PIL import Image from pyqu ...
python爬取控制台信息_python爬虫实战之爬取智联职位信息和博客文章信息
1.python爬取招聘信息简单爬取智联招聘职位信息 # !/usr/bin/env python # -*-coding:utf-8-*- """ @Author ...
利用python爬取豆瓣音乐_python爬虫之豆瓣音乐top250
回家很久了,实在熬不住,想起来爬点数据玩一玩,之前自己笔记本是win7加ubuntu16.04双系统,本打算在ubuntu里写代码的,可是回到家ubuntu打开一直是紫屏,百度知乎方法用了也没解决,厉 ...
python爬取多页_Python 爬虫 2 爬取多页网页
本文内容: Requests.get 爬取多个页码的网页例:爬取极客学院课程列表爬虫步骤打开目标网页,先查看网页源代码 get网页源码找到想要的内容,找到规律,用正则表达式匹配,存储结果 Re ...
python爬取新闻网站内容_python爬虫案例：抓取网易新闻
此文属于入门级级别的爬虫,老司机们就不用看了. 本次主要是爬取网易新闻,包括新闻标题.作者.来源.发布时间.新闻正文. 首先我们打开163的网站,我们随意选择一个分类,这里我选的分类是国内新闻.然后鼠 ...
python爬视频网站数据_python爬虫基础应用----爬取无反爬视频网站
一.爬虫简单介绍爬虫是什么? 爬虫是首先使用模拟浏览器访问网站获取数据,然后通过解析过滤获得有价值的信息,最后保存到到自己库中的程序. 爬虫程序包括哪些模块? python中的爬虫程序主要包括,re ...

python爬知乎问题_python爬虫知乎问答

python爬知乎问题_python爬虫知乎问答相关推荐

最新文章

热门文章