python爬虫知乎问答

import cookielib

import base64

import re

import hashlib

import json

import rsa

import binascii

import urllib2

import urllib

import sys

from lxml import etree

#coding:utf-8

def get_username(username):

username=urllib.quote(username)

username=base64.encodestring(username)[:-1]

return username

def get_passwd(servertime,nonce,password):

rsa_e=65537

public_key='EB2A38568661887FA180BDDB5CABD5F21C7BFD59C090CB2D245A87AC253062882729293E5506350508E7F9AA3BB77F4333231490F915F6D63C55FE2F08A49B353F444AD3993CACC02DB784ABBB8E42A9B1BBFFFB38BE18D78E87A0E41B9B8F73A928EE0CCEE1F6739884B9777E4FE9E88A1BBE495927AC4A799B3181D6442443'

encry_string=str(servertime)+'\t'+str(nonce)+'\n'+password

key=rsa.PublicKey(int(public_key,16),rsa_e)

encropy_pwd = rsa.encrypt(encry_string, key)

return binascii.b2a_hex(encropy_pwd)

def get_prelogin_args(pre_login):

prelogin_page=urllib2.urlopen(pre_login).read()

p=re.compile('\((.*?)\)')

json_data=p.search(prelogin_page).group(1)

data=json.loads(json_data)

servertime=data['servertime']

nonce=data['nonce']

return servertime,nonce

def do_login(login_url):

postdata={

'encoding':'UTF-8',

'entry':'weibo',

'from':'',

'gateway':'1',

'nonce':'',

'pagerefer':'http://login.sina.com.cn/sso/logout.php?entry=miniblog&r=http%3A%2F%2Fweibo.com%2Flogout.php%3Fbackurl%3D%252F',

'prelt':'45',

'pwencode':'rsa2',

'returntype':'META',

'rsakv':'1330428213',

'savestate':'7',

'servertime':'',

'service':'miniblog',

'sp':'',

'sr':'1366*768',

'su':'',

'url':'http://weibo.com/ajaxlogin.php?framelogin=1&callback=parent.sinaSSOController.feedBackUrlCallBack',

'useticket':'1',

'vsnf':'1'

}

username='644202562@qq.com'

passwd='18956480156jf'

pre_login='http://login.sina.com.cn/sso/prelogin.php?entry=weibo&callback=sinaSSOController.preloginCallBack&su=NjQ0MjAyNTYyJTQwcXEuY29tJTVD&rsakt=mod&checkpin=1&client=ssologin.js(v1.4.18)&_=1467687741384'

servertime,nonce=get_prelogin_args(pre_login)

postdata['servertime']=servertime

postdata['nonce']=nonce

su=get_username(username)

sp=get_passwd(servertime,nonce,passwd)

postdata['su']=su

postdata['sp']=sp

postdata=urllib.urlencode(postdata)

cookie_jar=cookielib.LWPCookieJar()

cookie_support=urllib2.HTTPCookieProcessor(cookie_jar)

opener2=urllib2.build_opener(cookie_support,urllib2.HTTPHandler)

urllib2.install_opener(opener2)

http_headers={'User-Agent': 'Mozilla/5.0 (X11; Linux i686; rv:8.0) Gecko/20100101 Firefox/8.0'}

req=urllib2.Request(login_url,data=postdata,headers=http_headers)

response=urllib2.urlopen(req)

test=response.read()

p1=re.compile('location\.replace\(\'(.*?)\'\)')

p2=re.compile('feedBackUrlCallBack\((.*?)\)')

url=p1.search(test).group(1)

login_page=urllib2.urlopen(url).read()

info=p2.search(login_page).group(1)

js_data=json.loads(info)

userinfo=js_data['userinfo']

final_login='http://weibo.com/' +userinfo['userdomain']

page=urllib2.urlopen(final_login).read()

type= sys.getfilesystemencoding()

content= page.decode("UTF-8").encode(type)

print 'Login Success!

return opener2,final_login

def get_fans(opener,final_login):

print final_login

page=opener.open(final_login).read()

type= sys.getfilesystemencoding()

content= page.decode("UTF-8").encode(type)

page=etree.HTML(page.lower().decode('utf-8','ignore'))

items=page.xpath('body/div[@class=\"WB_text W_f14\"][@node-type=\"feed_list_content\"]')

print items

#

#

#

if __name__ == '__main__':

opener,final_ulr=do_login("http://login.sina.com.cn/sso/login.php?client=ssologin.js(v1.4.18)")

get_fans(opener,final_ulr)

p1=re.compile('')

img_url=p1.search(page).group(1)

p2=re.compile('')

img_id=p2.search(page).group(1)

post_data['captcha-id']=img_id

post_datda['captcha-solution']=img_id

http://www.hiry.cn

python爬知乎问题_python爬虫知乎问答相关推荐

  1. python爬虫知乎代码_python爬虫知乎的简单代码实现

    随着时代的发展,我们很依赖网络帮助我们解决问题,遇到什么问题就会先百度.除了百度,现在大多数人还会选择通过知乎来解决问题.知乎类似于一个论坛,讨论度比百度高一些,那你知道如何用python爬虫爬知乎网 ...

  2. python爬取收费素材_Python爬虫练习:爬取素材网站数据

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 在工作中的电子文案.ppt,生活中的新闻.广告,都离不开大量的素材,而素材 ...

  3. python爬取cctalk视频_python爬虫urllib使用和进阶 | Python爬虫实战二

    python爬虫urllib使用和进阶 上节课已经介绍了爬虫的基本概念和基础内容,接下来就要开始内容的爬取了. 其实爬虫就是浏览器,只不过它是一个特殊的浏览器.爬取网页就是通过HTTP协议访问相应的网 ...

  4. python爬取豆瓣小组_Python 爬虫实例+爬取豆瓣小组 + wordcloud 制作词云图

    目标 利用PYTHON爬取如下图中所有回答的内容,并且制作词云图. 用到的库 import requests # import json from PIL import Image from pyqu ...

  5. python爬取控制台信息_python爬虫实战之爬取智联职位信息和博客文章信息

    1.python爬取招聘信息 简单爬取智联招聘职位信息 # !/usr/bin/env python # -*-coding:utf-8-*- """ @Author  ...

  6. 利用python爬取豆瓣音乐_python爬虫之豆瓣音乐top250

    回家很久了,实在熬不住,想起来爬点数据玩一玩,之前自己笔记本是win7加ubuntu16.04双系统,本打算在ubuntu里写代码的,可是回到家ubuntu打开一直是紫屏,百度知乎方法用了也没解决,厉 ...

  7. python爬取多页_Python 爬虫 2 爬取多页网页

    本文内容: Requests.get 爬取多个页码的网页 例:爬取极客学院课程列表 爬虫步骤 打开目标网页,先查看网页源代码 get网页源码 找到想要的内容,找到规律,用正则表达式匹配,存储结果 Re ...

  8. python爬取新闻网站内容_python爬虫案例:抓取网易新闻

    此文属于入门级级别的爬虫,老司机们就不用看了. 本次主要是爬取网易新闻,包括新闻标题.作者.来源.发布时间.新闻正文. 首先我们打开163的网站,我们随意选择一个分类,这里我选的分类是国内新闻.然后鼠 ...

  9. python爬视频网站数据_python爬虫基础应用----爬取无反爬视频网站

    一.爬虫简单介绍 爬虫是什么? 爬虫是首先使用模拟浏览器访问网站获取数据,然后通过解析过滤获得有价值的信息,最后保存到到自己库中的程序. 爬虫程序包括哪些模块? python中的爬虫程序主要包括,re ...

最新文章

  1. 2.1 mac下多版本jdk的安装和管理
  2. 设计模式之外观模式学习笔记
  3. 不能启动的问题 社区版安装后_CentOS7下安装docker(亲测+完整)
  4. 美国已批准马斯克的SpaceX发射1.2万颗卫星 以打造一个天基互联网
  5. Echarts自定义折线图例,增加选中功能
  6. android 实现自定义卫星菜单
  7. php 添加 redis 扩展模块
  8. Android集成三方浏览器之X5内核,从入门到精通
  9. Tomcat运行原理
  10. Java 学生管理系统 GUI txt文件存储
  11. Spring Boot + Vue 开发的物流管理系统,附源码
  12. 清明祭娭毑_原水_新浪博客
  13. 可以测试电脑网络速度的软件,介绍4种有用的Internet Speed软件应用程序,用于测试网络速度软件...
  14. IP地址冲突的原因及其解决方法
  15. 简化函数调用之五 :Parameterize Method(令函数携带参数)
  16. CodeForces Round #554 Div.2
  17. Kotlin入门:中?和!!的区别
  18. Android指定物理按键唤醒屏幕
  19. 100种活动促销方案
  20. yoyo跑_全力冲刺 目标YOYO(图)

热门文章

  1. Python之pandas:特征工程中数据类型(object/category/bool/int32/int64/float64)的简介、数据类型转换四大方法、案例应用之详细攻略
  2. html-边框不允许拖拽,如何控制 textarea 的边框只能左右拖动、上下拖动或不能拖动...
  3. 下 终端_新零售场景下显示终端市场规模超300亿,助面板市场复苏
  4. 【ROS小车7】_ROS主控与STM32主控通信的设置方法
  5. 回眸2021 | 华创芯光大事记
  6. 人工智能用python还是java_随着5G和人工智能的发展,Python会取代Java吗?
  7. 特斯拉大裁员,苹果赢麻了?维基百科:我的每一条引用都AI过;面向工业落地的目标检测框架;我的『粗野主义』操作系统;MLOps概览 | ShowMeAI资讯日报
  8. 机器学习-Pandas
  9. 福尔摩斯探案集(上)第三章 疑案
  10. 老鱼Python数据分析——篇二:系统设计(找代理IP)