python爬取知乎话题的精华问题下的用户信息

今天试着用自己的爬虫代码爬取了知乎【同性恋】话题下的所有精华问题的用户位置信息
代码：

__author__ = 'yang'
# -*- coding: utf-8 -*-import configparser
import requests
import time
import re
import stringdef curTime():curTime = time.strftime('%Y-%m-%d %H:%M:%S')timeStr = '\n<!--'+curTime+'-->'return timeStrdef loginInfo(): #获取用户名，密码filename = 'test.ini' #test.ini中有知乎账号、密码及浏览器cookiesconfig = configparser.ConfigParser()config.read(filename)cookies = config.items('COOKIES')cookies = dict(cookies)username = config.get("USER","username")password = config.get("USER","password")#print usernamereturn username,password,cookiesdef create_session():username, password, cookies = loginInfo()session = requests.session()login_data = {'email':username, 'password':password}header = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/43.0.2357.124 Safari/537.36','Host': 'www.zhihu.com','Referer': 'http://www.zhihu.com/'}r = session.post('http://www.zhihu.com/login/email', data=login_data, headers=header)if r.json()['r'] == 1:print 'Login Failed, reason is:',for m in r.json()['data']:print r.json()['data'][m]print 'Use cookies to login...'has_cookies = Falsefor key in cookies:if key != '__name__' and cookies[key] != '':has_cookies = Truebreakif has_cookies is False:raise ValueError('请填写config.ini文件中的cookies项')else:r = session.get('http://www.zhihu.com/login/email', cookies=cookies)with open('login.html', 'w') as fp:fp.write(r.content)return session, cookiesdef writeFile(name,content):with open(name,'w') as fp:fp.write(content)if __name__ == '__main__':requests_session, requests_cookies = create_session()with open('tong.html','w') as fp:fp.write(curTime())for page in range(0,49):url = 'https://www.zhihu.com/topic/19552984/top-answers?'+str(page)content = requests_session.get(url, cookies=requests_cookies).contentf = file('tong.html', 'a+')f.write(content)#f = file('url.html', 'a+')#f.write(curTime())#匹配问题连接字符串str = re.compile(r'<a class="question_link.*?href="(.*?)">')with open('url.html') as file:content = file.read()questionLinks = str.findall(content)print (questionLinks)with open('resultLink.html','w') as fp:fp.write('\n'.join(questionLinks))with open('resultLink.html') as fp:questionLinks = fp.readlines()#获取用户链接usrRegex = re.compile(r'<a class="author-link.*?href="(.*?)">')for link in questionLinks:num = link.strip()url = 'https://www.zhihu.com'+str(num)page = requests_session.get(url,cookies=requests_cookies).content #获取页面内容#过滤用户链接usrLinks = usrRegex.findall(page)f = file('usrLinks.html','a+')f.write('\n'.join(usrLinks))with open('usrLinks.html') as fp:ls = fp.readlines()links = []for link in ls:links.append(link.strip())#print len(links)links = list(set(links))#print len(links)#获取用户个人页面locationRegex = re.compile(r'<span class="location item.*?title="(.*?)"')locations = []for link in links:url = 'https://www.zhihu.com'+str(link)page = requests_session.get(url, cookies=requests_cookies).content#获取位置信息#locations.append(locationRegex.findall(page))location = locationRegex.findall(page)+'\n'if (location):f = file('locations.html','a+')f.write('\n'.join(location))

python爬取知乎话题的精华问题下的用户信息相关推荐

python爬取知乎话题广场_知乎一共有多少个话题？
上图可知,它是通过请求POST接口来取得知乎话题数据,接口信息: 其中topic_id指大分类下的id,offset是指偏移量,指每次执行next方法加载的子话题数量,hash_id可以为空我们暂时忽 ...
python爬取知乎话题广场_用于爬取知乎某个话题下的精华问题中所有回答的爬虫...
思路我的整个算法的思路还是很简单的,文字版步骤如下: 1.通过话题广场进入某个话题的页面,避免了登陆注册页面的验证,查找到对应要爬取的话题,从 url 中得到话题id 2.该页面的所有资源采用了延迟 ...
python爬取知乎话题_python爬取知乎话题图片
前言什么是网络爬虫(也叫网络蜘蛛)?简单来说,是一种用来自动浏览万维网程序或脚本(网络爬虫的典型应用就是我们所熟知的搜索引擎).既然如此,那么我们也可以写一个程序,用来自动浏览或者获取网页上的信息. ...
python爬取知乎话题：你见过最搞笑的视频有哪些？下的所有视频
①打开知乎话题 https://www.zhihu.com/question/21086211 ②打开开发者工具,构造Request url,和上次的爬取照片思路一样(https://blog.csd ...
python爬取知乎话题：日常穿jk制服是怎样一种体验？下的所有图片
''' 第一次尝试python爬取图片,请多指正回答者的答案单独存放一个文件夹 ''' from urllib import request import math import requests ...
python爬取知乎话题广场_学习python爬虫---爬虫实践：爬取B站排行榜2（爬取全部分类排行榜、利用pygal库作图）...
前面我们爬取了B站上全站的排行榜,详细见:魏勇:学习python爬虫---爬虫实践:爬取B站排行榜zhuanlan.zhihu.com 一.爬取全部分类排行榜我们观察一下B站排行榜,那里还有番剧排 ...
python爬虫实战（一）--爬取知乎话题图片
原文链接python爬虫实战(一)–爬取知乎话题图片前言在学习了python基础之后,该尝试用python做一些有趣的事情了–爬虫. 知识准备: 1.python基础知识 2.urllib库使用 ...
如何用python爬取数据_如何使用python爬取知乎数据并做简单分析
原标题:如何使用python爬取知乎数据并做简单分析一.使用的技术栈: 爬虫:python27 +requests+json+bs4+time 分析工具: ELK套件开发工具:pycharm 数据 ...
python爬取知乎热榜了解时事
python爬取知乎热榜了解时事需求知乎热榜是我们了解时事的一个重要途径,但是如果我们每天没有那么多时间来刷知乎,但是还是想要了解知乎热榜的话,我们该怎么办呢?在这里,我想到了通过知乎爬虫的手 ...

python爬取知乎话题的精华问题下的用户信息

python爬取知乎话题的精华问题下的用户信息相关推荐

最新文章

热门文章