python用BeautifulSoup抓取知乎小药丸
环境:python2.7+BeautifulSoup的库,如果安装了pip,就直接pip install BeautifulSoup就ok。
直接上代码吧。
# -*- coding: utf-8 -*-
import urllib2
from BeautifulSoup import BeautifulSoup
f = open('Answer.txt','w')
for pagenum in range(1,21): strpagenum = str(pagenum) print "Getting data for Page " + strpagenum url = "http://www.zhihu.com/collection/27109279?page="+strpagenum page = urllib2.urlopen(url) soup = BeautifulSoup(page) ALL = soup.findAll(attrs = {'class' : ['zm-item-title','zh-summary summary clearfix'] })for each in ALL : if each.name == 'h2' : print each.a.string if each.a.string: f.write(each.a.string.encode('utf-8'))else : f.write("No Answer")else : print each.stringif each.string: f.write(each.string.encode('utf-8'))else :f.write("No Answer")
f.close()
python用BeautifulSoup抓取知乎小药丸相关推荐
- 【实例】python 使用beautifulSoup 抓取网页正文 以淘宝商品价格为例
参考文章: 利用BeautifulSoup抓取新浪网页新闻的内容 使用Requests库和BeautifulSoup库来爬取网页上需要的文字与图片 -------------------------- ...
- python学习-抓取知乎图片
python学习-抓取知乎图片 #!/bin/usr/env python3__author__ = 'nxz'""" 抓取知乎图片 webdriver Chromedr ...
- Scrapy Python爬虫实战:抓取知乎问题下所有回答!
今天趁摸鱼的时候玩了会知乎,突然看到一个非常有意思的话题 单身狗不知道还能干什么,所以特地把这些数据都抓下来,看看不除了第二杯半价还能干什么? 创建scrapy项目 前面教程概念讲的我嘴都麻了,估计大 ...
- python 抓取知乎
刚入门python,本着就是干的原则,从小项目开始. 今天在抓取网页的时候遇到了问题. import urllib.requesturl="http://www.fafu.edu.cn&qu ...
- Python爬虫实战一:抓取知乎问题下所有回答
代码是最近(2021.09)新写的~ 需求 任务需求:抓取知乎问题下所有回答,包括其作者.作者粉丝数.回答内容.时间.回答的评论数.回答赞同数以及该回答的链接. 分析 以最近比较引人关注的" ...
- Python爬虫实战,requests模块,Python实现抓取知乎热点话题
前言 利用Python实现抓取知乎热点话题,废话不多说. 让我们愉快地开始吧~ 开发工具 Python版本: 3.6.4 相关模块: requests模块: re模块: pandas模块: lxml模 ...
- [Python]爬虫02:用Beautifulsoup抓取的网页中有br标签,返回字符串为None,先用replace去除网页中br再抓内容。
问题:用Beautifulsoup抓取网页,网页中含有br标签,抓取相关的内容结果是None. 试了用字符串的replace函数替换br,还是返回None.试了用re正则替换br,提示返回类型错误. ...
- python爬网页数据用什么_初学者如何用“python爬虫”技术抓取网页数据?
原标题:初学者如何用"python爬虫"技术抓取网页数据? 在当今社会,互联网上充斥着许多有用的数据.我们只需要耐心观察并添加一些技术手段即可获得大量有价值的数据.而这里的&quo ...
- python抓取微信朋友圈动态_2018最全如何利用Python网络爬虫抓取微信朋友圈的动态...
今天小编给大家分享一下如何利用Python网络爬虫抓取微信朋友圈的动态信息,实际上如果单独的去爬取朋友圈的话,难度会非常大,因为微信没有提供向网易云音乐这样的API接口,所以很容易找不到门.不过不要慌 ...
最新文章
- saas的计费数据库设计_如何构建和扩展SaaS计费解决方案
- 【 FPGA 】总线实现形式之选择器
- SQL Server中的重要观点
- boost::histogram::axis::transform用法的测试程序
- 设计模式 之 --- GRASP
- 结对作业——四则运算
- undefined reference to `boost::system::generic_category()
- 利用计算机语言进行并行性描述,有没有一种语言可以利用大规模并行计算机?...
- ehcache缓存原理_Mybatis-09-缓存
- 【SpringBoot_ANNOTATIONS】自动装配 03 方法 构造器位置的自动装配
- 用 windows 资源监视器 查看 被占用的文件
- 百度与谷歌地图坐标转换
- 4.8 单元格背景样式的设置 [原创Excel教程]
- 《朗读者》读后感作文3100字
- Nginx正则表达式locationrewrite
- 如何俘获一个 IT 男的心,让他成为男友然后变成老公
- 计算机网络实验三 路由协议的配置
- 打印乘法口诀表(两种方法)
- MVP模式请求网络数据
- HTMLCSS学习笔记(二十五)——HTML5基础补充
热门文章
- 2004年雅典奥运会歌曲《KnockOn Heavens Door》铃声 2004年雅...
- 特性介绍 | PostgreSQL 的依赖约束详解 - 系统表 pg_depend pg_constraint
- ECMA 2019(ES10) 特性
- JQuary页面元素综合操作案例
- MacType你用过么
- 计算机基本网络连接设置 故障排查与处理,电脑无法连接网络?常见故障排除及修复!学起来!...
- 将Rational Software Architect与Rational Team Concert集成
- SpringBoot @Transactional
- “QQ找茬”游戏的识别小软件JAVA源码(netBeams项目)
- 普歌-智音团队-淘宝精品服饰案例