python爬取网站实例,Python爬取网页简单示例
准备材料
一:使用到的Python第三方库是requests 和 BeautifulSoup
二:选择要爬取的网页
我选择了豆瓣小组里的一个帖子回复(是微博或者微信的签名,个人感觉比较有意思)
地址是:https://www.douban.com/group/topic/80125952/
三:分析网页源代码
打开地址后,右键-查看网页源代码
我们爬取的p标签,class="reply-content"里的内容
14345926-4252580093d33a3b.png
具体的代码如下
import requests
from bs4 import BeautifulSoup
import time
#设置请求header伪装成浏览器
headers = {'user-agent':'Mozilla/5.0 (iPad; CPU OS 11_0 like Mac OS X) AppleWebKit/604.1.34 (KHTML, like Gecko) Version/11.0 Mobile/15A5341f Safari/604.1'}
for i in range(29):
url = 'https://www.douban.com/group/topic/80125952/?start=' + str(i*100)
req = requests.get(url,headers=headers) #获取网页请求
content = req.content #获取到的网页请求的具体内容
soup = BeautifulSoup(content,'lxml') #把获取到的网页请求内容构造成 BeautifulSoup 对象
replycontents = soup.find_all(name='p',attrs={'class':'reply-content'})# 使用 find_all 查找文档树中标签为p,class="reply-content" 的所有内容
try:
for replycontent in replycontents:
text = replycontent.string
print(text)
except:
TypeError
time.sleep(5)
运行的结果部分截图如下
14345926-914b656a5db2a921.png
python爬取网站实例,Python爬取网页简单示例相关推荐
- Python爬取网站图片并保存,超级简单
Python爬取网站图片并保存,超级简单 先看看结果吧,去bilibili上拿到的图片=-= 第一步,导入模块 import requests from bs4 import BeautifulSou ...
- 类似零基础学python的小说_零基础小白十分钟用Python搭建小说网站!Python真的强!...
零基础小白十分钟用Python搭建小说网站!Python真的强!-1.jpg (128.29 KB, 下载次数: 0) 2018-10-8 18:51 上传 Python 和放大镜的二进制代码 人生苦 ...
- python爬虫什么网站都能爬吗_python如何爬取动态网站
python有许多库可以让我们很方便地编写网络爬虫,爬取某些页面,获得有价值的信息!但许多时候,爬虫取到的页面仅仅是一个静态的页面,即网页 的源代码,就像在浏览器上的"查看网页源代码&quo ...
- python爬虫知网实例-python爬取知网
广告关闭 腾讯云双11爆品提前享,精选热门产品助力上云,云服务器首年88元起,买的越多返的越多,最高满返5000元! https:github.comgnemougdistribute_crawler ...
- python菜鸟教程100实例-python菜鸟教程官网
广告关闭 腾讯云双11爆品提前享,精选热门产品助力上云,云服务器首年88元起,买的越多返的越多,最高满返5000元! 之后的某节会讲到如何给mac中的python安装其他模块,比如比较常用的numpy ...
- python处理excel表格实例-python读写Excel表格的实例代码
本文通过实例代码给大家介绍的非常详细,具有一定的参考借鉴价值,需要的朋友可以参考下 安装两个库:pip install xlrd.pip install xlwt 1.python读excel--xl ...
- python图形化编程实例,python交互式图形编程实例(三)
本文实例为大家分享了python交互式图形编程实例的第三部代码,供大家参考,具体内容如下 #!/usr/bin/env python3 # -*- coding: utf-8 -*- #时钟 from ...
- python的tarfile模块实例 python把文件夹压缩成tar格式文件的例子
本节主要内容: python的tarfiel模块实例. 使用tarfile模块压缩文件. 例子,使用python中的tarfile压缩文件夹. 代码: 复制代码代码示例: #!/bin/python ...
- python开发软件的实例-Python 开发工具和框架安装实例步骤
引言: 其实之前对于 Python,只是知道有这门语言而已.大部分还是使用 .net 开发的,之前也学了 MVC+EF 开发,但是由于工作上完全用不到,也就没有在博客记录学习的东西了. 最近又接触到了 ...
最新文章
- WSL2问题汇总:转换为WSL2、WSL2代理、安装MySQL等
- python随机取列表元素_python random从集合中随机选择元素
- C/C++多个链接库含有同名函数,编译会报错吗
- Docker 下载 JDK 镜像(docker search 、docker pull)
- Gym-100935I Farm 计算几何 圆和矩形面积交
- 【必修一】部分数学名词与数学符号
- python end用法_8种高级的Python列表使用技巧,都给你整理好啦(附实操代码)
- 数据库MySQL学习——内含34道MySQL练习题及答案
- vant 开始结束日期_在vant中使用时间选择器实现结束时间和开始时间
- Gitlab服务器 forbidden
- 几十个恶毒网站,不怕死的朋友请进
- AndroidStudio配置LitePal时Failed to Resolve
- 超好玩的mac模拟经营游戏:巨型水族馆中文版
- DirectoryInfo 类
- 三菱Qplc.QD75Mh4触摸屏及plc程序,光纤伺服通讯
- python光棍节快乐_2020年光棍节快乐的祝福语10句
- Powerbuilder编程过程中的 DataWindow 数据窗口函数
- Git 报错:Failed to connect to github.com port 443: Timed out 解决办法
- Python-opencv利用setMouseCallback实现美图秀秀磨皮魔法笔
- 软件园系列报道下一站——武汉“光谷”软件园
热门文章
- 解放号占楼送大礼活动新浪微博火热进行中
- com.aliyun.oss.ClientException:UnknownHost
- 三分钟搭建支付宝三方支付
- 什么是阶乘?如何通过示例计算阶乘
- 直播技术原理学习路径
- overflow是什么意思,css overflow什么作用?
- ubuntu搭建android开发环境
- rpm xnview for linux,Ubuntu 10.04 LTS下载 试用了一下XnView的Linux版
- 《阿凡达》——钉子户的伟大教材
- 改变 PowerShell/CMD的背景图案及透明度