准备材料

一:使用到的Python第三方库是requests 和 BeautifulSoup

二:选择要爬取的网页

我选择了豆瓣小组里的一个帖子回复(是微博或者微信的签名,个人感觉比较有意思)

地址是:https://www.douban.com/group/topic/80125952/

三:分析网页源代码

打开地址后,右键-查看网页源代码

我们爬取的p标签,class="reply-content"里的内容

14345926-4252580093d33a3b.png

具体的代码如下

import requests

from bs4 import BeautifulSoup

import time

#设置请求header伪装成浏览器

headers = {'user-agent':'Mozilla/5.0 (iPad; CPU OS 11_0 like Mac OS X) AppleWebKit/604.1.34 (KHTML, like Gecko) Version/11.0 Mobile/15A5341f Safari/604.1'}

for i in range(29):

url = 'https://www.douban.com/group/topic/80125952/?start=' + str(i*100)

req = requests.get(url,headers=headers) #获取网页请求

content = req.content #获取到的网页请求的具体内容

soup = BeautifulSoup(content,'lxml') #把获取到的网页请求内容构造成 BeautifulSoup 对象

replycontents = soup.find_all(name='p',attrs={'class':'reply-content'})# 使用 find_all 查找文档树中标签为p,class="reply-content" 的所有内容

try:

for replycontent in replycontents:

text = replycontent.string

print(text)

except:

TypeError

time.sleep(5)

运行的结果部分截图如下

14345926-914b656a5db2a921.png

python爬取网站实例,Python爬取网页简单示例相关推荐

  1. Python爬取网站图片并保存,超级简单

    Python爬取网站图片并保存,超级简单 先看看结果吧,去bilibili上拿到的图片=-= 第一步,导入模块 import requests from bs4 import BeautifulSou ...

  2. 类似零基础学python的小说_零基础小白十分钟用Python搭建小说网站!Python真的强!...

    零基础小白十分钟用Python搭建小说网站!Python真的强!-1.jpg (128.29 KB, 下载次数: 0) 2018-10-8 18:51 上传 Python 和放大镜的二进制代码 人生苦 ...

  3. python爬虫什么网站都能爬吗_python如何爬取动态网站

    python有许多库可以让我们很方便地编写网络爬虫,爬取某些页面,获得有价值的信息!但许多时候,爬虫取到的页面仅仅是一个静态的页面,即网页 的源代码,就像在浏览器上的"查看网页源代码&quo ...

  4. python爬虫知网实例-python爬取知网

    广告关闭 腾讯云双11爆品提前享,精选热门产品助力上云,云服务器首年88元起,买的越多返的越多,最高满返5000元! https:github.comgnemougdistribute_crawler ...

  5. python菜鸟教程100实例-python菜鸟教程官网

    广告关闭 腾讯云双11爆品提前享,精选热门产品助力上云,云服务器首年88元起,买的越多返的越多,最高满返5000元! 之后的某节会讲到如何给mac中的python安装其他模块,比如比较常用的numpy ...

  6. python处理excel表格实例-python读写Excel表格的实例代码

    本文通过实例代码给大家介绍的非常详细,具有一定的参考借鉴价值,需要的朋友可以参考下 安装两个库:pip install xlrd.pip install xlwt 1.python读excel--xl ...

  7. python图形化编程实例,python交互式图形编程实例(三)

    本文实例为大家分享了python交互式图形编程实例的第三部代码,供大家参考,具体内容如下 #!/usr/bin/env python3 # -*- coding: utf-8 -*- #时钟 from ...

  8. python的tarfile模块实例 python把文件夹压缩成tar格式文件的例子

    本节主要内容: python的tarfiel模块实例. 使用tarfile模块压缩文件. 例子,使用python中的tarfile压缩文件夹. 代码: 复制代码代码示例: #!/bin/python ...

  9. python开发软件的实例-Python 开发工具和框架安装实例步骤

    引言: 其实之前对于 Python,只是知道有这门语言而已.大部分还是使用 .net 开发的,之前也学了 MVC+EF 开发,但是由于工作上完全用不到,也就没有在博客记录学习的东西了. 最近又接触到了 ...

最新文章

  1. WSL2问题汇总:转换为WSL2、WSL2代理、安装MySQL等
  2. python随机取列表元素_python random从集合中随机选择元素
  3. C/C++多个链接库含有同名函数,编译会报错吗
  4. Docker 下载 JDK 镜像(docker search 、docker pull)
  5. Gym-100935I Farm 计算几何 圆和矩形面积交
  6. 【必修一】部分数学名词与数学符号
  7. python end用法_8种高级的Python列表使用技巧,都给你整理好啦(附实操代码)
  8. 数据库MySQL学习——内含34道MySQL练习题及答案
  9. vant 开始结束日期_在vant中使用时间选择器实现结束时间和开始时间
  10. Gitlab服务器 forbidden
  11. 几十个恶毒网站,不怕死的朋友请进
  12. AndroidStudio配置LitePal时Failed to Resolve
  13. 超好玩的mac模拟经营游戏:巨型水族馆中文版
  14. DirectoryInfo 类
  15. 三菱Qplc.QD75Mh4触摸屏及plc程序,光纤伺服通讯
  16. python光棍节快乐_2020年光棍节快乐的祝福语10句
  17. Powerbuilder编程过程中的 DataWindow 数据窗口函数
  18. Git 报错:Failed to connect to github.com port 443: Timed out 解决办法
  19. Python-opencv利用setMouseCallback实现美图秀秀磨皮魔法笔
  20. 软件园系列报道下一站——武汉“光谷”软件园

热门文章

  1. 解放号占楼送大礼活动新浪微博火热进行中
  2. com.aliyun.oss.ClientException:UnknownHost
  3. 三分钟搭建支付宝三方支付
  4. 什么是阶乘?如何通过示例计算阶乘
  5. 直播技术原理学习路径
  6. overflow是什么意思,css overflow什么作用?
  7. ubuntu搭建android开发环境
  8. rpm xnview for linux,Ubuntu 10.04 LTS下载 试用了一下XnView的Linux版
  9. 《阿凡达》——钉子户的伟大教材
  10. 改变 PowerShell/CMD的背景图案及透明度