python爬虫在爬取网页内容时,需要将内容连同内容格式一同爬取过来,然后在自己的web页面中显示,自己的web页面为django框架
首先定义一个变量html,变量值为一段HTML代码
>>> print(html)
<div id=1> &nbsp;&nbsp;my <br> &nbsp; name <br>is &nbsp; JAY <br> </div>

,我们现在要取div里面的内容,在自己的web页面中显示,空格和换行符等都以HTML代码的形式抓取。最终想要的数据为
&nbsp;&nbsp;my <br>
&nbsp; name <br>
is &nbsp; JAY <br>
(1)首先soup.string是不行的,因为div下面不止一个子标签
>>> from bs4 import BeautifulSoup
>>> soup = BeautifulSoup(html, 'html.parser')
>>> soup.string
>>> 

可以看到返回值为空
(2)使用get_text()也是不行的,因为get_text()获取的字符串都是转义后的,我们要的是原生的HTML代码
>>> soup.get_text()
' \n \xa0\xa0my  \n \xa0 name \n is \xa0 JAY \n'

不过get_text()在其他很多场合很实用,它可以获取标签下的所有子孙标签内的文本内容
同时可以指定参数
>>> soup.get_text('|')  #所有tag文本内容的分隔符
' \n \xa0\xa0my | \n \xa0 name |\n is \xa0 JAY |\n'>>> soup.get_text('|', strip=True)   #去掉文本内容前后的空白
'my|name|is \xa0 JAY'

或者使用soup.stripped_strings生成器,获取文本内容手动处理
(3)可以使用.contents
>>> content_soup = soup.div.contents
>>> content_soup
[' \n \xa0\xa0my ', <br/>, ' \n \xa0 name ', <br/>, '\n is \xa0 JAY ', <br/>, '\n']
>>> content_soup = [str(i) for i in content_soup]   #列表中的所有值改换为字符串类型
>>> content_text = ''.join(content_soup)     #合并列表到一个字符串中
>>> content_text
' \n \xa0\xa0my <br/> \n \xa0 name <br/>\n is \xa0 JAY <br/>\n'
>>> print(content_text)my <br/> name <br/>is   JAY <br/>

至此,就可以直接将变量放到web页面中

转载于:https://www.cnblogs.com/stuqx/p/7291940.html

python爬虫爬取页面源码在本页面展示相关推荐

  1. [python爬虫]爬取电影,电视剧

    目录 影视作品存储格式 爬取方法 实际操作 影视作品存储格式 网页中的小视频往往以 <video src="#"></video>存在,拿到src中的视频地 ...

  2. Python爬虫爬取肯德基餐厅信息案例实现(含源码及详细解释)

    1. 需求: 爬取肯德基某一地区的餐厅数量以及其具体信息 (以下代码我仅仅展示出餐厅的店名信息,并将其用列表方式保存在.txt文件中) 2.学习python爬虫的好课推荐: b站上的路飞学城IT,提醒 ...

  3. python爬虫——爬取马蜂窝景点翻页文字评论

    python爬虫--爬取马蜂窝景点翻页文字评论 使用Chrome.python3.7.requests库和VSCode进行爬取马蜂窝黄鹤楼的文字评论(http://www.mafengwo.cn/po ...

  4. Python爬虫---爬取腾讯动漫全站漫画

    Python爬虫---爬取腾讯动漫全站漫画 操作环境 网页分析 明确目标 提取漫画地址 提取漫画章节地址 提取漫画图片 编写代码 导入需要的模块 获取漫画地址 提取漫画的内容页 提取章节名 获取漫画源 ...

  5. 使用Python爬虫爬取网络美女图片

    代码地址如下: http://www.demodashi.com/demo/13500.html 准备工作 安装python3.6 略 安装requests库(用于请求静态页面) pip instal ...

  6. 【爬虫】利用Python爬虫爬取小麦苗itpub博客的所有文章的连接地址并写入Excel中(2)...

    [爬虫]利用Python爬虫爬取小麦苗itpub博客的所有文章的连接地址并写入Excel中(2) 第一篇( http://blog.itpub.net/26736162/viewspace-22865 ...

  7. Python爬虫 爬取豆瓣电影TOP250

    Python爬虫 爬取豆瓣电影TOP250 最近在b站上学习了一下python的爬虫,实践爬取豆瓣的电影top250,现在对这两天的学习进行一下总结 主要分为三步: 爬取豆瓣top250的网页,并通过 ...

  8. php抓取微博评论,python爬虫爬取微博评论案例详解

    前几天,杨超越编程大赛火了,大家都在报名参加,而我也是其中的一员. 在我们的项目中,我负责的是数据爬取这块,我主要是把对于杨超越 的每一条评论的相关信息. 数据格式:{"name" ...

  9. 利用python爬取知乎评论_一个简单的python爬虫,爬取知乎

    一个简单的python爬虫,爬取知乎 主要实现 爬取一个收藏夹 里 所有问题答案下的 图片 文字信息暂未收录,可自行实现,比图片更简单 具体代码里有详细注释,请自行阅读 项目源码: 1 # -*- c ...

最新文章

  1. Exchange 2010正式发布了
  2. spark面试总结1
  3. NeHe OpenGL教程 第三十六课:从渲染到纹理
  4. Ruby Shanghai 2014年终聚会总结
  5. mysql将一个库中表的某几个字段插入到另一个库中的表
  6. 动态资源和静态资源分离
  7. 查询雇佣的所有员工_想要最好的员工? 让他们自己雇用
  8. Vue学习之ref属性
  9. 语音转文字的软件APP
  10. canvas.clipPath canvas.clipRect() 无效的原因
  11. 普洱学院java教务系统_2020年普洱学院教务处登录入口
  12. RFID EPC Class1 Gen2电子标签笔记
  13. H5和原生开发的区别
  14. UVA 177 PaperFolding 折纸痕 (分形,递归)
  15. Marked.js让您的文档编辑更加轻松自如!
  16. #01 Linear Regression Excise
  17. ajax返回map的值,同时在sucess返回时的显示
  18. Python+OpenCV手势识别Mediapipe(基础篇)
  19. mysqlit根据稀有值随机选择_三中锋教练来过了!实况足球20赛季DP7.0后新增稀有阵型top10...
  20. 从零打造一个机器人002【初识机器人操作系统--ROS】

热门文章

  1. SVN版本管理系统的使用(CentOS+Subversion+Apache+Jsvnadmin+TortoiseSVN)
  2. UDP聊天工具的实现
  3. Java基础之写文件——使用Formatter对象加载缓冲区(UsingAFormatter)
  4. HDU2892 area 简单多边形与圆面积交
  5. Firewoks——层与蒙版
  6. android底部导航栏网络请求有冲突,Android 自定义底部导航栏 CustomizeTabLayout(支持访问网络图片、本地图片)...
  7. (10)FPGA顶层通用模块(学无止境)
  8. (67)SPI外设驱动接收驱动(六)(第14天)
  9. (76)FPGA随机函数($dist_uniform)
  10. linux日志删除1天前,Linux自动删除n天前日志