python爬虫爬取页面源码在本页面展示
>>> print(html) <div id=1> my <br> name <br>is JAY <br> </div>
>>> from bs4 import BeautifulSoup >>> soup = BeautifulSoup(html, 'html.parser') >>> soup.string >>>
>>> soup.get_text() ' \n \xa0\xa0my \n \xa0 name \n is \xa0 JAY \n'
>>> soup.get_text('|') #所有tag文本内容的分隔符 ' \n \xa0\xa0my | \n \xa0 name |\n is \xa0 JAY |\n'>>> soup.get_text('|', strip=True) #去掉文本内容前后的空白 'my|name|is \xa0 JAY'
>>> content_soup = soup.div.contents >>> content_soup [' \n \xa0\xa0my ', <br/>, ' \n \xa0 name ', <br/>, '\n is \xa0 JAY ', <br/>, '\n'] >>> content_soup = [str(i) for i in content_soup] #列表中的所有值改换为字符串类型 >>> content_text = ''.join(content_soup) #合并列表到一个字符串中 >>> content_text ' \n \xa0\xa0my <br/> \n \xa0 name <br/>\n is \xa0 JAY <br/>\n' >>> print(content_text)my <br/> name <br/>is JAY <br/>
转载于:https://www.cnblogs.com/stuqx/p/7291940.html
python爬虫爬取页面源码在本页面展示相关推荐
- [python爬虫]爬取电影,电视剧
目录 影视作品存储格式 爬取方法 实际操作 影视作品存储格式 网页中的小视频往往以 <video src="#"></video>存在,拿到src中的视频地 ...
- Python爬虫爬取肯德基餐厅信息案例实现(含源码及详细解释)
1. 需求: 爬取肯德基某一地区的餐厅数量以及其具体信息 (以下代码我仅仅展示出餐厅的店名信息,并将其用列表方式保存在.txt文件中) 2.学习python爬虫的好课推荐: b站上的路飞学城IT,提醒 ...
- python爬虫——爬取马蜂窝景点翻页文字评论
python爬虫--爬取马蜂窝景点翻页文字评论 使用Chrome.python3.7.requests库和VSCode进行爬取马蜂窝黄鹤楼的文字评论(http://www.mafengwo.cn/po ...
- Python爬虫---爬取腾讯动漫全站漫画
Python爬虫---爬取腾讯动漫全站漫画 操作环境 网页分析 明确目标 提取漫画地址 提取漫画章节地址 提取漫画图片 编写代码 导入需要的模块 获取漫画地址 提取漫画的内容页 提取章节名 获取漫画源 ...
- 使用Python爬虫爬取网络美女图片
代码地址如下: http://www.demodashi.com/demo/13500.html 准备工作 安装python3.6 略 安装requests库(用于请求静态页面) pip instal ...
- 【爬虫】利用Python爬虫爬取小麦苗itpub博客的所有文章的连接地址并写入Excel中(2)...
[爬虫]利用Python爬虫爬取小麦苗itpub博客的所有文章的连接地址并写入Excel中(2) 第一篇( http://blog.itpub.net/26736162/viewspace-22865 ...
- Python爬虫 爬取豆瓣电影TOP250
Python爬虫 爬取豆瓣电影TOP250 最近在b站上学习了一下python的爬虫,实践爬取豆瓣的电影top250,现在对这两天的学习进行一下总结 主要分为三步: 爬取豆瓣top250的网页,并通过 ...
- php抓取微博评论,python爬虫爬取微博评论案例详解
前几天,杨超越编程大赛火了,大家都在报名参加,而我也是其中的一员. 在我们的项目中,我负责的是数据爬取这块,我主要是把对于杨超越 的每一条评论的相关信息. 数据格式:{"name" ...
- 利用python爬取知乎评论_一个简单的python爬虫,爬取知乎
一个简单的python爬虫,爬取知乎 主要实现 爬取一个收藏夹 里 所有问题答案下的 图片 文字信息暂未收录,可自行实现,比图片更简单 具体代码里有详细注释,请自行阅读 项目源码: 1 # -*- c ...
最新文章
- Exchange 2010正式发布了
- spark面试总结1
- NeHe OpenGL教程 第三十六课:从渲染到纹理
- Ruby Shanghai 2014年终聚会总结
- mysql将一个库中表的某几个字段插入到另一个库中的表
- 动态资源和静态资源分离
- 查询雇佣的所有员工_想要最好的员工? 让他们自己雇用
- Vue学习之ref属性
- 语音转文字的软件APP
- canvas.clipPath canvas.clipRect() 无效的原因
- 普洱学院java教务系统_2020年普洱学院教务处登录入口
- RFID EPC Class1 Gen2电子标签笔记
- H5和原生开发的区别
- UVA 177 PaperFolding 折纸痕 (分形,递归)
- Marked.js让您的文档编辑更加轻松自如!
- #01 Linear Regression Excise
- ajax返回map的值,同时在sucess返回时的显示
- Python+OpenCV手势识别Mediapipe(基础篇)
- mysqlit根据稀有值随机选择_三中锋教练来过了!实况足球20赛季DP7.0后新增稀有阵型top10...
- 从零打造一个机器人002【初识机器人操作系统--ROS】
热门文章
- SVN版本管理系统的使用(CentOS+Subversion+Apache+Jsvnadmin+TortoiseSVN)
- UDP聊天工具的实现
- Java基础之写文件——使用Formatter对象加载缓冲区(UsingAFormatter)
- HDU2892 area 简单多边形与圆面积交
- Firewoks——层与蒙版
- android底部导航栏网络请求有冲突,Android 自定义底部导航栏 CustomizeTabLayout(支持访问网络图片、本地图片)...
- (10)FPGA顶层通用模块(学无止境)
- (67)SPI外设驱动接收驱动(六)(第14天)
- (76)FPGA随机函数($dist_uniform)
- linux日志删除1天前,Linux自动删除n天前日志