网络爬虫,数据处理(将br/换成换行符)
目标是从网址https://zhidao.baidu.com/question/1302141487765288859.html上爬取排名的信息:
code:
1 #coding=utf-82 from urllib.request import urlopen #导入urlopen模块和BeautifulSoup模块3 from bs4 import BeautifulSoup4 html=urlopen("https://zhidao.baidu.com/question/1302141487765288859.html").r ead() #打开网址并将读取的内容传给html5 soup=BeautifulSoup(html,features='lxml') #将html传给BeautifulSoup,并用"lx ml"解析6 all_pre=soup.select("pre") #选取'pre'标签' 7 #print(all_pre)8 for l in all_pre:9 print(l.get_text()) #去掉修饰后输出
用下面命令输出以上结果:
print(all_pre)
可以发现规律,只要将'<br/>'换成'\n'就可以了
clde:
1 #coding=utf-82 from urllib.request import urlopen #导入urlopen模块和BeautifulSoup模块3 from bs4 import BeautifulSoup4 html=urlopen("https://zhidao.baidu.com/question/1302141487765288859.html").read() #打开网址并将读取的内容传给html5 soup=BeautifulSoup(html,features='lxml') #将html传给BeautifulSoup,并用"lxml"解析6 all_pre=soup.select("pre") #选取'pre'标签' 7 #print(all_pre)8 #for l in all_pre:9 # print(l.get_text()) #去掉修饰后输出10 11 12 s = str(all_pre) #转换成字符串13 s_replace = s.replace('<br/>',"\n") #用换行符替换'<br/>'14 while True: #用换行符替换所有的'<br/>'15 index_begin = s_replace.find("<")16 index_end = s_replace.find(">",index_begin + 1)17 if index_begin == -1:18 break19 s_replace = s_replace.replace(s_replace[index_begin:index_end+1],"")20 #print(type(s_replace))21 print(s_replace)
输出为:
可以发现数据已经成为我们想要的类型
网络爬虫,数据处理(将br/换成换行符)相关推荐
- Linux从某个字符串处换行,Windows和Linux中任意字符串替换成换行符的问题
在Windows中经常碰到要把任意符号转换成回车符的问题,在Linux中这个问题很容易解决: \r 回车 \n 换行 Linux中\n表示一个新的行,Windows中\r\n表示一个新的行. sed ...
- sed指令将逗号替换成换行符
原因:运维小哥哥导出了一个log文件,发现一行超过了几十万个字符,而且基本都是垃圾数据,而grep执行搜索关键字只能输出行为单位. 而sed可以实现字符替换,这样就能够把一行分为几行 下面就是把一行中 ...
- Excel合并多列增加指定字符指定字符替换为换行符调整行高步骤
1.假设我们需要将下图中的两列内容合并为1列,且需用竖线|分隔开,并在合并之前添加指定字符: 2.另取一列,如下图所示,并在输入框输入="REC:"&A1&&quo ...
- shell替换和去掉换行符
用shell处理文件的时候我们常常需要去掉或者加上换行符,name问题就来了怎么才能快速的替换呢? 我们有这样一个文件 1 2 [root@hxy working] # cat 1 GD200A16C ...
- Python3网络爬虫,简单爬取网络小说并下载
相信我们常常会有想看的小说,但是不能下载,导致无法在没网的环境下观看..下面将解一下如何用python3爬取网络小说. 本文主要是用于学习,希望大家支持正版. 首先我们需要两个包,我们分别是reque ...
- python爬虫程序说明_Python即时网络爬虫:API说明
API说明--下载gsExtractor内容提取器 1,接口名称 下载内容提取器 2,接口说明 如果您想编写一个网络爬虫程序,您会发现大部分时间耗费在调测网页内容提取规则上,不讲正则表达式的语法如何怪 ...
- python百度百科api-Python即时网络爬虫:API说明
API说明--下载gsExtractor内容提取器 1,接口名称 下载内容提取器 2,接口说明 如果您想编写一个网络爬虫程序,您会发现大部分时间耗费在调测网页内容提取规则上,不讲正则表达式的语法如何怪 ...
- python网络爬虫_Python即时网络爬虫:API说明
1,接口名称 下载内容提取器 2,接口说明 如果您想编写一个网络爬虫程序,您会发现大部分时间耗费在调测网页内容提取规则上,不讲正则表达式的语法如何怪异,即便使用XPath,您也得逐个编写和调试. 如果 ...
- php 替换某一行,PHP中如何替换换行符?
原标题:PHP中如何替换换行符? 最近在进行时,需要进行文件内容比对,为了排除换行符对文件内容的影响,总结了一下PHP中替换换行符的几种方法: 第一种:使用str_replace 来替换换行 $str ...
最新文章
- 助力高校学子快速上手!昇腾AI处理器应用开发实践一览|华为昇腾师资培训沙龙北京场...
- python提取数据库数据_Python读取xlsx并写入数据库
- 希尔排序(ShellSort) c源码
- 前端微信签名验证工具_微信jssdk 签名错误排查方法
- 深入理解分布式技术 - 负载均衡策略
- WSUS 3.0 STEP BY STEP 配置手册
- java springmvc 数据库事务_事务的简单回顾_JavaEE框架(Maven+SpringMvc+Spring+MyBatis)全程实战教程_Java视频-51CTO学院...
- 在线摇骰子/色子工具
- c++ log 打印android_如何在Android C++文件中打印ALOGI(...)?
- TcpTrace追踪远程服务器的soap信息
- C语言求字符串并集,怎样用c语言写求集合的交集,并集,补集”这个程序?
- 【车道线检测】基于matlab Hough变换视频车道线检测 【含Matlab源码 274期】
- 关于XP系统远程桌面的一点点记录
- 一些堪称神器却少为人知的网站或软件(整理自知乎)
- 数据结构之顺序表(Java实现)
- 还原更改请勿关闭计算机 要多久,配置windows update失败 还原更改 请勿关闭计算机,电脑开机后一直显示以...
- CTFSHOW 萌新赛 萌新记忆
- Android 获取手机中微信聊天记录
- 使用itext将HTML 生成PDF文件
- Cadence 17.4将状态栏由黑底白字改为白底黑字