网络爬虫,数据处理(将br/换成换行符)

目标是从网址https://zhidao.baidu.com/question/1302141487765288859.html上爬取排名的信息:

code:

  1 #coding=utf-82 from urllib.request import urlopen    #导入urlopen模块和BeautifulSoup模块3 from bs4 import BeautifulSoup4 html=urlopen("https://zhidao.baidu.com/question/1302141487765288859.html").r    ead()     #打开网址并将读取的内容传给html5 soup=BeautifulSoup(html,features='lxml')    #将html传给BeautifulSoup,并用"lx    ml"解析6 all_pre=soup.select("pre")     #选取'pre'标签' 7 #print(all_pre)8 for l in all_pre:9     print(l.get_text())     #去掉修饰后输出

用下面命令输出以上结果:

print(all_pre)

可以发现规律,只要将'<br/>'换成'\n'就可以了

clde:

  1 #coding=utf-82 from urllib.request import urlopen    #导入urlopen模块和BeautifulSoup模块3 from bs4 import BeautifulSoup4 html=urlopen("https://zhidao.baidu.com/question/1302141487765288859.html").read()     #打开网址并将读取的内容传给html5 soup=BeautifulSoup(html,features='lxml')    #将html传给BeautifulSoup,并用"lxml"解析6 all_pre=soup.select("pre")     #选取'pre'标签' 7 #print(all_pre)8 #for l in all_pre:9 #   print(l.get_text())     #去掉修饰后输出10 11     12 s = str(all_pre)    #转换成字符串13 s_replace = s.replace('<br/>',"\n")    #用换行符替换'<br/>'14 while True:                      #用换行符替换所有的'<br/>'15     index_begin = s_replace.find("<")16     index_end = s_replace.find(">",index_begin + 1)17     if index_begin == -1:18         break19     s_replace = s_replace.replace(s_replace[index_begin:index_end+1],"")20 #print(type(s_replace))21 print(s_replace)

输出为:

可以发现数据已经成为我们想要的类型

网络爬虫,数据处理(将br/换成换行符)相关推荐

Linux从某个字符串处换行,Windows和Linux中任意字符串替换成换行符的问题
在Windows中经常碰到要把任意符号转换成回车符的问题,在Linux中这个问题很容易解决: \r 回车 \n 换行 Linux中\n表示一个新的行,Windows中\r\n表示一个新的行. sed ...
sed指令将逗号替换成换行符
原因:运维小哥哥导出了一个log文件,发现一行超过了几十万个字符,而且基本都是垃圾数据,而grep执行搜索关键字只能输出行为单位. 而sed可以实现字符替换,这样就能够把一行分为几行下面就是把一行中 ...
Excel合并多列增加指定字符指定字符替换为换行符调整行高步骤
1.假设我们需要将下图中的两列内容合并为1列,且需用竖线|分隔开,并在合并之前添加指定字符: 2.另取一列,如下图所示,并在输入框输入="REC:"&A1&&quo ...
shell替换和去掉换行符
用shell处理文件的时候我们常常需要去掉或者加上换行符,name问题就来了怎么才能快速的替换呢? 我们有这样一个文件 1 2 [root@hxy working] # cat 1 GD200A16C ...
Python3网络爬虫，简单爬取网络小说并下载
相信我们常常会有想看的小说,但是不能下载,导致无法在没网的环境下观看..下面将解一下如何用python3爬取网络小说. 本文主要是用于学习,希望大家支持正版. 首先我们需要两个包,我们分别是reque ...
python爬虫程序说明_Python即时网络爬虫：API说明
API说明--下载gsExtractor内容提取器 1,接口名称下载内容提取器 2,接口说明如果您想编写一个网络爬虫程序,您会发现大部分时间耗费在调测网页内容提取规则上,不讲正则表达式的语法如何怪 ...
python百度百科api-Python即时网络爬虫：API说明
API说明--下载gsExtractor内容提取器 1,接口名称下载内容提取器 2,接口说明如果您想编写一个网络爬虫程序,您会发现大部分时间耗费在调测网页内容提取规则上,不讲正则表达式的语法如何怪 ...
python网络爬虫_Python即时网络爬虫：API说明
1,接口名称下载内容提取器 2,接口说明如果您想编写一个网络爬虫程序,您会发现大部分时间耗费在调测网页内容提取规则上,不讲正则表达式的语法如何怪异,即便使用XPath,您也得逐个编写和调试. 如果 ...
php 替换某一行,PHP中如何替换换行符?
原标题:PHP中如何替换换行符? 最近在进行时,需要进行文件内容比对,为了排除换行符对文件内容的影响,总结了一下PHP中替换换行符的几种方法: 第一种:使用str_replace 来替换换行 $str ...

网络爬虫,数据处理(将br/换成换行符)

网络爬虫,数据处理(将br/换成换行符)相关推荐

最新文章

热门文章