目标是从网址https://zhidao.baidu.com/question/1302141487765288859.html上爬取排名的信息:

code:

 

  1 #coding=utf-82 from urllib.request import urlopen    #导入urlopen模块和BeautifulSoup模块3 from bs4 import BeautifulSoup4 html=urlopen("https://zhidao.baidu.com/question/1302141487765288859.html").r    ead()     #打开网址并将读取的内容传给html5 soup=BeautifulSoup(html,features='lxml')    #将html传给BeautifulSoup,并用"lx    ml"解析6 all_pre=soup.select("pre")     #选取'pre'标签' 7 #print(all_pre)8 for l in all_pre:9     print(l.get_text())     #去掉修饰后输出

用下面命令输出以上结果:

print(all_pre)

可以发现规律,只要将'<br/>'换成'\n'就可以了

clde:

  1 #coding=utf-82 from urllib.request import urlopen    #导入urlopen模块和BeautifulSoup模块3 from bs4 import BeautifulSoup4 html=urlopen("https://zhidao.baidu.com/question/1302141487765288859.html").read()     #打开网址并将读取的内容传给html5 soup=BeautifulSoup(html,features='lxml')    #将html传给BeautifulSoup,并用"lxml"解析6 all_pre=soup.select("pre")     #选取'pre'标签' 7 #print(all_pre)8 #for l in all_pre:9 #   print(l.get_text())     #去掉修饰后输出10 11     12 s = str(all_pre)    #转换成字符串13 s_replace = s.replace('<br/>',"\n")    #用换行符替换'<br/>'14 while True:                      #用换行符替换所有的'<br/>'15     index_begin = s_replace.find("<")16     index_end = s_replace.find(">",index_begin + 1)17     if index_begin == -1:18         break19     s_replace = s_replace.replace(s_replace[index_begin:index_end+1],"")20 #print(type(s_replace))21 print(s_replace)

输出为:

可以发现数据已经成为我们想要的类型

网络爬虫,数据处理(将br/换成换行符)相关推荐

  1. Linux从某个字符串处换行,Windows和Linux中任意字符串替换成换行符的问题

    在Windows中经常碰到要把任意符号转换成回车符的问题,在Linux中这个问题很容易解决: \r 回车 \n 换行 Linux中\n表示一个新的行,Windows中\r\n表示一个新的行. sed ...

  2. sed指令将逗号替换成换行符

    原因:运维小哥哥导出了一个log文件,发现一行超过了几十万个字符,而且基本都是垃圾数据,而grep执行搜索关键字只能输出行为单位. 而sed可以实现字符替换,这样就能够把一行分为几行 下面就是把一行中 ...

  3. Excel合并多列增加指定字符指定字符替换为换行符调整行高步骤

    1.假设我们需要将下图中的两列内容合并为1列,且需用竖线|分隔开,并在合并之前添加指定字符: 2.另取一列,如下图所示,并在输入框输入="REC:"&A1&&quo ...

  4. shell替换和去掉换行符

    用shell处理文件的时候我们常常需要去掉或者加上换行符,name问题就来了怎么才能快速的替换呢? 我们有这样一个文件 1 2 [root@hxy working] # cat 1 GD200A16C ...

  5. Python3网络爬虫,简单爬取网络小说并下载

    相信我们常常会有想看的小说,但是不能下载,导致无法在没网的环境下观看..下面将解一下如何用python3爬取网络小说. 本文主要是用于学习,希望大家支持正版. 首先我们需要两个包,我们分别是reque ...

  6. python爬虫程序说明_Python即时网络爬虫:API说明

    API说明--下载gsExtractor内容提取器 1,接口名称 下载内容提取器 2,接口说明 如果您想编写一个网络爬虫程序,您会发现大部分时间耗费在调测网页内容提取规则上,不讲正则表达式的语法如何怪 ...

  7. python百度百科api-Python即时网络爬虫:API说明

    API说明--下载gsExtractor内容提取器 1,接口名称 下载内容提取器 2,接口说明 如果您想编写一个网络爬虫程序,您会发现大部分时间耗费在调测网页内容提取规则上,不讲正则表达式的语法如何怪 ...

  8. python网络爬虫_Python即时网络爬虫:API说明

    1,接口名称 下载内容提取器 2,接口说明 如果您想编写一个网络爬虫程序,您会发现大部分时间耗费在调测网页内容提取规则上,不讲正则表达式的语法如何怪异,即便使用XPath,您也得逐个编写和调试. 如果 ...

  9. php 替换某一行,PHP中如何替换换行符?

    原标题:PHP中如何替换换行符? 最近在进行时,需要进行文件内容比对,为了排除换行符对文件内容的影响,总结了一下PHP中替换换行符的几种方法: 第一种:使用str_replace 来替换换行 $str ...

最新文章

  1. 助力高校学子快速上手!昇腾AI处理器应用开发实践一览|华为昇腾师资培训沙龙北京场...
  2. python提取数据库数据_Python读取xlsx并写入数据库
  3. 希尔排序(ShellSort) c源码
  4. 前端微信签名验证工具_微信jssdk 签名错误排查方法
  5. 深入理解分布式技术 - 负载均衡策略
  6. WSUS 3.0 STEP BY STEP 配置手册
  7. java springmvc 数据库事务_事务的简单回顾_JavaEE框架(Maven+SpringMvc+Spring+MyBatis)全程实战教程_Java视频-51CTO学院...
  8. 在线摇骰子/色子工具
  9. c++ log 打印android_如何在Android C++文件中打印ALOGI(...)?
  10. TcpTrace追踪远程服务器的soap信息
  11. C语言求字符串并集,怎样用c语言写求集合的交集,并集,补集”这个程序?
  12. 【车道线检测】基于matlab Hough变换视频车道线检测 【含Matlab源码 274期】
  13. 关于XP系统远程桌面的一点点记录
  14. 一些堪称神器却少为人知的网站或软件(整理自知乎)
  15. 数据结构之顺序表(Java实现)
  16. 还原更改请勿关闭计算机 要多久,配置windows update失败 还原更改 请勿关闭计算机,电脑开机后一直显示以...
  17. CTFSHOW 萌新赛 萌新记忆
  18. Android 获取手机中微信聊天记录
  19. 使用itext将HTML 生成PDF文件
  20. Cadence 17.4将状态栏由黑底白字改为白底黑字

热门文章

  1. 手机维修管理也搞ASP模式?
  2. 核酸检测识别系统——总章
  3. Chrome通过ARChon插件加载运行Android应用
  4. FBX格式mesh解析与加载(一)
  5. 缓存雪崩(Redis)
  6. 最近被刷屏的这道小学数学题,你怎么看?
  7. 0-1之间最多两位小数的正则表达式
  8. [R语言]3. R语言自定义函数
  9. 企业大数据可视化案例专题分享-入门
  10. 知识表示(KRL)与知识嵌入(KE)