说明:

在爬取网页数据所需的内容后,通过select方法选取的内容会生成一个列表,但列表中包含HTML的标签等杂项,如[武侯祠/杜甫草堂/双楠鹭岛美食街精致两居],如果只想得到其中的文本,就要用到以下方法;

方法一:

import requests

from bs4 import BeautifulSoup

url = 'http://cd.xiaozhu.com/fangzi/636003301.html'

headers = {

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.71 Safari/537.36'}

web_data = requests.get(url, headers=headers)

web_data = web_data.text

soup = BeautifulSoup(web_data, 'lxml')

title = soup.select('body > div.wrap.clearfix.con_bg > div.con_l > div.pho_info > h4 > em')

# 用循环的形式得到

for ti in title:

print(ti.text)

方法二:

import requests

from bs4 import BeautifulSoup

url = 'http://cd.xiaozhu.com/fangzi/636003301.html'

headers = {

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.71 Safari/537.36'}

web_data = requests.get(url, headers=headers)

web_data = web_data.text

soup = BeautifulSoup(web_data, 'lxml')

title = soup.select('body > div.wrap.clearfix.con_bg > div.con_l > div.pho_info > h4 > em')

# 指定列表中的元素

title = title[0].text

print(title)

结果:

武侯祠/杜甫草堂/双楠鹭岛美食街精致两居

php数据清洗工具,爬取数据的清洗——提取列表中的文本相关推荐

  1. python爬取mysql数据_Python爬取数据并写入MySQL数据库的实例

    Python爬取数据并写入MySQL数据库的实例 来源:中文源码网    浏览: 次    日期:2018年9月2日 [下载文档:  Python爬取数据并写入MySQL数据库的实例.txt ] (友 ...

  2. python爬取json数据_Python爬取数据保存为Json格式的代码示例

    python爬取数据保存为Json格式 代码如下: #encoding:'utf-8' import urllib.request from bs4 import BeautifulSoup impo ...

  3. python爬取bilibili数据_BiliBili爬取数据简单分析

    爬虫介绍:从1号直播间爬取发弹幕人账号,当时在线人数有五万左右,但到8000多时每3s发弹幕的新用户已经很少了,所以我就以这8000多人为起始点,将其放入队列中,取出一个,获得其关注人数,粉丝数,并将 ...

  4. 利用免费工具爬取关键词(数据)的豆瓣读书数据——八爪鱼爬取数据并导出到Excel/Mysql数据库设置示例——关键词:爬虫、读书、实用

    目录 原始需求 需求解读 所需软件配置 软件介绍 八爪鱼 Excel Navicat Mysql 数据采集及保存 步骤1  探索搜索页面规律 步骤二  八爪鱼批量生成链接,添加参数(前缀+尾巴) 步骤 ...

  5. cs客户端接收网页传来的数据_3.爬取数据-urllib库

    1. 小试牛刀 怎样扒网页呢? 其实就是根据URL来获取它的网页信息,虽然我们在浏览器中看到的是一幅幅优美的画面,但是其实是由浏览器解释才呈现出来的,实质它是一段HTML代码,加 JS.CSS,如果把 ...

  6. 简单的使用QueryList爬取数据

    最近在整理做过的项目时,发现了曾经的一个好玩的东西,长时间不用都快忘记生疏了,在这里做下总结.在之前的时间里,流行用python写爬虫脚本,我学的是php于是经过学习也用php写了个简单的爬虫,用于抓 ...

  7. 使用xpath爬取数据

    使用xpath来提取数据,爬取数据的简单语法. 下载模块 快速下载模块 pip install lxml 导入模块 from lxml import etree 利用xpath获取text或者href ...

  8. 爬虫爬取数据时,网页响应码返回404问题的解决方法

    爬虫报404问题: 在进行爬虫爬取数据的过程中,使用语句: r = requests.get(url, timeout=60, headers=headers, stream=True) # prin ...

  9. python如何读取数据并输出为表格_Python 爬取数据并导出表格

    从网站请求数据 要爬取数据,首先得用到Python的库,这里我直接选择了requests,其他库没有对比,也没有去了解,暂时不做讨论,以后如果有深入了解再补充吧. 安装requests pip ins ...

最新文章

  1. 不同数据库中查询前几条记录的用法(SQL Server/Oracle/Postgresql)
  2. Redis高级客户端Lettuce详解
  3. WPF入门(四)-线形区域Path内容填充之填充图(ImageBrush)
  4. CCSprite setTextureRect 的坐标的坑
  5. shuffle操作图解以及job-stage-task-partition区别
  6. .Net Core应用框架Util介绍(二)
  7. windows下dos窗口实现持续ping显示时间保存至日志
  8. 计算机电缆 耐火,耐火计算机电缆ZR-NH-DJVVP
  9. 设置build.gradle打包时自动加时间
  10. 【Android】1.1 开发环境安装和配置
  11. 也从小站长视角浅谈主机提供商的优劣
  12. jsp显示服务器路径下的图片,jsp 从服务器获取图片路径
  13. js判断操作系统与浏览器
  14. K8s 使用helm 安装 EFK和ELK分布式日志分析系统系列(es版本:6.7.0;)
  15. 关于Nginx里面的配置文件里面的location参数的意思
  16. 聚类分析 matlab
  17. Android渐变折线图,自定义View之颜色渐变折线图
  18. 快来和网红 ChatGPT 聊天!!
  19. 扩屏双显示器一个清晰,另一个模糊的解决办法
  20. appium滑动操作(向上、向下、向左、向右滑动)

热门文章

  1. WPS会员如何取消自动续费?微信/支付宝/WPS共3种方法
  2. 电子信息与计算机技术的融合,通信技术与计算机技术融合发展
  3. 适合发朋友圈的生日祝福语祝自己生日
  4. 阿里“通义千问”大模型上线!让生成式AI更贴近中国人生活
  5. 华为nova7se能云闪付吗_华为Nova支持NFC功能吗 华为Nova能刷公交卡吗【详解】
  6. 从Altium Designer转换原理图和PCB到Cadence Capture CIS及allegro
  7. java jlabel用法_java swing JLabel详解以及使用示例
  8. 车牌、Vin码、行驶证识别汽修门店应用
  9. 时空召唤今天服务器维护吗,《时空召唤》3月3日更新公告
  10. 微软爱开发者 | 十月,“拾月”, 盛派开发者社区召唤您