首先,安装Beautifulsoup

pip  install  beautifulsoup4

然后初始化对象

from  bs4  import  BeautifulSoup

file = BeautifulSoup(open("index.html"))     #此处传入文件,红色部分为要传入的页面源码文件

string = BeautifulSoup("<html>data</html>")  #此处红色部分传入一个字符串

可以通过 .标签名 向下深入, 如 : file.p.a.span

遍历:

html 文件有标签,字符串等组成,遍历时可以同级遍历,也可以跨级遍历。

同级遍历: .previous_sibling

.next_sibling

跨级遍历:

向父级遍历:

.parent

向子级遍历:

.contents   #以列表形式遍历,通过一个列表将结果展示出来

                    .children   #以生成器形式遍历,比较节省内存

本文转自   tianshuai369   51CTO博客,原文链接:http://blog.51cto.com/songqinglong/1739483

配置 BeautifulSoup相关推荐

  1. 1024,一封写给CSDN家园Python初学者的信 | Python初级、中级、高级学习路线

    又是一年1024,祝所有程序员节日快乐,健康开心,祝CSDN越来越好.转眼,已经在CSDN分享了十多年博客,感谢大家的陪伴和祝福,在这里我与许多人成为了朋友,感恩.非常遗憾,这次没能去长沙岳麓书院见很 ...

  2. 1024,一封写给CSDN家园Python初学者的信 Python初级、中级、高级学习路线

    又是一年1024,祝所有程序员节日快乐,健康开心,祝CSDN越来越好.转眼,已经在CSDN分享了十多年博客,感谢大家的陪伴和祝福,在这里我与许多人成为了朋友,感恩.非常遗憾,这次没能去长沙岳麓书院见很 ...

  3. 中级python培训

    又是一年1024,祝所有程序员节日快乐,健康开心,祝CSDN越来越好.转眼,已经在CSDN分享了十多年博客,感谢大家的陪伴和祝福,在这里我与许多人成为了朋友,感恩.非常遗憾,这次没能去长沙岳麓书院见很 ...

  4. 寒假python培训

    「来源: |Python之王 ID:sen13717378202」 推荐:作者:Eastmount大神推荐的Python初学者的信 | Python初级.中级.高级学习路线 又是一年1024,祝所有程 ...

  5. python3.6爬虫环境安装要多少内存_Python3爬虫环境配置——解析库安装(附tesserocr安装方法)...

    Python3爬虫环境配置--解析库安装(附tesserocr安装方法) 抓取网页代码后,第二步就是提取信息,为了方便程序设计,这里不采用繁琐的正则提取,利用社区里强大的Python解析库,如lxml ...

  6. python爬取小说章节信息用pygame进行数据显示_爬虫不过如此(python的Re 、Requests、BeautifulSoup 详细篇)...

    网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本. 爬虫的本质就是一段自动抓取互联网信息的程序,从网络获取 ...

  7. ios jenkins配置_Jenkins + TestNG 实现自助式自动化测试平台

    摘要: 本文介绍了如何使用 Jenkins 和 TestNG 实现满足复杂测试需求的"自助式"自动化测试平台.该方案以 Jenkins 作为平台的基础,结合功能强大的插件及系统配置 ...

  8. [python应用案例] 一.BeautifulSoup爬取天气信息并发送至QQ邮箱

    前面作者写了很多Python系列文章,包括: Python基础知识系列:Python基础知识学习与提升 Python网络爬虫系列:Python爬虫之Selenium+Phantomjs+CasperJ ...

  9. nginx php如何无响应,nginx,_nginx 可以直接响应服务静态页面吗, 为何配置了很久都不成功?,nginx - phpStudy...

    nginx 可以直接响应服务静态页面吗, 为何配置了很久都不成功? 背景: 最近想自己写点东西放到网上, 买了域名和vps, 在vps上也搭好了ngxin服务器,想从最简单的静态页面开始,于是自己写了 ...

最新文章

  1. oracle主目录修改,ORACLE主目录权限被修改,恢复ORACLE_HOME或GI_HOME权限、属主
  2. 数据库以及后台开发之写在前面
  3. plsql oracle服务端,PLSQL Developer + Oracle客户端简易安装方法
  4. 【Matlab 图像】bwlabel() 连通域及图像分割
  5. C++ WINDOWS API 第1章 Windows 应用程序开发入门
  6. Python:序列的copy() 方法和 copy 模块
  7. Android 基础—— 对Context的理解与使用技巧
  8. vue动态禁用控件绑定disable
  9. Linux 性能测试与分析-转
  10. HDU 5778 abs
  11. IsPostBack深入探讨
  12. 高项、高级项目管理师论文-人力资源管理
  13. GitHub加速访问、克隆和下载
  14. 理解openssl协议:x509、crt、cer、key、csr、ssl、tls 这些都是什么鬼? 如何给自己网站颁发证书?
  15. web前端入门知识大全:系统路线,各类要点解析
  16. 关于js中获取div中的数据
  17. ftp服务器型号,ftp服务器的类型及其特点
  18. css小技巧(文字两端对齐)
  19. idea debug下断点没有对勾的问题
  20. 大仗的打法——推荐《智能商业》曾鸣的战略格局

热门文章

  1. 旅行商问题 c++_动态多目标旅行商问题(一)
  2. .netcore excel导出回车换行_必须掌握的回车键Enter应用技巧,100%干货
  3. python提取txt字符串,教你一招!Python读取文件内容为字符串的方法
  4. border属性 php,如何通过CSS的border属性为图片设置边框效果
  5. JAVA 定义全局常量码表_【Java基础】java常量是什么?
  6. 无心剑中译杰克•谢弗《当默多克遇到撒旦》
  7. tez什么意思_Tezos 与 Ethereum 的区别
  8. 2017.9.12 连通数 失败总结
  9. 2017.5.14-15 CPU监控 思考记录
  10. Intel 64/x86_64/IA-32/x86处理器 - 指令格式(2) - 8086/16位指令格式概述