Python用做数据处理还是相当不错的,如果你想要做爬虫,Python是很好的选择,它有很多已经写好的类包,只要调用,即可完成很多复杂的功能,此文中所有的功能都是基于BeautifulSoup这个包。

1 Pyhton获取网页的内容(也就是源代码)

page = urllib2.urlopen(url)

contents = page.read()

#获得了整个网页的内容也就是源代码

print(contents)

url代表网址,contents代表网址所对应的源代码,urllib2是需要用到的包,以上三句代码就能获得网页的整个源代码

2 获取网页中想要的内容(先要获得网页源代码,再分析网页源代码,找所对应的标签,然后提取出标签中的内容)

2.1 以豆瓣电影排名为例子

网址是http://movie.douban.com/top250?format=text,进入网址后就出现如下的图

现在我需要获得当前页面的所有电影的名字,评分,评价人数,链接

由上图画红色圆圈的是我想得到的内容,画蓝色横线的为所对应的标签,这样就分析完了,现在就是写代码实现,Python提供了很多种方法去获得想要的内容,在此我使用BeautifulSoup来实现,非常的简单

#coding:utf-8

‘‘‘‘‘

@author: jsjxy

‘‘‘

import urllib2

import re

from bs4 import BeautifulSoup

from distutils.filelist import findall

page = urllib2.urlopen(‘http://movie.douban.com/top250?format=text‘)

contents = page.read()

#print(contents)

soup = BeautifulSoup(contents,"html.parser")

print("豆瓣电影TOP250" + "\n" +" 影片名 评分 评价人数 链接 ")

for tag in soup.find_all(‘div‘, class_=‘info‘):

# print tag

m_name = tag.find(‘span‘, class_=‘title‘).get_text()

m_rating_score = float(tag.find(‘span‘,class_=‘rating_num‘).get_text())

m_people = tag.find(‘div‘,class_="star")

m_span = m_people.findAll(‘span‘)

m_peoplecount = m_span[3].contents[0]

m_url=tag.find(‘a‘).get(‘href‘)

print( m_name+" " + str(m_rating_score) + " " + m_peoplecount + " " + m_url )

控制台输出,你也可以写入文件中

前三行代码获得整个网页的源代码,之后开始使用BeautifulSoup进行标签分析,find_all方法是找到所有此标签的内容,然后在在此标签中继续寻找,如果标签有特殊的属性声明则一步就能找出来,如果没有特殊的属性声明就像此图中的评价人数前面的标签只有一个‘span’那么就找到所有的span标签,按顺序从中选相对应的,在此图中是第三个,所以这种方法可以找特定行或列的内容。代码比较简单,很容易就实现了,如果有什么地方不对,还请大家指出,大家共同学习。

源代码地址:http://download.csdn.net/detail/danielntz/9577390

转自:https://blog.csdn.net/danielntz/article/details/51861168

原文:https://www.cnblogs.com/xisheng/p/9130165.html

python span 抓取_如何用python爬取两个span之间的内容相关推荐

  1. 抖音上学python靠谱吗_如何用Python抓抖音上的小姐姐

    爬虫的案例我们已讲得太多.不过几乎都是 网页爬虫 .即使有些手机才能访问的网站,我们也可以通过 Chrome 开发者工具 的 手机模拟 功能来访问,以便于分析请求并抓取.(比如 3分钟破译朋友圈测试小 ...

  2. python 读取excel图片_如何用Python读取Excel中图片?

    公众号: 早起Python 作者:刘早起 大家好,在使用Python进行办公自动化操作时,一定少不了与Excel表格的交互,我们通常是用pandas处理表格数据,但大多数情况下,都是读取表格中的数值进 ...

  3. 怎么用python读取excel图_如何用Python读取Excel中图片?

    公众号: 早起Python 作者:刘早起 大家好,在使用Python进行办公自动化操作时,一定少不了与Excel表格的交互,我们通常是用pandas处理表格数据,但大多数情况下,都是读取表格中的数值进 ...

  4. python微博涨粉_如何用 Python 让微博热搜榜动起来

    今天教大家如何用 Pyecharts 制作微博热搜榜动态展示视频 先上视频看看效果: 教程主要有2部分: 一是 Python 爬取微博热搜内容 二是用 pyecharts 制作动态视频 下面给大家详细 ...

  5. python爬虫抢火车票_如何用python写一个简单的12306抢票软件|python 爬火车票 教程...

    python 如果抓取验证码图片 类似12306的登录验证码图片 这个以前做次.最大的麻烦是码的识别算法的识别率太低.12306那种网站登陆错3次就限制你20分钟.所以除非你有33%以上的识别率否则不 ...

  6. python 矩阵运算 for循环_如何用 Python 科学计算中的矩阵替代循环

    展开全部 因为在Mathematica中使用循环确实是低效的.32313133353236313431303231363533e78988e69d8331333361313961..... 深层次的原 ...

  7. 用python处理excel表格_如何用python处理excel数据 | 用python处理excel表格数据类型

    python 读取EXCEL文件中的数据格式 扩展库 xlrd 读excle xlwt 写excle 直上搜就能下载 下载后使用 import xlrd 就可以读excle了 打开文件: xls = ...

  8. python selenium爬虫豆瓣_使用selenium+requests爬取豆瓣小组讨论列表

    获取本文代码 · 我的GitHub 注:这个项目的代码会在我的GitHub持续优化.更新,而在本文中的代码则是最初版本的代码. 豆瓣小组 豆瓣有一个"小组"模块,有一些小组中会发布 ...

  9. python爬虫好友图片_用itchat库爬取你所有微信好友的头像,并合成一张大图

    几年前,我们给爸妈手机上下载了一款神奇的软件,他的名字叫微信.几年后,爸妈就开始吐槽我们的微信头像了. 爸妈对我们微信头像的关注程度远胜过我们的衣食住行,我在新浪微博上看到了这张统计图. 图片来源:新 ...

  10. python 登陆淘宝_如何用 Python 自动登录淘宝并保存登录信息?

    原标题:如何用 Python 自动登录淘宝并保存登录信息? 作者 | 猪哥 责编 | 伍杏玲 前段时间时间为大家讲解了如何使用requests库模拟登录淘宝,而今天我们将对该功能进行丰富.所以我们把之 ...

最新文章

  1. fieldset 在td中怎样设置高度_TD-LOFT夹层,是如何做到超薄的?
  2. C# Check is No number
  3. MOS管驱动电路总结
  4. android h5使用缓存_Android SDK 的 H5 打通方案演进 | 数据采集
  5. 导航类网站|设计没有感觉,苦于寻找各种工具 或者资料的小伙伴收藏好哦
  6. 覆盖分类的方法_智能垃圾分类箱上线,居民垃圾分类投放可领礼品
  7. Ubuntu 11.04下编译kernel
  8. Java中Spring报错org.springframework.core.annotation.AnnotationUtils.clearCache()V
  9. 去掉serialVersionUID的警告
  10. 投影查询(2020-3-13)
  11. ps怎么导入lut预设?Photoshop导入lut调色预设教程
  12. PHP ASCII 排序方法
  13. insightface 的学习与使用
  14. 如何升级到 Ubuntu 20.04
  15. 充气娃娃也好玩——在ESXi上安装Panabit与PanaLog(二)通过U盘引导GRUB安装ESXi
  16. Ubuntu16.04解决无法切换root权限的问题
  17. 计算机修图教程,电脑修图太复杂 3步教你学会用手机做肤色后期
  18. nextcloud19.0.1部署
  19. php js抽奖,JS做出随机抽奖系统
  20. java 线性回归_Java实现一元线性回归

热门文章

  1. linux vi dd命令详解,Linux dd命令详解:数据备份,并在备份过程中进行格式转换...
  2. 计算机网络wifi是什么意思,wifi的ssid是什么
  3. 利用requests模块进行数据爬取的基本操作
  4. 十大城市11月房价止跌回升 上海涨幅最高
  5. GIF是什么格式的文件
  6. Dart 2.18 正式发布
  7. C++控制台五子棋(带背景音乐)
  8. 完整性校验用到常见的算法_文件完整性校验
  9. WEB云安全技术应用篇
  10. nginx 访问a 域名跳转到b域名_微信qq域名防红防封,怎么才能避免自己的域名被屏蔽...