BeautifulSoup爬取页面URL三步走

爬虫利器BeautifulSoup爬取一个页面的所有URL，可以简单分为三个步骤：

使用requests获取页面内容
使用BeautifulSoup进行页面内容解析
提取并整理所需要的URL

代码实例

# 导入BeautifulSoup和requests模块
from bs4 import BeautifulSoup
import requests# 获取字符串格式的html_doc。由于content为bytes类型，故需要decode()
html_doc = requests.get('https://xkcd.com/353/').content.decode()
# 使用BeautifulSoup模块对页面文件进行解析
soup = BeautifulSoup(html_doc, 'html.parser')
# 查找所有tag为'a'的html元素，并生成列表
links = soup.find_all('a')
# 获取每个元素中'href'键对应的键值--即URL，并放入url_lst
url_lst = []
for item in links:url = item.get('href')url_lst.append(url)
# 过滤url_lst--仅保留包含http的URL
url_lst = list(filter(lambda url_str: 'http' in url_str, url_lst))
print(url_lst)

脚本运行结果，请看下图

BeautifulSoup爬取页面URL三步走相关推荐

BeautifulSoup爬取豆瓣电影排名
豆瓣电影排名网址:https://movie.douban.com/top250?start=0&filter= 在进去豆瓣电影排名后,打开浏览器的检查功能分析爬取页面源代码,在写请求代码之前 ...
Python数据分析：爬虫从网页爬取数据需要几步？
对于数据分析师来说,数据获取通常有两种方式,一种是直接从系统本地获取数据,另一种是爬取网页上的数据,爬虫从网页爬取数据需要几步?总结下来,Python爬取网页数据需要发起请求.获取响应内容.解析数据. ...
[python应用案例] 一.BeautifulSoup爬取天气信息并发送至QQ邮箱
前面作者写了很多Python系列文章,包括: Python基础知识系列:Python基础知识学习与提升 Python网络爬虫系列:Python爬虫之Selenium+Phantomjs+CasperJ ...
python爬取网页内容requests_[转][实战演练]python3使用requests模块爬取页面内容
本文摘要: 1.安装pip 2.安装requests模块 3.安装beautifulsoup4 4.requests模块浅析 + 发送请求 + 传递URL参数 + 响应内容 + 获取网页编码 + 获取 ...
Python beautifulsoup爬取小说
Python beautifulsoup爬取小说提前准备好需要的库文件,命令行输入以下命令 pip install requests pip install bs4 pip install lxml ...
爬虫beautifulsoup爬取豆瓣读书数据
爬虫beautifulsoup爬取豆瓣读书数据:主要是爬取收集书的名字.类别.简介,用于接下来的聚类学习. 豆瓣链接:https://book.douban.com/tag/?view=type&am ...
BeautifulSoup爬取贝壳网成都二手房源信息（附：完整源代码）
BeautifulSoup爬取贝壳网成都二手房源信息最近想出一套二手房,刚好在学习爬虫,那就顺手爬一下贝壳上成都各区二手房信息了解一下行情,本篇先介绍数据爬取,数据分析稍后有时间再写.仅用于技术交流 ...
BeautifulSoup爬取博客实例
BeautifulSoup爬取博客实例爬取对象はてなブックマーク博客(日本网站) 用for循环爬取每个类别博客的前两页博客使用python BeautifulSoup库第一步: 爬取所有类别的文 ...
c#使用正则表达式获取TR中的多个TD_使用python+BeautifulSoup爬取微博热搜榜
本文将介绍基于Python使用BeautifulSoup爬取微博热搜榜的实现过程 1.首先导入需要使用的库 from bs4 import BeautifulSoup from urllib.requ ...

BeautifulSoup爬取页面URL三步走

爬虫利器BeautifulSoup爬取一个页面的所有URL，可以简单分为三个步骤：

代码实例

BeautifulSoup爬取页面URL三步走相关推荐

最新文章

热门文章