1.xpath: 提取xml文件

浏览器安装插件xpath

Pycharm下载包lxml

1)解析本地文件

# 导入包
from lxml import etree# 解析文件
tree = etree.parse("data/ip.html")
# 提取信息
li_list = tree.xpath('//li/text()')

提取的语法:

xpath基本语法:1.路径查询//:查找所有子孙节点,不考虑层级关系/ :找直接子节点2.谓词查询//div[@id]//div[@id="maincontent"]3.属性查询//@class4.模糊查询//div[contains(@id, "he")]//div[starts‐with(@id, "he")]5.内容查询//div/h1/text()6.逻辑运算//div[@id="head" and @class="s_down"]//title | //price

2)解析爬取的网页

# 获取网页内容
response = urllib.request.urlopen(request)
content = response.read().decode("utf-8")
# 解析网页
tree = etree.HTML(content)
# 提取信息
data_lsit = tree.xpath('//input[@id="su"]/@value')

案例:爬取图片数据

import urllib.request
from lxml import etree
from tqdm import *
"""
第一页地址:
https://sc.chinaz.com/tupian/qinglvtupian.html第二页地址:
https://sc.chinaz.com/tupian/qinglvtupian_2.html
"""def create_request(page):if page == 1:url = "https://sc.chinaz.com/tupian/qinglvtupian.html"else:url = "https://sc.chinaz.com/tupian/qinglvtupian_" + str(page) + ".html"headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/106.0.0.0 Safari/537.36'}request = urllib.request.Request(url=url, headers=headers)return requestdef get_content(request):req = urllib.request.urlopen(request)content = req.read().decode("utf-8")return contentdef down_load(content):tree = etree.HTML(content)link_list = tree.xpath('//div[@class="tupian-list com-img-txt-list"]//img/@data-original')name_list = tree.xpath('//div[@class="tupian-list com-img-txt-list"]//img/@alt')for i in tqdm(range(len(link_list)), desc="下载的图片"):link = "https:" + link_list[i]name = name_list[i]urllib.request.urlretrieve(link, filename="./photo/" + name + ".jpg")if __name__ == "__main__":start_page = int(input("请输入起始页码:"))end_page = int(input("请输入结束页码:"))for page in range(start_page, end_page + 1):# 定制请求对象request = create_request(page)# 请求数据content = get_content(request)# 下载图片down_load(content)

2.jsonPath:提取json文件

使用方法:

# jsonpath的使用:
obj = json.load(open('json文件', 'r', encoding='utf‐8'))
ret = jsonpath.jsonpath(obj, 'jsonpath语法')

匹配的语法

案例:读取淘票票的城市数据

url = "https://dianying.taobao.com/cityAction.json?activityId&_ksTS=1665842537566_108&jsoncallback=jsonp109&action=cityAction&n_s=new&event_submit_doGetAllRegion=true"
headers = {# ':authority': 'dianying.taobao.com',# ':method': 'GET',# ':path': '/cityAction.json?activityId&_ksTS=1665842537566_108&jsoncallback=jsonp109&action=cityAction&n_s=new&event_submit_doGetAllRegion=true',# ':scheme': 'https','accept': 'text/javascript, application/javascript, application/ecmascript, application/x-ecmascript, */*; q=0.01',# 'accept-encoding': 'gzip, deflate, br','accept-language': 'zh-CN,zh;q=0.9','bx-v': '2.2.3','cookie': 't=01e264dc462c7ec31fa81c964480ef71; cna=PQQNG2ID00wCAcom+Kx+6VFW; sgcookie=E100NV67fuPefRFxmJ0rvIhweAZoab6bysNUqOllPpeLt7x9bpzqS%2BymW2%2Bx44dTkXaSrvn9kbzwh6Zx%2BIsDmj8dYMBa5bqwE2Skvf1Cy6Xrvyysien1uEZxct1eOkjuavSS; tracknick=%5Cu674E%5Cu4E8C%5Cu5E06%5Cu5475%5Cu5475%5Cu5475; _cc_=VFC%2FuZ9ajQ%3D%3D; cookie2=1dfb433f9bd17bd74b43a203c5d6e815; v=0; _tb_token_=577eb3bb87f08; xlly_s=1; tb_city=110100; tb_cityName="sbG+qQ=="; tfstk=cfK1BVYee5V61Om0j1ME_WX9wgscZBw5hV1MCX7g6-W3mBJ1iirPN2i9oSIVH91..; l=eBQNq69gL8OhvXN6BO5Cnurza7792QRb4sPzaNbMiInca6iATFaNYNCU_UxJ7dtjgtCAuetzv3EoxdLHR3AgCc0c07kqm0SZUxvO.; isg=BGVlVF3rai5ub480JRB2COKOdCGfohk0ct6phGdIkhyrfoXwL_CvBHoQCOII_jHs','referer': 'https://dianying.taobao.com/','sec-ch-ua': '"Chromium";v="106", "Google Chrome";v="106", "Not;A=Brand";v="99"','sec-ch-ua-mobile': '?0','sec-ch-ua-platform': '"Windows"','sec-fetch-dest': 'empty','sec-fetch-mode': 'cors','sec-fetch-site': 'same-origin','user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/106.0.0.0 Safari/537.36','x-requested-with': 'XMLHttpRequest'
}
# 创建请求
req = urllib.request.Request(url=url, headers=headers)
# 获取数据
response = urllib.request.urlopen(req)
content = response.read().decode("utf-8")
content = content.split("(")[1].split(")")[0]
# 提取信息
json_data = json.loads(content)
data_list = jsonpath.jsonpath(json_data, "$..regionName")
for i in data_list:print(i)

3.BeautifulSoup:解析xml

基本使用

# 1导入包
from bs4 import BeautifulSoup# 2创建对象
# 服务器响应的文件生成对象
soup = BeautifulSoup(response.read().decode(), 'lxml')
# 本地文件生成对象
soup = BeautifulSoup(open('1.html'), 'lxml')
# 注意:默认打开文件的编码格式gbk所以需要指定打开编码格式# 3定位节点:3个方法
# 返回第一个匹配的对象,可以加属性限制搜索结果
soup.find("img", id="", class_="")
# 返回匹配的所有对象,可以添加限制结果数量
soup.find_all(["img", "a"], limit=2)
# 返回匹配的所有对象结果
soup.select()# 1.element# eg:p# 2..class# eg:.firstname# 3.#id# eg:#firstname# 4.属性选择器# [attribute]# eg:li = soup.select('li[class]')# [attribute=value]# eg:li = soup.select('li[class="hengheng1"]')# 5.层级选择器# element element 后代# div p# element > element  父子节点关系# div>p# element,element# div,p# eg:soup = soup.select('a,span')# 4获取节点内容# (1).获取节点内容:适用于标签中嵌套标签的结构# obj.string# obj.get_text()【推荐】# (2).节点的属性# tag.name 获取标签名# eg:tag = find('li)# print(tag.name)# tag.attrs将属性值作为一个字典返回# (3).获取节点属性# obj.attrs.get('title')【常用】# obj.get('title')# obj['title']

案例:爬取星巴克产品列表

from bs4 import BeautifulSoup
import urllib.requesturl = "https://www.starbucks.com.cn/menu/"
response = urllib.request.urlopen(url)
content = response.read().decode("utf-8")soup = BeautifulSoup(content, 'lxml')
# //ul[@class="grid padded-3 product"]//strong
name_list = soup.select("ul[class='grid padded-3 product'] strong")
for e in name_list:print(e.get_text())

解析网页(html和json)相关推荐

  1. selenium 解析网页_用Selenium进行网页搜刮

    selenium 解析网页 网页抓取系列 (WEB SCRAPING SERIES) 总览 (Overview) Selenium is a portable framework for testin ...

  2. Jsoup解析网页html

    Jsoup解析网页html 解析网页demo: 利用Jsoup获取截图中的数据信息: html代码片段: 1 <!-- 当前基金档案\计算\定投\开户 start --> 2 <di ...

  3. 拱拱Lite开发(3):三翼页及湘大文库下载实现(解析网页获取信息及模拟登陆)

    因为没有三翼新闻及湘大文库的API,简单的方法行不通就只能绕远啦,我们这次来解析网页,嗯,是个体力活其实.因为网页HTML也是有一定格式的,所以只要网页结构不进行大的改动,我们就可以一直这样解析网页获 ...

  4. python网络爬虫之解析网页的正则表达式(爬取4k动漫图片)[三]

    目录 前言 一.正则表达式的学习 1.正则表达式的匹配工具 2.正则表达式的样式 3.正则表达式的案例 二.爬取网页图片 1.分析网页 2.获取数据 爬取妹子网的案例 后记 前言 hello,大家好 ...

  5. asp自动解析网页中的图片地址,并将其保存到本地服务器

    程序实现功能:自动将远程页面的文件中的图片下载到本地. 程序代码 <% '将本文保存为 save2local.asp '测试:save2local.asp?url=http://ent.sina ...

  6. python爬虫自学网站_Python爬虫3步曲:5分钟学习用Python解析网页

    使用正则表达式解析网页是Python的一个擅长的领域.如果还想更加深入地学习正则表达式,或者在平时经常用到正则表达式,可以进入Regular Expression 101网站学习,网站地址为 http ...

  7. 网页爬虫 python-Python爬虫解析网页的4种方式

    文章目录 爬虫的价值 正则表达式 requests-html BeautifulSoup lxml的XPath 爬虫的价值 常见的数据获取方式就三种:自有数据.购买数据.爬取数据.用Python写爬虫 ...

  8. 利用js-xlsx.js插件实现Excel文件导入并解析Excel数据成json数据格式

    <!--本文转载于网络,有太多一样的文章,不知道原作者是哪位了,就不注明出处了.这里记载下来,用于自己的学习借鉴--><!DOCTYPE html><html lang= ...

  9. python爬虫基础教程115_Python解析网页源代码中的115网盘链接实例

    本文实例讲述了python解析网页源代码中的115网盘链接的方法.分享给大家供大家参考.具体方法分析如下: 其中的1.txt,是网页http://bbs.pediy.com/showthread.ph ...

最新文章

  1. html将变量打印到屏幕_用可视化过程解释代码运行过程和变量作用空间
  2. python box2d_win10+Anaconda3成功使用pip安装Box2d
  3. PAT甲级1031 Hello World for U:[C++题解]模拟、数学运算
  4. RFC remote call during status filter logic
  5. 设计模式学习笔记之装饰者模式
  6. 自己动手写操作系统(五)
  7. mysql dump gtid_GTID环境下mysqldump set-gtid-purged取值
  8. 网络层-1、网络层功能概述
  9. python实现五大基本算法语句_python实现各种最优化算法
  10. 爱情就像是免杀,连鞋都没脱,就悄无声息的走进了你的心里
  11. Java语法快速学习-黑马程序员(个人整理版本)
  12. 安路FPGA学习之有趣的下载方式
  13. C语言——大整数加法
  14. python sort函数
  15. hdu 5454 Excited Database(线段树)
  16. STM32----FLASH和EEPROM的区别
  17. java后门_Java做后门?
  18. 股票量化投资策略有哪些特点?
  19. 四、使用知识-让知识带来价值
  20. IE 7.0 足以终结来自非IE阵营的挑战吗?

热门文章

  1. java binary name
  2. 正则替换字符串中某个字符
  3. linux同步时间(通过定时任务,按时同步时间)
  4. 苹果手机突然四g不显示无服务器,苹果手机显示无sim卡是什么原因 苹果手机显示无sim卡解决方法...
  5. 中国机器人大赛-工程竞技组(摄像头搬运项目赛后总结)
  6. 手把手教你用plotly绘制excel中常见的16种图表(上)
  7. js 选取节点的几种方式
  8. openwrt VLAN的pvid/vid; tag/untag
  9. 互联网日报 | 理想汽车登陆纳斯达克;苏宁易购会员数量突破6亿;高德地图上线“司机公厕”...
  10. pgAdmin备份和还原数据库