HTML 标签、转义字符及相应的 Java 过滤方法
HTML 标签
- HTML 文档和 HTML 元素是通过 HTML 标签进行标记的
- HTML 标签由开始标签和结束标签组成
- 开始标签是被括号包围的元素名
- 结束标签是被括号包围的斜杠和元素名
- 某些 HTML 元素没有结束标签,比如
<br />
注释:开始标签的英文翻译是
start tag
或opening tag
,结束标签的英文翻译是end tag
或closing tag
HTML 转义字符
一些字符在 HTML 中拥有特殊的含义,比如小于号 (<
) 用于定义 HTML 标签的开始。如果我们希望浏览器正确地显示这些字符,我们必须在 HTML 源码中插入字符实体。
字符实体有三部分:一个和号 (&
),一个实体名称,或者 #
和一个实体编号,以及一个分号 (;
)。
要在 HTML 文档中显示小于号,我们需要这样写:<
或者 <
使用实体名称而不是实体编号的好处在于,名称相对来说更容易记忆。而这么做的坏处是,并不是所有的浏览器都支持最新的实体名称,然而几乎所有的浏览器对实体编号的支持都很好。
注意:实体对大小写敏感。
详见HTML 转义字符
JavaScript 转义符
转义序列 | 字符 |
---|---|
\b | 退格 |
\f | 换页 |
\n | 换行 |
\r | 回车 |
\t | 横向跳格(Ctrl-I) |
’ | 单引号 |
" | 双引号 |
\\ | 反斜杠 |
Java 过滤标签及转义字符
HTML 标签过滤
正则表达式过滤
String txtcontent = content.replaceAll("</?[^>]+>", "");
HTML 转义字符过滤
org.apache.commons.lang3.StringEscapeUtils
String txtcontent = StringEscapeUtils.unescapeHtml4(content);
对于更复杂的需求,可考虑选用Jsoup
提取相应的数据
Jsoup 是一个用于处理 HTML 的 Java 库。它提供了一些非常方便的 API,通过使用最好的 DOM,CSS 和类 jquery 的方法,以提取和操作数据。
JavaScript 转义符过滤
过滤换行符
String txtcontent = content.replaceAll("\n", "");
过滤所有
String txtcontent = content.replaceAll("\\s*", "");
参考资料:
- HTML 转义字符
- Jsoup
- jsoup Cookbook
HTML 标签、转义字符及相应的 Java 过滤方法相关推荐
- Java过滤HTML标签工具类
过滤HTML标签能有效的放置XSS攻击. 封装: import org.slf4j.Logger; import org.slf4j.LoggerFactory;import org.springfr ...
- java过滤html标签获取纯文本信息
转载自 java过滤html标签获取纯文本信息 package com.lyt.base.util;import java.util.regex.Pattern;public class Filter ...
- Java过滤HTML标签、属性等正则表达式汇总
Java过滤HTML标签.属性等正则表达式汇总 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 2 ...
- java 过滤xss脚本_Java Web应用程序的反跨站点脚本(XSS)过滤器
java 过滤xss脚本 这是为Java Web应用程序编写的一个好简单的反跨站点脚本(XSS)过滤器. 它的基本作用是从请求参数中删除所有可疑字符串,然后将其返回给应用程序. 这是我以前关于该主题的 ...
- java 过滤脚本_【快学SpringBoot】过滤XSS脚本攻击(包括json格式)
XSS攻击是什么 XSS攻击全称跨站脚本攻击,是为不和层叠样式表(Cascading Style Sheets, CSS)的缩写混淆,故将跨站脚本攻击缩写为XSS,XSS是一种在web应用中的计算机安 ...
- Java简单的XSS过滤方法
Java简单的XSS过滤方法 因为某甲方程序XSS过滤类一直没起作用,所以百度了下,简单的写了个参数XSS过滤方法.....上代码~~ import java.io.UnsupportedEncodi ...
- java过滤_java 过滤list的几种方式
java中 过滤list的几种方式 方式一:使用java 8语法:stream+反射 Liststudent3List=new ArrayList<>(); Student3 studen ...
- Java过滤XSS脚本攻击记录一下
背景 之前公司信息安全部门对公司项目进行网络安全升级时,发现项目里可能会出现XSS脚本攻击漏洞,所以就需要对其参数进行过滤拦截. XSS 百度百科:XSS攻击全称:cross site scripti ...
- Java过滤特殊字符
Java正则表达式过滤 1.Java过滤特殊字符的正则表达式----转载 java过滤特殊字符的正则表达式[转载] 2010-08-05 11:06 Java过滤特殊字符的正则表达式 关键字: j ...
最新文章
- mxnet中symbol的网络结构输出(参数维度,和每层输出维度)
- Python爬虫利器之Beautiful Soup的全世界最强用法 五百行文章!
- 腾讯云推出一站式 DevOps 解决方案 —— CODING DevOps
- svg画css,CSS vs. SVG:图形文本的效果
- 开发效率提升15倍!批流融合实时平台在好未来的应用实践
- 双系统安装ubuntu后没有windows启动项
- 数据产品-数据可视化工具Excel之数据透视表
- 【Vegas原创】RHEL6多界面切换方法
- Python高级特性:Python迭代、生成器、列表生成式
- matlab把结构按条件排序,matlab结构体数组排序
- 视频自动生成字幕VideoSrt
- C语言学习-翁凯(第十章笔记)
- 【树莓派】设置树莓派开机自动运行python脚本
- jQuery选择器详细介绍
- 群晖无数据丢失的磁盘阵列变更解决方案(4盘位两个Raid1转SHR-1)
- 腾讯云Ubuntu18.04配置OpenPCDet深度学习环境
- 蜗牛学院:这6种心态,容易毁掉你的职场
- 上传本地项目到maven私服(nexus)踩坑记录
- python操作ipv6_python ipv6计算SQLAlchemy复杂查询
- 柳絮会携带新冠病毒?这些新冠谣言别信!