HTML 标签

  • HTML 文档和 HTML 元素是通过 HTML 标签进行标记的
  • HTML 标签由开始标签和结束标签组成
  • 开始标签是被括号包围的元素名
  • 结束标签是被括号包围的斜杠和元素名
  • 某些 HTML 元素没有结束标签,比如 <br />

注释:开始标签的英文翻译是 start tagopening tag,结束标签的英文翻译是 end tagclosing tag

HTML 转义字符

一些字符在 HTML 中拥有特殊的含义,比如小于号 (<) 用于定义 HTML 标签的开始。如果我们希望浏览器正确地显示这些字符,我们必须在 HTML 源码中插入字符实体

字符实体有三部分:一个和号 (&),一个实体名称,或者 # 和一个实体编号,以及一个分号 (;)。

要在 HTML 文档中显示小于号,我们需要这样写:&lt; 或者 <

使用实体名称而不是实体编号的好处在于,名称相对来说更容易记忆。而这么做的坏处是,并不是所有的浏览器都支持最新的实体名称,然而几乎所有的浏览器对实体编号的支持都很好。

注意:实体对大小写敏感。
详见HTML 转义字符

JavaScript 转义符

转义序列 字符
\b 退格
\f 换页
\n 换行
\r 回车
\t 横向跳格(Ctrl-I)
单引号
" 双引号
\\ 反斜杠

Java 过滤标签及转义字符

HTML 标签过滤

正则表达式过滤

String txtcontent = content.replaceAll("</?[^>]+>", "");

HTML 转义字符过滤

org.apache.commons.lang3.StringEscapeUtils

String txtcontent = StringEscapeUtils.unescapeHtml4(content);

对于更复杂的需求,可考虑选用Jsoup提取相应的数据

Jsoup 是一个用于处理 HTML 的 Java 库。它提供了一些非常方便的 API,通过使用最好的 DOM,CSS 和类 jquery 的方法,以提取和操作数据。

JavaScript 转义符过滤

过滤换行符

String txtcontent = content.replaceAll("\n", "");

过滤所有

String txtcontent = content.replaceAll("\\s*", "");

参考资料:

  1. HTML 转义字符
  2. Jsoup
  3. jsoup Cookbook

HTML 标签、转义字符及相应的 Java 过滤方法相关推荐

  1. Java过滤HTML标签工具类

    过滤HTML标签能有效的放置XSS攻击. 封装: import org.slf4j.Logger; import org.slf4j.LoggerFactory;import org.springfr ...

  2. java过滤html标签获取纯文本信息

    转载自 java过滤html标签获取纯文本信息 package com.lyt.base.util;import java.util.regex.Pattern;public class Filter ...

  3. Java过滤HTML标签、属性等正则表达式汇总

    Java过滤HTML标签.属性等正则表达式汇总 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 2 ...

  4. java 过滤xss脚本_Java Web应用程序的反跨站点脚本(XSS)过滤器

    java 过滤xss脚本 这是为Java Web应用程序编写的一个好简单的反跨站点脚本(XSS)过滤器. 它的基本作用是从请求参数中删除所有可疑字符串,然后将其返回给应用程序. 这是我以前关于该主题的 ...

  5. java 过滤脚本_【快学SpringBoot】过滤XSS脚本攻击(包括json格式)

    XSS攻击是什么 XSS攻击全称跨站脚本攻击,是为不和层叠样式表(Cascading Style Sheets, CSS)的缩写混淆,故将跨站脚本攻击缩写为XSS,XSS是一种在web应用中的计算机安 ...

  6. Java简单的XSS过滤方法

    Java简单的XSS过滤方法 因为某甲方程序XSS过滤类一直没起作用,所以百度了下,简单的写了个参数XSS过滤方法.....上代码~~ import java.io.UnsupportedEncodi ...

  7. java过滤_java 过滤list的几种方式

    java中 过滤list的几种方式 方式一:使用java 8语法:stream+反射 Liststudent3List=new ArrayList<>(); Student3 studen ...

  8. Java过滤XSS脚本攻击记录一下

    背景 之前公司信息安全部门对公司项目进行网络安全升级时,发现项目里可能会出现XSS脚本攻击漏洞,所以就需要对其参数进行过滤拦截. XSS 百度百科:XSS攻击全称:cross site scripti ...

  9. Java过滤特殊字符

    Java正则表达式过滤 1.Java过滤特殊字符的正则表达式----转载 java过滤特殊字符的正则表达式[转载] 2010-08-05 11:06 Java过滤特殊字符的正则表达式   关键字: j ...

最新文章

  1. mxnet中symbol的网络结构输出(参数维度,和每层输出维度)
  2. Python爬虫利器之Beautiful Soup的全世界最强用法 五百行文章!
  3. 腾讯云推出一站式 DevOps 解决方案 —— CODING DevOps
  4. svg画css,CSS vs. SVG:图形文本的效果
  5. 开发效率提升15倍!批流融合实时平台在好未来的应用实践
  6. 双系统安装ubuntu后没有windows启动项
  7. 数据产品-数据可视化工具Excel之数据透视表
  8. 【Vegas原创】RHEL6多界面切换方法
  9. Python高级特性:Python迭代、生成器、列表生成式
  10. matlab把结构按条件排序,matlab结构体数组排序
  11. 视频自动生成字幕VideoSrt
  12. C语言学习-翁凯(第十章笔记)
  13. 【树莓派】设置树莓派开机自动运行python脚本
  14. jQuery选择器详细介绍
  15. 群晖无数据丢失的磁盘阵列变更解决方案(4盘位两个Raid1转SHR-1)
  16. 腾讯云Ubuntu18.04配置OpenPCDet深度学习环境
  17. 蜗牛学院:这6种心态,容易毁掉你的职场
  18. 上传本地项目到maven私服(nexus)踩坑记录
  19. python操作ipv6_python ipv6计算SQLAlchemy复杂查询
  20. 柳絮会携带新冠病毒?这些新冠谣言别信!

热门文章

  1. allure-results does not exist
  2. 如何把jpg转换成pdf格式文档
  3. 小程序点击事件携带参数
  4. Mendeley修改系统默认字体
  5. 6-4 计算全部天数(日历) (20分)
  6. html.gmt文件,基于格林威治标准时间(GMT)的jQuery模拟时钟插件
  7. 笔记本电脑,屏幕分辨率一般是多少
  8. 船新版本, IDEA 2020.3 正式发布,新特性真香
  9. CMD命令行修改.ps1文件(powershell脚本)的默认打开方式
  10. GIS矢量数据上传到postgresql数据库的三种方式