清除WORD格式HTML垃圾样式
static string CleanWordHtml(string html)
{
StringCollection sc = new StringCollection();
// get rid of unnecessary tag spans (comments and title)
sc.Add(@"<!--(/w|/W)+?-->");
sc.Add(@"<title>(/w|/W)+?</title>");
// Get rid of classes and styles
sc.Add(@"/s?class=/w+");
sc.Add(@"/s+style='[^']+'");
// Get rid of unnecessary tags
//sc.Add(@"<(meta|link|/?o:|/?style|/?div|/?st/d|/?head|/?html|body|/?body|/?span|!/[)[^>]*?>");
sc.Add(@"<(meta|link|/?o:|/?style|/?font|/?strong|/?st/d|/?head|/?html|body|/?body|/?span|!/[)[^>]*?>");
// Get rid of empty paragraph tags
sc.Add(@"(<[^>]+>)+ (<//w+>)+");
// remove bizarre v: element attached to <img> tag
sc.Add(@"/s+v:/w+=""[^""]+""");
// remove extra lines
sc.Add(@"(/n/r){2,}");
foreach (string s in sc)
{
html = Regex.Replace(html, s, "", RegexOptions.IgnoreCase);
}
return html;
}
清除WORD格式HTML垃圾样式相关推荐
- 基于summernote的富文本编辑器,粘贴时去除word格式
在使用summernote的富文本编辑器,在粘贴word内容时,会发现代码中有很多无效的代码.通过js处理,可以去掉很多无用的代码. 处理前,粘贴后的代码类似这样: <p><!--[ ...
- 用ptyhon和vba清除Word的标题样式保留字体格式,生成标题目录。
不同格式的word文档合并为一个文件. 问题: 文件汇编,需要将70多个文件汇编成一个到一个文件里.最终汇编的方式是用word--插入--对象--文件中的文字. 但是由于原始文件有的设置了自动编号.插 ...
- 如何清除Word文档中的格式
If you've applied various formatting changes to the content in your document, and they either don't ...
- Office|【Word】如何快速清除Word中大量的无效样式
目录 一.假清除:通过管理样式隐藏不需要的样式 二.真清除:快速清除Word中大量的冗余样式 在做一个大项目的前期,如果未统一模板,众多部门发来的文档在Word中完成合并后,可能会导致样式千奇百怪,不 ...
- Word提供的【样式和格式】设计!
现在,还是不用急于录入文字,需要指定一下文字的样式.通常,很多人都是在录入文字后,用"字体"."字号"等命令设置文字的格式,用"两端对齐". ...
- Word文档怎么删除html标签,word怎么清除所有格式
在 Word 中,选择性粘贴有三种格式 分别为保留原格式.合并格式和保留原文本,另外,还可以选择"HTML 格式.无格式文本.无格式的 Unicode 文本.带格式文本(RTF)和图片(增强 ...
- word显示隐藏格式清除残留格式
显示隐藏格式: 关闭隐藏按钮 清除残留格式: 1.点击样式下拉按钮 2.点击清除格式
- 计算机word格式,word格式与样式 -电脑资料
word格式与样式 -电脑资料 时间:2019-01-01 [www.unjs.com - 电脑资料] 您正在看的Word教程是:"样式与格式"在排版中的妙用,word格式与样式& ...
- word格式转html自动编号,word文档中标题样式及自动编号操作方法
在Word中使用样式是必不可少的尤其是在编辑标题的时候,很多小伙伴们对于word文档中的样式都是只知其一不知其二,不是非常熟练的运用,今天小编就来给大家分享下word文档中样式的使用方法及其自动编号的 ...
最新文章
- 深入理解ceph-disk prepare 源码逻辑
- Go开发者路线图2019,请收下这份指南
- 下一代安全工具:SHA-3
- [SQL使用经验]选用 IN 还是 EXISTS,哪个性能更好
- 为踏实上进的【飞鸽传书】开发者而感动
- 线上CPU100%排查
- HTML5的设计目的是为了在移动设备上支持多媒体
- udhcp源码详解(二)--转
- ipmitool 设置网关_使用ipmitool 修改管理卡IP等
- ssh大学生银行助学贷款系统的设计与实现源码
- 【云游戏】云游戏的架构设计和技术实现
- java 过滤器注解_Java--Filter(过滤器)
- TypeError parentComponent.ctx.deactivate is not a function
- js获取图片点坐标值
- 关于Android 抓包 与 反抓包
- 10-230 查询计算机工程专业学生选修但软件工程专业学生没有选修的课程
- 数据仓库十大主题;TeraData金融数据模型
- 全国大学生网络安全精英赛初赛(nisp一级)
- 重来一次高考,你还选择当程序员吗?
- 观念决定态度,态度决定一切
热门文章
- UNION 使用方法
- android 矢量图 开源,Android 使用 SVG 矢量图
- Udacity CS101 笔记
- 英特尔发布12代酷睿处理器
- How DVB SI EIT table maped into TS packet?
- java.lang.NoClassDefFoundError: Could not initialize class org.xnio.channels.Channels
- gcc和arm-linux-gcc(使用)
- 【5015】讲故事的能力:从功能到卖点
- 关于.NET的SMTP的问题:如不支持ESMTP(身份认证)等等
- 兰彻斯特平方定律 matlab,兰彻斯特模型