static string CleanWordHtml(string html)
        {
            StringCollection sc = new StringCollection();
            // get rid of unnecessary tag spans (comments and title)
            sc.Add(@"<!--(/w|/W)+?-->");
            sc.Add(@"<title>(/w|/W)+?</title>");
            // Get rid of classes and styles
            sc.Add(@"/s?class=/w+");
            sc.Add(@"/s+style='[^']+'");
            // Get rid of unnecessary tags
            //sc.Add(@"<(meta|link|/?o:|/?style|/?div|/?st/d|/?head|/?html|body|/?body|/?span|!/[)[^>]*?>");
            sc.Add(@"<(meta|link|/?o:|/?style|/?font|/?strong|/?st/d|/?head|/?html|body|/?body|/?span|!/[)[^>]*?>");
            // Get rid of empty paragraph tags
            sc.Add(@"(<[^>]+>)+ (<//w+>)+");
            // remove bizarre v: element attached to <img> tag
            sc.Add(@"/s+v:/w+=""[^""]+""");
            // remove extra lines
            sc.Add(@"(/n/r){2,}");
            foreach (string s in sc)
            {
                html = Regex.Replace(html, s, "", RegexOptions.IgnoreCase);
            }
            return html;
        }

清除WORD格式HTML垃圾样式相关推荐

  1. 基于summernote的富文本编辑器,粘贴时去除word格式

    在使用summernote的富文本编辑器,在粘贴word内容时,会发现代码中有很多无效的代码.通过js处理,可以去掉很多无用的代码. 处理前,粘贴后的代码类似这样: <p><!--[ ...

  2. 用ptyhon和vba清除Word的标题样式保留字体格式,生成标题目录。

    不同格式的word文档合并为一个文件. 问题: 文件汇编,需要将70多个文件汇编成一个到一个文件里.最终汇编的方式是用word--插入--对象--文件中的文字. 但是由于原始文件有的设置了自动编号.插 ...

  3. 如何清除Word文档中的格式

    If you've applied various formatting changes to the content in your document, and they either don't ...

  4. Office|【Word】如何快速清除Word中大量的无效样式

    目录 一.假清除:通过管理样式隐藏不需要的样式 二.真清除:快速清除Word中大量的冗余样式 在做一个大项目的前期,如果未统一模板,众多部门发来的文档在Word中完成合并后,可能会导致样式千奇百怪,不 ...

  5. Word提供的【样式和格式】设计!

    现在,还是不用急于录入文字,需要指定一下文字的样式.通常,很多人都是在录入文字后,用"字体"."字号"等命令设置文字的格式,用"两端对齐". ...

  6. Word文档怎么删除html标签,word怎么清除所有格式

    在 Word 中,选择性粘贴有三种格式 分别为保留原格式.合并格式和保留原文本,另外,还可以选择"HTML 格式.无格式文本.无格式的 Unicode 文本.带格式文本(RTF)和图片(增强 ...

  7. word显示隐藏格式清除残留格式

    显示隐藏格式: 关闭隐藏按钮 清除残留格式: 1.点击样式下拉按钮 2.点击清除格式

  8. 计算机word格式,word格式与样式 -电脑资料

    word格式与样式 -电脑资料 时间:2019-01-01 [www.unjs.com - 电脑资料] 您正在看的Word教程是:"样式与格式"在排版中的妙用,word格式与样式& ...

  9. word格式转html自动编号,word文档中标题样式及自动编号操作方法

    在Word中使用样式是必不可少的尤其是在编辑标题的时候,很多小伙伴们对于word文档中的样式都是只知其一不知其二,不是非常熟练的运用,今天小编就来给大家分享下word文档中样式的使用方法及其自动编号的 ...

最新文章

  1. 深入理解ceph-disk prepare 源码逻辑
  2. Go开发者路线图2019,请收下这份指南
  3. 下一代安全工具:SHA-3
  4. [SQL使用经验]选用 IN 还是 EXISTS,哪个性能更好
  5. 为踏实上进的【飞鸽传书】开发者而感动
  6. 线上CPU100%排查
  7. HTML5的设计目的是为了在移动设备上支持多媒体
  8. udhcp源码详解(二)--转
  9. ipmitool 设置网关_使用ipmitool 修改管理卡IP等
  10. ssh大学生银行助学贷款系统的设计与实现源码
  11. 【云游戏】云游戏的架构设计和技术实现
  12. java 过滤器注解_Java--Filter(过滤器)
  13. TypeError parentComponent.ctx.deactivate is not a function
  14. js获取图片点坐标值
  15. 关于Android 抓包 与 反抓包
  16. 10-230 查询计算机工程专业学生选修但软件工程专业学生没有选修的课程
  17. 数据仓库十大主题;TeraData金融数据模型
  18. 全国大学生网络安全精英赛初赛(nisp一级)
  19. 重来一次高考,你还选择当程序员吗?
  20. 观念决定态度,态度决定一切

热门文章

  1. UNION 使用方法
  2. android 矢量图 开源,Android 使用 SVG 矢量图
  3. Udacity CS101 笔记
  4. 英特尔发布12代酷睿处理器
  5. How DVB SI EIT table maped into TS packet?
  6. java.lang.NoClassDefFoundError: Could not initialize class org.xnio.channels.Channels
  7. gcc和arm-linux-gcc(使用)
  8. 【5015】讲故事的能力:从功能到卖点
  9. 关于.NET的SMTP的问题:如不支持ESMTP(身份认证)等等
  10. 兰彻斯特平方定律 matlab,兰彻斯特模型