欢迎访问网易云社区,了解更多网易技术产品运营经验。

10月16日,2018年 AIIA人工智能开发者大会在苏州举办。会议邀请了国内外人工智能产业知名人物、国家政府主管部门、行业内顶尖企业、知名学者代表、开源社区优秀贡献团队及个人,共同交流了技术现状趋势、生态建设经验以及开源社区运营。

网易云易盾CTO朱浩齐

在《AI安全分论坛》,网易云易盾CTO朱浩齐受邀出席,并分享了《人工智能在内容安全的应用实践》主题内容。

随着政策的收紧,“内容安全”成为各大平台、网站的“心病”。2017年以来,因为内容安全问题而被勒令下架、停播、整改的事件相信各位还历历在目。伴随着人工智能的快速发展,以往依靠人工审核的传统方式已经无法满足庞大体量的平台、网站的需求。

那么如何依靠人工智能避开“内容安全”的坑?以下让我们一探究竟。

人工智能技术的初步应用

随着网络强国战略思想、加强网络内容建设等指导思想的推出和强化,内容安全已经成为互联网企业生存和发展的生命线。朱浩齐表示,国家多次强调互联网不是法外之地,利用网络散布色情材料、进行人身攻击、兜售非法物品等言行要坚决管控,因此绝不能任其大行其道。

然而,传统的内容技术已难以满足企业日益增长的安全需求,就拿图像来说,传统的色情识别技术为例,就经常会存在误判、错判、漏判等情况。

而基于深度学习模型的图像分类,则可以实现更高的准确率,以及图像、内容文本实时处理。实时图像处理的背后是这样的一个技术架构在支撑:下载集群和并行计算,然后再经过色情模型、暴恐模型、涉政模型、广告模型等判断处理,然后给出结果处理。这一套流程下来,平均时长仅在500ms以内。

在文本内容识别上,之前的传统技术存在着各种各样的问题:

  • 变化多:垃圾变种形式多样,内容重复率低;规则系统需要及时维护庞大的规则库才能较好的拦截,人工审核量巨大。

  • 内容短:1~2句话居多,词汇量少;常规的文本分类模型不适用。

  • 多语义:部分敏感词有多重语义;容易误判正常语境下的内容

  • 词序敏感:同样的词在不同词序下会有不同的语义;现有方法无法较好地处理这种问题。

而人工智能技术的应用则可以进行准确实时的文本处理,包括垃圾内容变种智能识别与修正、多意义上下文短文本垃圾检测、Deep Learning垃圾检测等。

具体是:

  • 垃圾内容变种智能识别与修正,能够结合上下文,智能识别同音、拼音、形近、拆字、符号等变形内容。

通过事先收录的拼音库、形近字库、拆字库、符号库等字典,找出有变种嫌疑的内容,再结合上下文语境信息,使用Machine Learning技术判断是否变种并进行修正。

汉字有几万个,人工收集形近字耗时耗力,而且不全面。通过算法计算汉字的相似度,快速找出所有的形近字,再进行人工确认,保证精准度。

同样一个“威”信,一个是“威”信的变种,一个不是,必须结合上下文语境进行判断。

  • 多意义上下文短文本垃圾检测,使用语义向量的方法识别垃圾语境,再结合垃圾关键词识别短文本垃圾,有效解决词汇量少、多义词等技术难点。

在这部分,基于深度学习模型的图像分类,易盾会使用自主研发的rankDoc算法自动挖掘出不同垃圾类别的数据集。另外,还会在不同垃圾类别的数据集上分别学习词向量模型,利用这些模型,结合机器学习方法在不同垃圾类别数据集上挖掘出每个词对应的上下文信息。

此外在检测时,对包含敏感词的文本会根据上下文信息和人工定制的规则,判断敏感词是否为垃圾语义,并进一步给出全文的检测结果。

检测样例如下所示:

Deep Learning垃圾检测,在语义向量、词性识别等NLP技术的基础上,利用RNN解决词序敏感问题。

易盾对人工智能技术的再优化和探索

但是仅依靠现有的人工智能技术是难以保证百分之百的内容安全的,干扰、特征小、尺度等因素下,昵称、头像、弹幕、打招呼、图床、足迹等等无孔不入的垃圾信息不断侵蚀着内容安全系统。因此,只有不断进化才能在技术层面加强防御实力。

为此,网易云易盾在人工智能技术的定制、算法、工程等方面进行了继续优化。

首先是提供了更为精细粒度的分类模型,筛选内容具体到6大类、20+场景、80+小类,在违规审查上更为严苛。此外,建立了人-物交互检测网络,关注人体有关部位及其附近物体,提取关键线索信息,能够较好地识别出“人-动作-物体”三元组信息。

如上所示,人-物交互检测模型在场景理解上的表现,包括视觉注意力机制(attention)、视觉关系检测(visual relationship detection)以及“人-物”交互检测(human-object interactions)。

通过持续的对抗训练,网易云易盾基于深度学习模型的图像分类技术不仅可以解决微小扰动对于神经网络的欺骗,而且可以对模型上线流程、对抗样本进行准确的稳定性评估。

图片来源:Beyond Adversarial Learning-Data Scaling Attacks in Deep Learning Applications

此外,音频处理也是其中的重要影响因素。图像分类技术能够基于不同的语音场景分类,对语音事件进行检测和识别,并且返回文本进行文本过滤。

基于以上的功能,网易云易盾还做了定制化的模型,根据业务需要,将图像处理分为预处理、模型、策略三阶段。预处理阶段输入图像特征分析或质量分析后,会根据需要进入基础服务阶段或定制服务阶段。模型阶段下,基础分类网络下数据将根据图像全局特征网略、一般网络、局部特征浅层网略进行模型整合和目标检测,定制分类网络则直接进入目标检测。

此外,网易云易盾也在语种识别、处理效率、安全标准提升、审核团队运营等方面不断实现能力提升,包括增加或即将增加藏语、维语、泰语、印度语等语种识别;提升直播、短视频的处理效率;密切配合监管部门,不断完善内容安全标准;并且不断优化审核系统、培养审核团队。

未来

未来,网易云易盾内容安全服务会遵守跨媒体智能、用户行为分析、高度定制化模型的技术路线,致力于实现更为精准高效的服务体系,满足不同企业的业务所需:

跨媒体智能:理解文本、图片、视频、音频的内容后再进行安全分析;

用户行为分析:收集更全面的用户行为数据,配合用户内容数据进行审核过滤;
高度定制化模型:紧贴监管部门政策法规、满足客户实际需求。

“作为网易云旗下的一站式安全服务,网易云易盾坚持提供可靠的内容安全服务。”分享最后,朱浩齐谈到,未来他们将继续认真打磨细节,保持足够的耐心来持续迭代产品,将这种工匠精神发扬光大。此外,“业务仍然重于技术”,技术会进步,业务才是核心。

网易云易盾依托团队20年的技术积累及对网易数十条业务线的保障经验,拥有海量特征库和成熟的安全机制,并结合超强云计算及人工智能技术,形成对游戏、金融、电商、娱乐等场景化解决方案,目前已服务集团内外上千家客户。

点击免费体验网易云易盾内容安全解决方案。

更多网易技术、产品、运营经验分享请点击。

相关文章:
【推荐】 如何实现360度的手游安全防护?网易云易盾专家分享最新实践
【推荐】 聊聊WS-Federation
【推荐】 #3.14 Piday#我的圆周率日

如何通过人工智能“避开”内容安全的“坑”? 1相关推荐

  1. 如何通过人工智能“避开”内容安全的“坑”?

    欢迎访问网易云社区,了解更多网易技术产品运营经验. 10月16日,2018年 AIIA人工智能开发者大会在苏州举办.会议邀请了国内外人工智能产业知名人物.国家政府主管部门.行业内顶尖企业.知名学者代表 ...

  2. 活动预告丨易盾CTO朱浩齐将出席2018 AIIA大会,分享《人工智能在内容安全的应用实践》

    本文来自网易云社区 对于很多人来讲,仿佛昨天才燃起来的人工智能之火,转眼间烧遍了各个角落,如今我们的生活中,处处渗透着人工智能.10月16日,2018年 AIIA人工智能开发者大会在苏州举办,网易云易 ...

  3. 活动预告丨易盾CTO朱浩齐将出席2018 AIIA大会,分享《人工智能在内容安全的应用实践》...

    本文来自网易云社区 对于很多人来讲,仿佛昨天才燃起来的人工智能之火,转眼间烧遍了各个角落,如今我们的生活中,处处渗透着人工智能.10月16日,2018年 AIIA人工智能开发者大会在苏州举办,网易云易 ...

  4. 公司取名避开这3个坑,通过率或可提升99%!

    点击上方蓝字关注我们 想注册企业开公司 取名是企业诞生的第一步 拉着亲朋好友想破脑袋.一顿讨论, 终于灵光乍现取了个好名字, 兴冲冲的跑去注册, 却惨被拒绝? 企业取名避开以下3个坑,提前准备3-5个 ...

  5. 注册公司避开这3个坑,通过率提升99%!

    想注册企业开公司?取个好名字是企业诞生的第一步!拉着亲朋好友想破脑袋,几番讨论,终于灵光乍现取了个满意的名字,兴冲冲跑去注册,却惨被拒绝?企业取名避开以下3个坑,提前准备3-5个备选名称,通过率或可提 ...

  6. AI+5G:2019.03.31第11届中国(深圳)IT领袖峰会【IT新未来: 5G与人工智能】内容概要

    AI+5G:2019.03.31第11届中国(深圳)IT领袖峰会[IT新未来: 5G与人工智能]内容概要 导读 5G+AI双核启动会更加珠联璧合.相得益彰. IOT 采集数据 → Deel Learn ...

  7. 『全球化产品』应该要避开的几个坑

    全球化的浪潮已经到来,越来越多的中国公司正在扬帆出海.根据AppAnnie的统计,目前Google Play中Top 10的移动APP开发公司,有4家来自中国.但是,海外市场相较于国内市场而言,也存在 ...

  8. 猎豹产品经理:「全球化产品」应该要避开的几个坑

    全球化的浪潮已经到来,越来越多的中国公司正在扬帆出海.根据AppAnnie的统计,目前Google Play中Top 10的移动APP开发公司,有4家来自中国.但是,海外市场相较于国内市场而言,也存在 ...

  9. 七牛云:用人工智能为内容安全保驾护航

    近日,在上海召开的2018年世界人工智能大会(2018 WAIC),吸引了来自全球的人工智能顶尖科学家.中外院士.百位国内外龙头企业CEO.本届大会主要从技术.产业.应用等角度,对人工智能技术和产业的 ...

最新文章

  1. 在C#.net中如何操作XML
  2. Git基础(常用命令)介绍
  3. 关于稳定性和故障的一点思考,每个互联网公司都吃过这个亏!
  4. HTML布局篇之双飞翼(圣杯)布局
  5. 脚本:获取CSDN文章的访问量
  6. Android中的人脸检测入门
  7. 博客文章列表(二)——算法、数据结构、数据库、ABCD
  8. 容斥原理的二进制实现模版
  9. php终止符,关于php中嵌入html代码时结束符“?”位置为什么这样放置?
  10. vscode编辑器 装JavaScript Standard Style 遇到不检测代码问题
  11. linux 下svn安装
  12. HADOOP docker(二):HDFS 高可用原理
  13. android 开发按键精灵,安卓按键精灵实现后台
  14. 【原创】Kinect for windows SDK 入门学习资源合辑
  15. 一、Docker:Linux/Windows在线安装Docker与命令大全总结
  16. WPS表格如何隔行填充颜色
  17. python爬虫动态加载页面_Python+Selenium爬取动态加载页面(2)
  18. 【诗词】曹雪芹:红豆词
  19. WDK学习笔记_基于区块链溯源系统的后端接口开发
  20. 深度学习图像标注软件LabelMe使用方法

热门文章

  1. cocos2dx 3.x 屏幕截图的两种方法及其优缺点
  2. 1.4 Linux 命令行界面
  3. Python中Tkinter模块的Canvas控件使用学习(2:绘制简单工程符号)
  4. java云片模板参数_Java使用云片API发送短信验证码
  5. 春节红包大战来袭:支付宝撒5亿,QQ撒2亿,就问你能赚多少?
  6. 什么是CPL,CPC,CPM,CPS网络广告
  7. jmeter 本机承载能力测试结果
  8. 在“Markdown”中插入表情包教程
  9. 职业规划九—it行业几条不同的路
  10. 没有ngrok的日子,幸好还有路由侠