如何“看懂”图片?谈出海企业的视觉识别体系搭建
对于出海企业,尤其是音视频行业出海企业,视觉识别能力已经成为必不可少的云服务基础建设。一方面,出海企业要面临出海国家各具特色的监管要求,需要通过视觉识别建立足够强大的风控系统;另一方面,视觉识别也是实现智能推荐、检索匹配的必要基础。
“视觉识别”确实是一个宏大的技术主题,从中可以衍生出算法研发、模型训练、策略调优等等研究方向,每个方向都值得展开细致的技术探讨。本篇文章暂不讨论具体的技术细节和实现,将更多的关注点放在视觉识别应该解决哪些识别目标的宏观问题上,即“机器面对未知图片,应该具备哪些组成部分的识别能力”的问题,着重介绍出海企业在建立视觉识别能力时应考虑哪几方面的识别功能。
一、人像识别
人像是讨论视觉识别时,最符合直觉的视觉主体,因此对图片中人像的识别能力是解决合规问题和实现更多高级功能的基础。人像包含姿态、肤色、装扮等多种因素,要求出海企业具备较为全面的识别能力。
1. 性别识别:
由于海外部分地区的文化环境差异,在对人像进行性别识别时,除了男性、女性,也要注意存在的部分少数群体。以免直接凭借外在男性/女性特征进行识别产生的偏差,引起不必要的声誉风险。
2. 体态识别:
识别人像姿态和身体形态,如半身像/全身像、站姿/坐姿/卧姿、高矮胖瘦等。因为姿势隐含了基础的倾向信息,例如:半身像更有可能是自拍、卧姿更有可能含有色情风险等等。因此,姿态识别的能力可以作为综合判定图片风险的参考因素之一。而身体形态的高矮胖瘦既能够辅助其他识别的准确性,也能够作为智能推荐的参考因素。
身着警服的女警(图片来源于网络)
3. 着装识别:
对人像着装的识别是风险判定和进阶功能的必备识别能力。在合规方面,着装覆盖皮肤的面积可以作为色情风险的判断因素;着装是否为警服、军装、皇家贵族服饰或者武装份子着装都可作为是否违规的参考因素。当具备着装风格的识别能力时,例如洛丽塔服饰、西装绅士风等,就可以提供兴趣推荐的进阶功能。
4. 肤色识别:
在肤色识别方面,由于国内企业长期训练的人像相关模型通常面向国内业务,因此模型的训练集一般采用了黄种人的样本,在进行海外人像的识别时,就要考虑肤色差异带来的泛化性变化,尤其是一些以往不考虑模型效果的极端场景,例如黑色人种的夜拍图。因此肤色识别并不是要能判定具体的肤色,而是保证模型对人像识别的良好适应能力。
二、物品识别
物品是图片中包含的一大重要视觉元素,这里的“物品”其实包含了无生命的物品和有生命的动植物等。对物品的识别能力直接关系到风险判定和智能推荐的效果,在这里我们可以将“物品”分为敏感物品、普通物品、动植物三类。
手持武器的索马里海盗(图片来源于网络)
1. 敏感物品:
敏感物品的识别直接关系到风险判定,画面中出现的某些物体就直接预示了风险,例如枪支弹药、毒品和相关植物、赌桌和老虎机等。但同时,在策略设置上也要考虑地区差异。
比如:当枪支出现在北美地区的社交媒体时,单从图片判定是否有风险是模棱两可的,但在中东的禁枪国家就可以直接判定为严重的违禁。同理,像十字架、圣经等具有宗教色彩的物品,在不同国家也具有不同的风险尺度。
2. 普通物品:
这里定义的普通物品即各类常见物品,对普通物品的识别更多的服务于智能推荐功能。例如,某位用户的动态图片中出现了多台智能手机、平板电脑、智能手表和电脑设备,那么他很有可能是数码爱好者,或是从事相关产品的产研销工作。
在中东地区禁忌的“猪”形象(图片来源于网络)
3. 动植物:
动植物的识别同样关系到内容合规与智能推荐两方面需求。在内容合规方面,某些动植物因其珍惜性需要识别,比如虎类等保护动物。还有些动植物是因为地区性文化禁忌而需要识别,比如印度的牛、泰国的象和中东地区的猪,都需要针对性地训练相应的动物识别模型。相比起来,智能推荐需求就更加容易理解,例如如果动态图片中频繁出现树木,那么他可能喜欢户外徒步,或者以护林员为工作。至于图片中出现的猫、狗等,也可以用作猜测宠物喜好的依据。
三、符号与标识识别
在图片的组成部分中,符号与标识往往是占据较小图像面积的固定图形,但又具备非常明显和强烈的象征意义,在符号和标识中包括了各类国徽会徽、军队标识、Logo、台标、宗教符号等,甚至地图这种形状是否完整具备重大意义的图形也可以视作符号标识的一种。
在这里我们可以分为高敏感标识和低敏感标识。
部分具有特殊意义的符号(图片来源于网络)
1. 高敏感标识:
这类标识往往因其意义具有相当高的敏感度,在识别时应该采用“宁错勿漏”的灵敏策略。例如:纳粹相关标识、佛教“卐”字标识、十字架标识、地图等。
这些符号在不同地区也具有不同的监管尺度,比如在大部分地区出现六角星图案不会有什么问题,但中东地区会将其与犹太教联想起来,因此在打入具有国家性宗教或有宗教信仰人口比重很高的国家市场时,对符号和标识的识别要尤为注意。
2. 低敏感标识:
这类标识主要囊括了一些常见的其他标识,比如商企logo、二维码、电视台台标、水印、协会徽标等。对这类标识的识别主要是能够满足平台的个性化需求,比如想判断用户发布的视频是否涉及竞对平台、是否是搬运涉嫌版权侵权,就需要识别画面中是否有logo、水印、台标等关键标识。
四、场景识别
在一般画面中,除却人物、物品、标识之后剩余的部分便可视为场景。在某些技术路线的设计中采用目标检测和判定主体风险的思路,但画面背景实际也蕴含了相当丰富的参考信息,同样可以作为视觉识别结果的参考因素。
时尚街拍(图片来源于网络)
例如户外、街景、卧室、卫生间等场景已经包含了主体行为的倾向,比如“街景”(场景)+“全身像”(体态)+“潮流”(着装)+“潮流品牌”(logo)的组合就表明图片很有可能是关于时尚街拍的内容,结合主体行为和背景信息往往能形成更加准确的综合判定结果。
五、写在最后
对于出海企业,在建立视觉识别能力的过程中可以考虑采用将图片拆解为“人像”、“物品”、“符号标识”、“场景”四大部分的设计思路,从而获得较为完整的画面信息和识别结果。在每个分类中根据自身需要进行细分门类的扩展和下探,或根据出海地区文化禁忌和法律法规进行增减调整。
当然,想要获得更加完整的视觉信息,同样还需要OCR技术和NLP技术的辅助,甚至要获取视频文件/视频流的音轨内容,才能够更加综合地判定风险的存在。
如何“看懂”图片?谈出海企业的视觉识别体系搭建相关推荐
- 重磅 |《企业埋点体系搭建方法论及实践经验》白皮书上线
<企业埋点体系搭建方法论及实践经验>白皮书,依托神策数据服务的 1000 余家企业客户的数据采集实战经验,全面展示神策数据所沉淀的企业数据采集埋点的最佳实践,同时围绕企业在埋点过程中所遇到 ...
- 基于神策用户画像,在线教育企业线索标签体系搭建及培育全流程解析
作者介绍:TigerHu,环球网校大数据营销产品 leader,主导数据产品线和营销 CRM 产品线. 本文内容均从作者真实实践过程出发,结合作者公司与神策数据合作真实场景,从神策用户画像产品出发,全 ...
- 数据采集埋点福音!《企业埋点体系搭建方法论及实践经验》白皮书上线
<企业埋点体系搭建方法论及实践经验>白皮书,依托神策数据服务的 1000 余家企业客户的数据采集实战经验,全面展示神策数据所沉淀的企业数据采集埋点的最佳实践,同时围绕企业在埋点过程中所遇到 ...
- 学完文本知识,我就直接看懂图片了!
文 | Yimin_饭煲 2020年, OpenAI的大作GPT-3 (Language Models are few shot learners) 横空出世,震惊整个NLP/AI圈.大家在惊叹于GP ...
- 【观察】从VCF云能力九宫格,看懂“真”全栈企业云平台
申耀的科技观察 读懂科技,赢取未来! 我们知道,过去二十多年,VMware把虚拟化技术带入全球乃至中国,帮助了千千万万的企业客户实现了数据中心基础设施的转型,而它自身也凭借虚拟化技术称雄业内,成为市场 ...
- 计算机如何“看懂”图片?达摩院提出新的研究方法
简介: 本文的部分内容基于英文论文"Learning in the frequency domain"翻译而来,英文论文已经被计算机视觉顶级会议Computer Vision an ...
- 分类VS标签,一文带你看懂数据中台为什么要建标签体系?
前言 在众多的数据中台的解决方案中,一个叫做"标签中心"或"标签体系"的应用,几乎成了数据中台的"标配". 乍一看,标签体系就像一个树状的分 ...
- 企业人力资源管理体系搭建——规范人力资源管理制度
与其他同类企业一样,该电子公司面临招不到合适的人才.留不住人才的难题,自然也加大了人力资源管理的成本.公司人事部员工的工作基本上陷入了"招聘.培训.办理离职.再招聘--"的恶性循环 ...
- 一文看懂计算机视觉-CV(基本原理+2大挑战+8大任务+4个应用)
2020-03-06 20:00:00 计算机视觉(Computer Vision)是人工智能领域的一个重要分支.它的目的是:看懂图片里的内容. 本文将介绍计算机视觉的基本概念.实现原理.8 个任务和 ...
最新文章
- 新手熊猫烧香学习笔记
- R语言广义加性模型GAMs:可视化每个变量的样条函数、样条函数与变量与目标变量之间的平滑曲线比较、并进行多变量的归一化比较、测试广义线性加性模型GAMs在测试集上的表现(防止过拟合)
- 计算机中丢失sense3.dll,sense3.dll
- 2018山东省省赛 问题 H: Dominoes
- 总线及数据传输技术【待完善】
- .NET Core 1.1 Preview 1上线:支持macOS 10.12/Linux Mint 18
- java aop管理权限_基于spring aop 权限管理系统原型 - andyj2ee - BlogJava
- Oracle数据库被锁
- 【LeetCode 剑指offer刷题】动态规划与贪婪法题7:47:礼物的最大价值
- bit加密的时候会格式化硬盘吗_硬件百科:能在移动SSD上装系统吗?
- 高效MacBook工作环境配置
- Davinci Configurator之User Config File配置功能
- 使用js实现百度地图与高德地图经纬度的转换
- js 鼠标放置图片展示大图并跟随鼠标移动
- 20doing 动名词
- 西北农林科技大学考研计算机大纲,2021年西北农林科技大学考研真题大纲参考书目...
- swagger接口导出excel文件打不开
- 单机Eureka的构建
- java数据库的量级_百度万亿量级数据库Tera架构应用、设计与实践全攻略
- 什么是弱类型的语言,什么是强类型的语言。