萧箫 发自 凹非寺
量子位 报道 | 公众号 QbitAI

这年头,真是什么样的数据集都有了。

IBM的5亿行代码(bug)数据集、清华&阿里的460万少样本NER数据集、还有假货数据集、“黑话”数据集、小黄图数据集……咳咳。

没错,相比遭遇瓶颈的算法,数据现在成了AI行业的“香饽饽”——

他们发现,当年一个ImageNet走天下,微调AI模型参数就能取得SOTA的时代已经过去。

来自谷歌AI的最新研究表明,要想在细分领域取得更好的模型效果,精准优质的数据十分重要,它在极大程度上决定了AI模型的性能。

例如,谷歌曾经做过一款流感趋势预测模型,但由于数据质量太差,预测结果甚至偏离了流感峰值的140%。

连斯坦福大学副教授、Coursera联合创始人吴恩达,也强调数据质量对于AI的重要性:

80%的数据+20%的模型=更好的AI。

真正“有用”的AI模型,离不开数据

一直以来,数据质量对于AI模型的影响程度都在被低估。

随着大模型如BERT、Alphafold2、GPT-3、DALL·E逐渐成为人工智能产业的潮流,更多的数据也在被“投喂”进各种AI模型中。

数据质量的问题,也因此更加突出。

来自谷歌、苹果、斯坦福、哈佛等七家顶级机构的一项研究表明,越大的语言模型,隐私泄露风险就越

他们用OpenAI的GPT-3模型做了实验,发现只需要一串“暗号”,就能让它报出某个人的姓名、电话、住址等隐私信息

由于AI模型不能完全“消化”数据,只会把训练数据中的一部分原样展示出来,导致模型越大,对数据的记忆能力就越强,泄露隐私、输出虚假信息片段的可能性就越高。

不少大型AI公司,已经开始从根本上解决数据质量问题。

谷歌就已经开始研发数据处理算法,其中的TEKGEN模型,能将数据质量靠谱的知识图谱转换成文本数据库,再用于AI模型的训练。

而IBM、清华大学、阿里达摩院等国内外研究机构,也开始建立类似代码bug、假货、少样本NER一样的细分领域数据集

但这些做法都需要足够的人力和精力,相比之下,外包/众包可能是更多AI企业的选择。然而在这种情况下,又可能获得不合要求、甚至良莠不齐的数据,质量难以保障。

现在,AI训练数据处理行业中迸现出一匹黑马——

一家对AI算法落地有所研究的AI训练数据服务商,自主研发了一个名为「云测数据标注平台4.0」的数据处理平台,直接将数据标注的最高准确率提升到了99.99%

据云测数据表示,这一平台使得企业服务成本平均降低了60%以上,至于研发AI项目的效率,则提升了2倍不止。

这样的标注效率,并非有口无据。在4.0正式版上线前,「云测数据标注平台」一直是云测数据内部自用的AI训练数据处理平台。

正是凭借着这一平台,结合其高精准数据标注能力和场景化训练数据方案等实力,云测数据连续两年在数据标注公司排行榜上夺得TOP 1的位置。

他们的平台,凭什么拿下行业TOP 1?

凭的是三大技术特点:稳、全、快。

首先,对于目前成熟的标注场景,保证AI辅助标注稳定不出错。

对于智能数据标注技术来说,目前比较成熟的场景包括OCR(光学字符识别)、语音切割等任务。

以OCR为例,识别准确率是基本要求,更重要的是文字识别的效率:

至于ASR(语音识别)也是基本操作:

当然,如果需要的是TTS(智能转写)方面的数据,将一段话迅速转成拼音也非常easy:

其次,平台的效率不仅体现在识别速度和准确率上。

「云测数据标注平台4.0」另一个重要的特性,体现在它的场景全面性上——既能做2D边界框这种最简单的标注,也能做业内公认非常难的多端数据融合。

图像、文本、语音、音视频……只有你想不到,没有平台做不到的数据类型。

先以进阶一点的NLP实体抽取为例。

这项技术的难点在于,必须迅速找出一段长文本中最有用的关键信息,过程中不仅涉及大量学术名词,而且分类的合理性也必须考虑。

在这种情况下,「云测数据标注平台4.0」对于医疗专业的学术名词也能轻松处理,且能准确地按照数据要求进行分类:

更重要的是,这一平台也能做行业公认较难的一项技术——多端数据融合

这项技术包括多模态融合和多传感器融合两种类型,每种类型对于融合算法的要求都非常高。

以这项技术目前应用最广泛的自动驾驶领域来看,多传感器融合不仅要将多个传感器如激光雷达的数据进行融合,使得系统获取比单一传感器数据更多的信息,还得确保这一过程的准确率。

例如,一个简单的框就能将车辆的3D激光点云数据自动识别出来,更重要的是还能做智能贴合

除此之外,在这些数据中,还涉及语音、图像、文本等多种模态信息的融合,即使只是图像信息,也涉及2D和3D数据的融合。

而在实现了传感器和多模态融合后,也还需要面临由于传感器硬件更迭,导致数据类型更新的问题,因此在工程实现时,可扩展性也是考虑因素之一。

最后,也是最重要的,就是对数据标注效率的提升了。

不同的AI模型,所用的数据类型并不一样,因此在获取AI训练数据时,也必须相应地调整标注方式,然而有些方法由于标注效率很低,从而导致成本的提升。

以图像分割为例,这项技术目前主流的标注方法有两种:多边形分割、像素级标注。

其中,多边形分割是一个成本巨大的标注方式,操作者必须像用PS里的“钢笔”一样,一点点地描出目标物体的边缘形状,将它与背景分割开来。

如果采用智能多边形分割的话,往往会出现细节却需要反复调整的情况,甚至比人工描边还慢(以某开源平台的智能标注效果为例):

相比之下,目前比较先进的标注方法像素级标注,以2D边界框的简单操作就能迅速标注出物体的形状,准确率比多边形分割要高得多:

然而,并非所有AI图像分割模型都采用像素级标注的数据训练。

这就导致在AI模型要求多边形分割数据时,会出现标注成本极高的情况。

为此,「云测数据标注平台4.0」背后的程序员们,对多边形分割进行了优化:以像素级标注的简单操作,也能标注出多边形分割的效果,极大地加快了不同类型数据标注的效率。

或许有的人还对数据标注行业有所误读。但「云测数据标注平台」已经用实力证明,做出精准高质量的数据,同样是一个技术活。

现在,这一平台的4.0正式版,已经对外商业化使用。

云测数据,行业中的“数据科学家”

自人工智能爆发以来,「云测数据标注平台」已有近5年的沉淀。

2017年,正值AI技术爆发一年有余,各行业对于数据处理的需求只增不减,随着AI模型变得越来越多样化,更多元的数据需求也在被提出。

云测数据能走到如今行业数据质量TOP 1的位置,客户涉及智能驾驶、智慧金融、智慧城市到智能家居等多个行业,涵盖计算机视觉、语音识别、自然语言处理、知识图谱等AI主流技术领域,所做的远不止把控AI训练数据的准确率。

数据标注,只是控制AI训练数据质量中的一环。

事实上,从AI企业提出对应需求的那一刻起,云测数据就开始对质量进行把控了。

接到需求后,云测数据采集团队需要根据客户所用的AI算法模型,对所采集的数据进行评估梳理,确定贴合模型训练的数据采集需求,通过行业首创的数据场景实验室进行相应的采集。

同时,在数据采集阶段,云测数据团队就会先对采集的数据进行审核清洗。

这一步非常关键,许多未经审核清洗就用作标注的数据,可能包含有不适合用作模型训练的隐私数据、或低质量数据。

对于隐私数据,需要适当对数据进行脱敏化处理;至于低质量数据,则需要对数据进行清洗,确保这批数据适合标注。

至于数据标注和质检的过程也堪称严苛,云测数据设计了从创建任务、分配任务、标注流转、到质检/抽检环节和最后的验收等更完善的管理流程,每个环节有相应专业人员来把控数据标注的质量和时间节点,得以在保证质量的前提现下可以真正提高效率。

这意味着,即使AI企业只提供一个模糊需求,云测数据也能通过从采集到标注的一整套流程,将能够直接使用的AI训练数据呈现给企业。

因此,要想从根本上控制数据质量,即使是数据行业也得掌握AI算法工程师的技术:

只有理解AI算法的原理,才能明确最适合模型的数据条件和类型,最终交付合适的AI训练数据。

这几年时间里,云测数据其实遇见过不少以“一篇AI论文”为需求的数据处理客户。

尤其是在AI技术爆发初期,许多企业对AI算法有一定了解,但并不清楚应该怎么处理数据,也没有任何可以用于AI模型训练的数据资源。

而且随着自动驾驶、金融、医疗等专业领域开始用上更复杂的AI算法,数据质量开始成为“重点关注对象”,任何一个错误的数据,都可能降低模型的准确率。

日新月异的AI算法、和更加复杂的场景,让一路走过来的云测数据,磨炼出了如今的「云测数据标注平台4.0」,不仅数据类型全面,而且数据质量高。

接下来,他们还希望能将这个平台进一步智能化,以迎接接下来的行业挑战。

云测数据总经理贾宇航表示,这或许最终会演变成一场“质量与效率上的博弈”:

最近,自动驾驶行业很火,我们需要处理的数据也呈现出一个数量级的增长。例如,去年一家企业只需要采集10辆RoboTaxi的数据,今年就增加到了百千辆RoboTaxi。

但我们希望,在保证数据质量不变的情况下,数据处理成本不会呈线性增长,而是利用智能化平台,让数据处理的成本更合理、效率更高。

云测数据的真实身份,其实是AI训练数据行业中的“数据科学家”:

他们的目标,是让AI行业能真正实现数据驱动

99.99%准确率!AI数据训练工具No.1来自中国相关推荐

  1. 个人电脑进行AI数据训练需要的硬件配置

    随着深度学习.人工智能等领域的不断发展,对计算机的性能要求也越来越高.多显卡的配置可以有效提升计算机的性能,进而提高AI数据训练的效率.本文将介绍如何在个人计算机上安装多个显卡进行AI数据训练,并给出 ...

  2. 免费AI数据标注工具-音频标注软件

    最近疫情比较严重,大家有没有发现有一个AI应用有点起死回生的感觉了,当然不是图片识别的应用场景了,例如口罩识别.无接触体温检测等等已经火爆的一塌糊涂了,如果有对口罩遮挡识别的小伙伴可以看我的另一篇文章 ...

  3. AI数据标注工具Doccano

    Doccano是一款开源的标注工具,用于自然语言处理和机器学习任务.它提供了用户友好的界面,使用户能够轻松地标注文本.序列标注.文本分类和文本配对等任务.doccano支持多种标注格式,并且可以方便地 ...

  4. 深度学习数据标注工具

    2020.12.7 更新 免费AI数据标注工具合集-图片标注 免费AI数据标注工具-音频标注软件 免费AI标注工具-人体关键点工具 免费AI标注工具-医疗影像标注工具 常用的目标检测工具有很多,但是图 ...

  5. 像git一样使用AI数据集!免费数据托管工具上线,让模型用「活」的数据集训练...

    贾浩楠 发自 凹非寺 量子位 报道 | 公众号 QbitAI 搞机器学习的人,很多都饱受数据管理的折磨. 要么是数据集老旧,需要手工修订标注. 要么是同一个数据集有很多被别人调整过的版本,无从下手. ...

  6. DL之NN/CNN:NN算法进阶优化(本地数据集50000张训练集图片),六种不同优化算法实现手写数字图片识别逐步提高99.6%准确率

    DL之NN/CNN:NN算法进阶优化(本地数据集50000张训练集图片),六种不同优化算法实现手写数字图片识别逐步提高99.6%准确率 目录 设计思路 设计代码 设计思路 设计代码 import mn ...

  7. 数学题 识别 批改 python_准确率99.9%!AI批改数学题,误判率仅为人工1/10,计算填空应用题都能批改...

    原标题:准确率99.9%!AI批改数学题,误判率仅为人工1/10,计算填空应用题都能批改 11月19日,猿辅导旗下小猿口算App宣布,目前小猿口算针对小学横式题目的AI批改准确率已经达到了99.9%, ...

  8. 立体仓库货物识别率99.9%!AI让仓储管理事半功倍

    立体仓库是采用几层.十几层乃至几十层高的货架储存单元货物,用相应的物料搬运设备进行货物入库和出库作业的仓库.随着人工智能.物联网.大数据等新技术的广泛应用,立体仓库由单一存储向多功能.智能化仓储物流转 ...

  9. 医疗领域大突破:AI眼病诊断工具堪比专家,准确率达94%!

    来源:新智元 本文共1379字,建议阅读5分钟. DeepMind计划开发一种医疗产品,能够帮助医生通过普通的眼部扫描检测50多种可能威胁到视力的疾病. [ 导读 ]Deepmind与英国NHS旗下的 ...

最新文章

  1. uniapp移动端H5在线预览PDF等文件实现源码及注解
  2. 某企业生产系统升级Linux系统及内核
  3. 一起开心寒假训练总复习
  4. 宁夏公安打传销端窝点为春节保平安
  5. 《天天数学》连载32:二月一日
  6. SQL2000系统表、存储过程、函数的功能介绍及应用
  7. RPC理论以及Dubbo的使用介绍
  8. json数组转java集合
  9. Linux中锐捷认证开启WiFi热点解决方案
  10. 【综合类型第 8 篇】陆游和唐婉的故事
  11. 【Mapreduce】利用job嵌套,多重Mapreduce,求解二度人脉
  12. hive中的TextFile转为SequenceFile
  13. 怎么用计算机算ess tss,ESS、RSS、TSS分别表示什么?
  14. 奇怪的是珊瑚虫版反而可以
  15. 定义一个方法,使用随机的字母+数字生成一个6位数的密码
  16. 从阿里云下载centos的步骤
  17. 查看eigen库版本的指令
  18. EventBus的基本使用
  19. Windows下机器视觉YOLOv5+arduino单片机玩转创客小物件
  20. LinuxCNC与EtherCAT的理解

热门文章

  1. 对象是空的吗? [重复]
  2. Swift iOS : 模糊化
  3. Oracle将关闭Java.net和Kenai.com社区
  4. mysql的1067启动错误的解决
  5. PowerPoint动画制作时的需要注意的N个事项
  6. 01-迭代开发的基本需求和Scrum标准
  7. Linux shell编程(四)流程控制
  8. interrupt InterruptException
  9. 使用python编写单元测试
  10. php lyadmin,index.php