数据标注作为人工智能发展道路上的基石,是人工智能发展的重要环节。数据标注的过程是通过人工贴标签的方式,为机器提供可学习的样本数据,最终使机器可以自主识别数据。在深度学习模型的测试过程中,高质量的数据标注往往能更好地提高模型训练的质量。

数据标注类型主要包括图像标注、文本标注、语音标注和3D点云标注四大类。在标注过程中,为了确保标注数据的准确率,需要注意很多事项。

图像标注

图像标注是一个将标签添加到图像的过程。它可以为整个图像添加一个标签,也可以分别为图像内每组像素添加多个标签。

注意事项

1.在拉框标注或语义分割时,其标注对象就是将图像中所需标注类别分别进行框选/分割标注,框选之后每个框都会有一个对应的类别。

2.在被遮挡的情况下,遮挡部分需要脑补,但是不要脑补到图像外。

3.不遗漏框/打点数,不误标框/打点数,不多标框/打点数。

4.若出现图像较模糊无法标注的则不标。

文本标注

文本标注是对文本进行特征标记的过程,对其打上具体的语义、构成、语境、目的、情感等数据标签,通过标注好的训练数据,我们就可以教会机器如何来识别文本中所隐含的意图或者情感,使机器更加人性化的理解语言。

注意事项

1.同类标注属性,标注方式要保持一致。

2.在文字标注过程中,由于部分文字间隔近,若同页中有相同的元素,可以考虑隔行标注,避免标注都挤到一起。

3.标注标签的定义要细化到集体场景。

4.前期主观性的标签要具象化,明确好详细的标签边界。

5.同时标多个标签时,要避免漏标、错标、多标。

语音标注

语音标注主要是由标注员将听到的音频中的声音转写下来,并加上对应的标签。

语音标注的语种一般分为中文、方言、英文等。根据语音时长可以分为长语音和段语音,一般在三秒左右的语音分为短语音,其中语音的长短、声音质量、有无预打标结果,是否需要切割等因素都会有较大的影响语音转写的速度。

注意事项

1.确定是否包含有效语音;确定语音的噪声情况;确定说话人数量;确定说话人性别、确定是否有口音、有效语音内容转写。

2.整句话无法分辨出内容的,标为无效;背景噪音过大的,标为无效。

3.在语音标注中,除了被采集者的声音外,还可能听到其他的背景音,在一般情况下,这些都可以被当作杂音进行处理。

4.在前期语音清洗时,需要删去无效音频;在语音切割时,要保证有效音频前后静音两秒,截取时间过长或者过短都不符合语音数据标注规范。

5.语音标注的过程中的最好是使用降噪耳机,如果耳机质量不高在标注过程中,会产生很多的杂音不利于标注,容易出错。

3D点云标注

3D点云标注是在激光雷达采集的3D图像中,通过3D框将目标物体标注出来。目标物体包括车辆、行人、广告标志和树木等,供计算机视觉、无人驾驶等人工智能模型训练使用。

注意事项

1.标注类型具体如下图所示:

2.目标本身须全部被3D框包围,不漏点且不包含噪点。

3.若目标物体边界清晰,则3D框边界距离目标主体真实边界最多不能大于10cm。

4.若目标物体因扫描不全而导致点云缺失,需脑补缺失面边界,可按照以下数值标注:

5.若行人若带有背包、雨伞等物件,行人的3D框需包含这些小物件。

6.若行人距离过近时,行人框可能有一定程度的重叠,可正常标注。

7.要注意三视图是否贴合;注意正前方方向是否正确。

8.所有地面上的目标物体其3D标注框底部须贴合地面,不能高于地面或低于地面。

9.若目标物体距离过远导致目标所在区域点云稀少、没有地面点或者难以确定3D框下底面高度的情况时,可参考最近的地面点云线的高度和点云中距离最近的3D框来确定大致高度。

10.点云框要按照车辆行驶方向标注。

11.标注范围:100m半径范围。

12.场景中同一车辆、障碍物、行人多次出现时其属性ID 要保持一致。

13.若出现一些特殊⻋辆时,如扫水车、水泥罐⻋等,需要按照最大外接立方体的形状去标注出3D框。

14.若出现一辆⻋分成多个部分的情况,比如拖挂多节的卡⻋、多截的公交⻋等,需要将每一节⻋体分别标注3D框。

15.仅标注确定位置和形状的物体,通过图像和点云都无法判定的障碍物无需框注。

16.若目标为行人推自行⻋、推购物⻋、推婴儿⻋等场景时,行人与⻋应分别拉框标注。

17.注意不遗漏框,不误标框,不多标框,残影和杂点不需要标注。

18.注意标注方向需正确。

19.注意框要求紧密贴合点云,不可漏标点,外围边界不超过清晰点云边界的10cm位置,标注准确率在99%以上。

本文所有内容文字图像资料,版权均属景联文科技所有,任何媒体、网站或个人未经作者授权禁止转载。

AI人工智能—数据标注的主要类型和标注注意事项相关推荐

  1. 数据标注有哪些类型?

    人工智能深度学习的数据标注已经发展成为一个全新的行业,机器学习对于数据的需求不仅仅数量在上升,质量和精确度也在不断的增加.在这样一个行业背景下,对于像数据标注师.质检师和项目经理等专业人才的需求量也大 ...

  2. AI时代的幕后英雄:谁在生产高质量的AI训练数据?

    在AI浪潮的推动下,软件正在朝着更「智能」的方向发展.2017年,特斯拉人工智能部门主管.李飞飞高徒Andrej Karpathy提出了「软件2.0」的概念. 什么是「软件2.0」?其实就是神经网络. ...

  3. AI人工智能标记数据的技术:类型、方法、质量控制、应用

    AI人工智能 标记数据 在人工智能(Artificial Intelligence,简称AI)领域中,标记数据是非常重要的一环.它是指对原始数据进行标记和注释,以便机器学习算法可以理解和利用这些数据. ...

  4. 人工智能数据标注都有哪些类型

    人工智能数据标注都有哪些类型 人工智能数据标注指的是,将非结构化数据转换成电脑可以识别理解的结构化数据. 例如,将下图中的车识别出来,人看到车的外轮廓是: 但是需要让电脑去识别认知这个图中的车,电脑需 ...

  5. AI发电厂——数据标注公司(国内数据标注公司服务调研)

    众所周知,深度学习需要大量的标记数据和高效的运算来做支撑. 计算资源只要从黄老板的公司订购就可以了,但大规模的高质量有标记数据却不是那么容易获得,让科研人员头疼不已. 应用时代而生的就是一大批数据众包 ...

  6. “智能”基石:人工智能数据标注与训练,是决定智能时代的第一步

    记者 | 邓晓娟 2021年5月20日~23日,由深圳市科学技术协会.深圳市商务局.深圳市福田区人民政府共同指导,深圳市科技开发交流中心.深圳市人工智能行业协会联合主办的2021第二届深圳国际人工智能 ...

  7. Competition——AI:国内外人工智能比赛平台以及竞赛类型、竞赛题目、举行时间等之详细攻略(最全+ing)

    Competition--AI:国内外人工智能比赛平台以及竞赛类型.竞赛题目.举行时间等之详细攻略(最全+ing) tips (1).可以在各大比赛平台指定的讨论区,或者github网站上,找到历届选 ...

  8. 人工智能数据标注案例大全【1】人脸关键点标注

    人工智能数据标注案例大全 人工智能大势潮流越来越猛,作为人工智能发展的三大要素之一,数据的作用不可小觑,其中数据采集与数据标注是数据发挥作用的重要方向,我们集合整理了100个人工智能数据标注案例,供大 ...

  9. 人工智能数据和算法的偏差_一个AI培训工具已经将其偏差传递给了将近两个十年的算法

    人工智能数据和算法的偏差 重点 (Top highlight) Night after night, Fien de Meulder sat in front of her Linux compute ...

最新文章

  1. 用欧几里得算法求最大公约数_欧几里得算法:GCD(最大公约数),用C ++和Java示例解释...
  2. 2、ShardingSphere 之 Sharding-JDBC实现水平分表
  3. python文本关键词匹配_NLP利剑篇之模式匹配
  4. latex 表格中虚线_如何识别和修复表格识别中的虚线
  5. python 3.9特性,开发者应该知道的Python 3.9新特性
  6. mysql复制表结构和数据
  7. 绕固定坐标轴旋转与绕自身坐标轴旋转一致性证明
  8. 力扣算法题—074搜索二维矩阵
  9. Springboot整合netty实战
  10. Javadoc注释的用法
  11. Linux操作系统——Linux 内核源码介绍内核升级
  12. Openv 线性插值
  13. biopython有什么用_Biopython介绍
  14. 使用OpenCV测量图像中物体之间的距离
  15. 电脑c语言发音,C的发音
  16. Springboot启动流程分析(四):完成启动流程
  17. 【Web技术】一文吃透 WebSocket 原理
  18. 从零开始用android studio
  19. 华硕x580nv拆机_华硕x580nv拆机_做工扎实用料足 华硕S56超极本拆解图
  20. AttributeError: module 'torch.nn' has no attribute 'LocalResponseNorm'问题的解决办法

热门文章

  1. linux下解压文件的几种小操作
  2. 控制器双活 负载均衡
  3. C# Math.Round小数点后保留两位小数,四舍五入的函数及使用方法
  4. SQLSERVER时间转换成字符串,去掉中划线
  5. unity 删除父物体下所有子物体
  6. mysql 幻读 mvcc_MVCC 能解决幻读吗?
  7. 漫步数学分析三十九——隐函数定理
  8. 分享120个HTML公司企业模板,总有一款适合您
  9. 开关柜绝缘状态检测与故障诊断
  10. Oracle官网用户名密码