最近读到一篇显著提升标记数据速度的文章,原文Embracing Error to Enable Rapid Crowdsourcing
本篇博客记录个人对论文的总结和翻译理解,如有不足之处欢迎指正。

Embracing Error to Enable Rapid Crowdsourcing
———————————————————————————————————————————————
一作是来自Stanford HCI实验室的Ranjay Krishna,这里多说几句,这位PhD小哥研究方向是计算机视觉和人机交互交叉领域,另外一位主要作者是Princeton University的优秀PhDKenji Hata。话不多说,下面介绍这篇论文的内容。

一、Abstract
当前的微型任务众包(microtask crowdsourcing)使得社会科学和机器学习的数据集得到不断扩充,然而现今通过众包体系来创建大型数据集任务需要耗费较多的资金,为了使拓宽众包的应用领域,我们提出了一个针对加速二分类标注labels任务判断方法的技术。比起过去对workers的错误进行惩罚,使得他们变得更加谨慎但是速度下降,我们的方法在允许workers犯错的情况下加速了workers对分类任务的判断,并且证明了通过打乱任务顺序和对worker反应延迟进行建模,可以利用算法来修正这错误。为了验证这个方法的有效性,我们将提出的方法应用于图像验证、同义词、情感分析和主题分类的众包任务中,在对比原有方法(majority vote)的速度上,取得了10倍的速度提升。

二、Introduciton and Related Work

本篇论文中,作者主要关注到的是众包任务中最普遍的binary annotation任务,就是回答yes or no 的问题。过去前人的研究工作侧重于最小化worker error,如果worker出现错误,就会扣减他们的报酬以示惩罚。近期的方法在众人投票判定标注的时候侧重于计算最小的必要人数来减少错误,这种方法的速度取平均,这里被定为1倍速。而我们提出的相反的观点:设计出鼓励worker犯错甚至不可避免犯错的任务,从而大幅度地提升标注速度。当前的众包平台对worker错误的惩罚会导致他们更叫小心为了避免犯错而降低标注速度,而我们鼓励worker在可接受错误的情况下更快地完成任务。虽然会导致每个worker的标注精确度下降,后期我们采用算法修正了这些errors。
我们提出的这个方法是要求worker在一个快速推进的输入流中进行决策,随着这个输入流的自动推进,worker从中仔细观察来做出判断,然后对于输入流中的某个item按下快捷键来确认。输入流推进的方法来自李飞飞教授两篇早期的研究RSVP:rapid serial visual presentation和What do we perceive in a glance of a real-worldscene?。由于输入流的速度很快,因此worker按下yes按钮一般会有延迟,我们将对这个延迟和速度的关系进行建模并分析,设计实验观察不同的速度worker的延迟然后从中预测并计算image对应的真实label的概率。

我们主要的贡献有以下两点:
1、在允许前期错误的情况下,大幅度提高了众包二分类任务的标注的速度;
2、证明了我们提出的方法也适用于多类别标注任务,与现有的独立技术结合,在未增加workers认知负荷的情况下部署任务。

部分相关研究:
本文作者提出的方法与前人研究不同之处在于改善了众包的交互界面,鼓励worker做出快速的决策。
1、感知速度远远快于认知速度
RSVP参考Short-term conceptual memory for pictures已经验证了worker对于数据流中单张图片的感知在75%精确度的情况下是125ms。然而对于理解image的定义仅有10%的精确度,参考Recognitionmemory for a rapid sequence of pictures.

2、对worker的标注行为进行建模(众包领域)
基于前人的标注表现:(Quality management on amazon mechanical turk);
对于worker个体的建模:(Whose vote shouldcount more: Optimal integration of labels from labelersof unknown expertise);
worker其他领域的知识对完成众包任务的辅助作用:(The multidimensional wisdomof crowds
极大极小熵判断:(Learning from the wisdom of crowds by minimaxentropy
作者从以上的研究中汲取灵感,We model each worker’s reaction as a delayed Gaussian distribution

3、human-CV领域的相关工作
权衡标注速度和精确度的研究:1-CVPR2014;2-ECCV2010;ICCV2011等
权衡cost和精确度的研究:ICCV2013;SIGCHI2014;
相关的工作作者列举了很多,这里就不多写了。

Just like these methods, we show that non-experts can use our technique and provide expert-quality an-notations; we also compare our methods to the conventionalmajority-voting annotation scheme

三、Error-Embracing Crowdsourcing

 In this section, we detail our technique for rapid crowdsourcing by encouraging less accurate work

设计实验侧重两个方面:
(1)We thus develop an approach for producing high precision at high speed, sacrificing some recall if necessary.
(2)we focus on closed-ended tasks(封闭式任务,选择有限,不同于写作等开放式众包任务)

1、Rapid crowdsourcing of binary decision tasks

如上图所示,在worker进入标注之前,提示错误是允许的,他们只需要在看到符合要求的图片后按下yes即可。为进入任务准备了倒计时提醒和正确图片提醒。按下yes按钮后,显示当前图片在内的前4张图像。

上图显示的蓝色为gt图像,红色为worker按下yes时刻显示的图像,通过调整速度和对workers延迟反应的数据分析建模,来推测正确图像的位置。

2、Multi-Class Classification for Categorical Data
理论上,多分类问题可以转化为多个二分类问题。通过每次迭代来将多类问题转化。

四、probability model
这里作者使用了极大似然估计的方法来估计每个item为正例的概率:给出一组items

I=I1,I2,……In

I={I_{1},I_{2},……I_{n}}将他们排成不同顺序的序列给 W W个workers,对于每个worker,建立一组press:

【论文笔记】CHI '16 Embracing Error to Enable Rapid CrowdSourcing相关推荐

  1. 论文笔记:Improving Grammatical Error Correction Models with Purpose-Built Adversarial Examples

    论文笔记:Improving Grammatical Error Correction Models with Purpose-Built Adversarial Examples 文章简要介绍 出处 ...

  2. GAN for NLP (论文笔记及解读

    GAN 自从被提出以来,就广受大家的关注,尤其是在计算机视觉领域引起了很大的反响."深度解读:GAN模型及其在2016年度的进展"[1]一文对过去一年GAN的进展做了详细介绍,十分 ...

  3. 【论文笔记】PassGAN: A Deep Learning Approach for Password Guessing

    title: "[论文笔记]PassGAN: A Deep Learning Approach for Password Guessing" date: 2019-10-12 la ...

  4. 论文笔记:Non-Profiled Deep Learning-based Side-Channel attacks with Sensitivity Analysis(DDLA)

    论文笔记:Non-Profiled Deep Learning-based Side-Channel attacks with Sensitivity Analysis(DDLA) Benjamin ...

  5. 论文笔记 A Spatial-Temporal Decomposition Based Deep Neural Network for TimeSeries Forecasting

    0 abstract 空间时间序列预测问题出现在广泛的应用中,如环境和交通问题.由于存在特定的空间.短期和长期模式,以及维度的诅咒,这些问题具有挑战性. 在本文中,我们提出了一个用于大规模空间时间序列 ...

  6. Deep Learning论文笔记之(八)Deep Learning最新综述

    Deep Learning论文笔记之(八)Deep Learning最新综述 zouxy09@qq.com http://blog.csdn.net/zouxy09 自己平时看了一些论文,但老感觉看完 ...

  7. Deep Learning论文笔记之(五)CNN卷积神经网络代码理解

    Deep Learning论文笔记之(五)CNN卷积神经网络代码理解 zouxy09@qq.com http://blog.csdn.net/zouxy09          自己平时看了一些论文,但 ...

  8. 【论文笔记】李盟, et al. 一种恶意代码特征选取和建模方法. 计算机应用与软件 08(2015):272-277.

    前言 论文笔记. 论文笔记 出处及年份 <计算机应用与软件 Computer Applications and SoftwareVol.>第32卷第8期2015年8月 论文标题 一种恶意代 ...

  9. 《论文笔记》Adaptive decentralised_cooperative_vision_based_simultaneous_localization_and_mapping_for_mult

    名字太长了,放不下~ 全名是: Adaptive_decentralised_cooperative_vision_based_simultaneous_localization_and_mappin ...

最新文章

  1. 陷阱太多!究竟该如何应对逆袭神器期权?某程序员历经4次上市公司,终于顿悟!...
  2. 文件操作模式扩展、游标操作
  3. linux go语言环境配置文件,linux下安装配置go语言环境
  4. 围棋天才柯洁怒怼央视国际记者,用实力斩获清华大学免试资格
  5. 企业实战(Jenkins+GitLab+SonarQube)_09_jenkins发布项目到测试环境
  6. java 递增 实现_Java编程实现递增排序链表的合并
  7. 在Sql Server 2008上安装SDE 9.3
  8. java 浏览文件_Java浏览文件对话框
  9. 5101是多大的电阻_贴片电阻1206-5101(5.1K) 1206
  10. LMS自适应滤波器的FPGA实现
  11. img 标签如何使图片成为圆形
  12. 【Python】html格式转md格式
  13. ESP32设备驱动-BMP180气压温度传感器驱动
  14. 拓扑容差如何修改_如何在CAD中通过设置容差参数对多段线进行自动修复重构
  15. PPT最强抠图技巧(收藏必备)
  16. osi是什么?计算机有哪几层?每一层有什么作用?
  17. 我们能用计算机做什么英语作文,关于计算机工作的英文作文
  18. linux 笔记本电脑_符合Linux的笔记本电脑供应商和产品
  19. 百度孙宇:百度语义理解技术ERNIE及其应用
  20. 架构师的软实力之架构透视

热门文章

  1. Linux启动mysql
  2. 前端关于Vue的面试题(五)
  3. ElasticSearch学习笔记记录4【图灵Fox】
  4. IDEA报错Error occurred during initialization of VM
  5. 传智健康2.0-4-预约管理-套餐管理
  6. 如何提升企业内部的固定资产管理水平?
  7. linux bash美化,使用ohmyzsh美化Linux控制台(Shell)
  8. Android开发 Camera2开发_1_拍照功能开发
  9. 我靠加班把老员工弄走了,昨天老板又给我画饼,一天天浑浑噩噩,Android开发究竟还有前途吗?
  10. python 图片保存成视频