田叶

法国国家科学研究中心 (CNRS)

巴黎七大语言学实验室

德国比勒菲尔德大学

人工智能实验室联合项目博士后研究员

研究方向为对话语义学和多模态对话系统

前言

有这样一群简单的小图片,每天在全世界几十亿人的手机和电脑屏幕上传过来传过去,传递着微妙的情感,润滑着我们的交际, 定义着新的人际交流模式。这群看着不起眼实则大有作为的小图片们就是—Emoji(表情符号)。

一点点历史

说到表情符,很多人都会先想到用标点符号表示的笑脸 :-) 它诞生于1982年。在那个我们大多数人还在用纸笔交流(或者还没出生)的时候,卡内基梅隆大学的一群计算机科学家们就已经频繁的使用电子邮件交流工作或者互相调侃。他们发现,由于电子邮件缺少面对面交流时的肢体语言,面部表情和语音语调,很多时候玩笑被当成了正儿八经的话。于是这群科学家们就决定发明一种标记符号来弥补这个缺陷。

Scott Fahlman 首次在电子邮件中(Fahlman,2012)使用表情符号(emoticon)。他用  “:-)” 表示某一句话是开玩笑的,用 “:-(” 表示某一句话是严肃的。不过很快,大家就开始用 “:-(” 来表示伤心或烦恼。

九十年代末,日本一家叫 NTT DOCOMO 的电信公司为了在年轻的 BP 机市场中脱颖而出,开发了 176 个基于漫画和日文汉字的图片表情符号,emo-ji(絵-文字)从此诞生,并在年轻人中迅速流行开来。

2007年,苹果手机推出第一代 iPhone,智能手机开始逐渐火爆。苹果和谷歌觉得,要想抢占亚洲的智能手机市场份额,他们的系统必须支持表情符号,于是苹果和安卓系统开始支持 Emoji,但是西方的年轻也发现 Emoji 很好玩,表情符号开始席卷全球。

2010 年统一码协会 Unicode 开始编码 Emoji,截至 2017 年 Unicode Emoji Data v4.0有 2389 个 Emoji。国内社交平台除了支持 Unicode 编码中的 Emoji 以外也有很多自己独特的表情符号,颜文字和 GIF 图表情。Emoji 频频成为新闻焦点,2015 年,牛津英语辞典将 Emoji 选为年度新词(word of the year)。

2016 年,索尼影视娱乐(Sony Pictures)宣布将拍摄电影“Emoji动画”(the Emoji Movie,图1)。以 Emoji 为主体的音乐剧“Emojiland”也将在洛杉矶上演。

Figure 1 电影 The Emoji Movie 海报


Emoji 数据一览


一扫 Emoji 的数据我们便可以发现,Emoji出现地非常频繁,但是它们的使用在不同语言文化背景下,不同年龄和社会群体中,甚至在不同手机系统中的用法都不一样。我们更多地使用开心,搞笑和表达爱意的 Emoji,不常使用愤怒悲伤的 Emoji(或者说,当我们真正非常愤怒和悲伤的时候,我们很少使用 Emoji)。Emoji经常不表达人的情感,而是用来维持友谊,表达礼貌。新的 Emoji 天天出现,新的用法也天天演变。下面我们来看看 Emoji 几个有意思的数据。

Emoji,天天见

在社交网络和手机通讯中,表情符号无处不在。表情符号不仅包括面部表情和手势(比如笑脸,哭脸,眨眼,吐舌,OK 手势,中指,拍手),还包括常见物品(比如车辆,房屋,动物,植物,食物),动作行为(比如跳舞,各类运动),和抽象概念(比如社会关系,国旗,时间,金钱)。Instagram 的调查显示(图 2),截至 2015 年四月,Instagram 上有 40% 的信息含有表情符号。在一些国家(比如芬兰和法国),这个比例超过 50%。

Figure 2 Emoji 使用频率变化 - Instagram

我们为什么这么热衷使用表情符号呢?这是因为表情符号弥补了书面表达相比起面对面交流的缺失。在面对面的交流中,有很大比例的语义是通过语言以外的渠道传达的,比如语音语调,面部表情和肢体语言。传统的书写中没有这些非语言成分,因此书写交流给人的社会临场感(social presence)很低,导致表情,态度和个性等信息交流困难。当我们大量的交流在网上进行时,我们需要增强交流的临场感,而表情符号正可以用来替代面对面交流中很多非语言成分的作用。

你的 Emoji 不一定是我的 Emoji

就像汉字有各种不同字体,Emoji 也在不同系统中长得不一样。对于文字来说,字体不能改变意思,但是由于 Emoji 是对实物的模拟,不同的 Emoji 字体很可能会引起误解。比如,眦牙笑的 Emoji 在谷歌安桌系统中(下图最右边的表情符号)就看起来比在 iPhone 上(下图最左边的表情符号)看起来开心的多。图 3 显示了人们对同一个 Emoji 在不同系统中的呈现的感情评分。大家觉得这个 Emoji 在 iPhone 上表达了略负面的感情,但是在谷歌系统中非常正面非常开心。

Figure 3 人们对不同系统中呲牙笑表情符号的情感评分不同

这个问题使得不同系统用户互相交流的时候可能会出现误解。在下面这个对话中,一个安桌用户(左图)和一个 iPhone 用户(右图)聊天。安桌用户说“刚从约会回来。[笑脸]”,这个笑脸在他的手机上看起来很开心,但是在iphone上却变成了眦牙笑,于是他的iphone朋友同情的说,“哎呀,看来约会不成功啊。。。等着你讲故事啊”,安桌用户于是莫名其妙…

Figure 4 安卓用户和 iPhone 用户因为 Emoji 呈现不一样而产生误解

多笑脸,少哭脸

我们用正面感情的 Emoji 远远多于负面感情的 Emoji。Emojitracker.com 网站实时监控推特网上的 Emoji 使用,目前数据显示最常用前五位表情符号都是用来表达正面感情的。排名第一的笑哭脸“是第二常用的表情符(心型)的两倍多。大家要是好奇这些 Emoji 都用在什么语境中,可以点击某个具体的 Emoji,看推特实时数据(笔者觉得这个网站很有意思,在上面浪费了两个小时)。

Figure 5 推特 Emoji 词频-数据源于 emojitracker.com 201-03-09

Novak et al.(2015) 在 PLOS ONE 上发表了他们对欧洲十三个国家推特 Emoji 情感表达的研究。在他们的数据中,5%的推特评论中含有 Emoji。表达正面情感的表情符号比表达负面情感的符号更常用。下图显示 Novaket al. 调查中频繁的 Emoji 和它们的感情极性。绿色是正面,红色是负面。这一片绿的数据表明绝大多数常见的 Emoji 是表达正面情感的。

Figure 6 Novak et al. 推特 Emoji 情感分布,绿色为正面,红色为负面

笔者自己也做了个调查。我搜集了 Facebook 在美,英,法,德四国的新闻媒体公共帐号下八百万条评论,其中 6%有 Emoji。和以上 Novak et al. 的数据不同的是,我们数据中“笑哭脸”  并不常见。这其中最频繁的是大拇指,心型眼镜,鼓掌和爱心。虽然前十名中也有四个表达负面情感的 Emoji:排第 5 的愤怒,第 7,8 和 9 的大哭,泪水和惊恐,但是更多的 Emoji 还是表达正面情感。我们数据和推特数据不同主要是因为我们的数据来源于读者对新闻的评论,因此会有很多表示意见和看法的 emoji。

Figure 7 脸书媒体公共页面中表情符号的分布- 数据采集于 2016 年 8,9 月

为什么我们很少用负面的 Emoji 呢?可能的原因有两个:1. 人们在社交网络中表达正面情感更多;2. 人们在表达负面情感的时候很少用表情符号。原因 1 也许是成立的,但是这个因素很难完全解释正负面表情符号差距之大。更有可能的情况是原因 2:我们在表达负面情感的时候很少用表情符号。表情符号的使用(不管是什么表情符号)都会在某种程度上减弱语气的强硬程度。试想一下,如果你对某个服务非常不满意,在和一个客服吵架,你会频繁的使用表情符号吗?这个观点也被 Tyler Schnoebelen 的研究印证。Schnoebelen 的博士研究的就是社交网络中表情符号的使用。他发现,当 “fuck you” (呃怎么翻译呢?不懂的童鞋自己百度吧)出现的时候,表情符号很少出现,因为表情符号会减弱愤恨,厌恶的情绪的表达程度。

Emoji 和人工智能

Emoji 铺天盖地的流行当然引起了计算语言和 NLP 届的关注。最常见的分析就是把Emoji 当作单词一样来分析,采用概率语言模型、深度学习模型的低维实向量话来分析 Emoji 语义之间的关系,比如在下图的向量可视化中(http://getdango.com/emoji-and-deep-learning/),含义相似的 Emoji 聚集在一起。面部表情大都聚集在下方,国旗聚集在左上角。把含有 Emoji 的语句用循环神经网络(RNN)表示出来使得我们可以根据新的语句在预测合适的 Emoji。这个 Emoji 推荐 app 使用的就是就是这个技术:http://getdango.com/emoji-and-deep-learning/。

用循环神经网来为含有表情符号的语句建模虽然可以预测表情符号的出现,但是这并不能使机器理解我们所表达的含义。从语言中分析情感一直是自然语言理解(Natural Language Understanding)的一个重要课题。传统的做法是为每一个语言建立情感词库,然后根据情感词的词频来预测语用者的情感。比如,当我们在一句话中找到“开心” 这个词的时候,我们可以有一些信心推测这句话表达了正面的感情。这种通过情感词语分析情感的做法意味着每个语言需要有自己的情感语言词库。可是,表情符号常常是居于面部表情的。如果全世界的人都使用表情符号来表达情感,我们岂不是可以跨国语言障碍,通过分析表情符号直接理解情感?可能吗?

没有那么简单。有很多自然语言处理对 Emoji 的研究建立在这样一个假设上:Emoji 和语言之间没有语义交互。我们可以通过把 Emoji 看作是一种情感标注(例如 Davidovet al. 2010; Ganster et al. 2012)或者是当作情感分析的一个特征(例如  Zhao et al. 2012。这些研究发现,虽然加入 Emoji 可以改善情感分析的精确度,但是正确率还是较低,正面 Emoji 对情感的预测尤其低。为什么?因为表情符号和语言是有语义上的交互的。同样的语句配上不同的表情符号可以有不同的理解。比如,下面这个句子,在(1)中的理解是一个请求,说话人的情绪是中性或者偏负面,而(2)表达的是说话人觉得对方做的事很好笑,表达了正面的情绪。

1. 你能不能不要这样子?

2. 你能不能不要这样子?

很多时候我们不是用表情符号来直接表达情感,而是用它们来表示礼貌,或者用来标注幽默,反义和讽刺的态度。比如,我们会在请求的时候加上笑脸,但是笑脸并不表达我们很开心, 比如(3)。我们可能在表达负面情绪的时候用正面的 Emoji,不如(4)。

3. 你要是去超市能不能帮我带一瓶可乐?谢谢啦!

4. 今天听了川普的演讲,我崩溃了。

为了调查说话人总体情感和 Emoji 感情极性的关系,我分析了脸书(Facebook)中用户的“反应”(Reaction)和他们在评论中表情符号的使用。在微信朋友圈中我们可以给某个状态点赞,但是点赞并不能让我们知道读者对这条状态具体的情感反义。而在脸书中,用户可以对某一条状态或新闻给一个宏观的情感的反应(Reaction)),有六种选择:点赞,热爱,哈哈,哇,伤心,愤怒(图8)。

Figure 8 Facebook 脸书中六种反应(Reaction)

如果这个情感反应体现了读者宏观的情感,我们可以看看在不同的情感下大家会用什么表情符号。我收集了五千八百万个反应,用 K-means 算法集群,发现大家的反应主要有四类(图9),第一类中,绝大多数的反应是点赞;第二类有不少点赞,但是也有不少哈哈和不少愤怒;第三类以愤怒为主,第四类以伤心为主。在这四种不同的反应中表情符号的分布是不是不同呢?确实(图10)。在第一第二类反应中,最常见的表情符号大都是正面(除了第二类中反应中常见的惊恐 Emoji)。在第四类伤心的情感反应中,常见的表情符号都是负面的。有意思的是,在第三类以愤怒为主的反应中,前五个常见表情符中有三个是正面的:大拇指,鼓掌和眨眼笑。这说明当我们在伤心的时候很少使用正面的表情符(来讽刺或者表达反义),但当我们生气地时候却经常使用反讽的表情符。这个结果也印证了我们的观点:表情符并不简单的表达情感。它们和语言有着复杂的语义交互。要想使机器真正理解我们用表情符号表达的含义,我们必须能够自动准确的分析表情符和语言之间的交互。这是目前 Emoji 带给自然语言理解的挑战。

Figure 9 脸书“反应”(Reactions)集群

Figure 10 脸书不同情感反应中不同的表情符号分布


Emoji 的未来

像很多互联网时代的产物一样,Emoji 从开始被大众使用到现在铺天盖地只用了不到十年的时间。在这段时间里,Emoji 改变了我们交流的方式,重新定义了网络书写语言的规则。表情符号并不简简单单的表示感情,而是微妙的影响着语义和交互的体验。只有当我们真正理解了 Emoji 和语言的交互,才能打造能够自然使用 Emoji 的聊天机器人,才能让真正让人工智能理解数字时代的我们。

参考文献


Davidov, D., Tsur,O., & Rappoport, A. (2010, August). Enhanced sentiment learning usingtwitter hashtags and smileys. In Proceedingsof the 23rd international conference on computational linguistics: posters (pp. 241-249). Association forComputational Linguistics.

Ganster, T., Eimler,S. C., & Krämer, N. C. (2012). Same same but different!? The differentialinfluence of smilies and emoticons on person perception. Cyberpsychology, Behavior, andSocial Networking, 15(4),226-230.

Kralj Novak, P.,Smailović, J., Sluban, B., Mozetič, I., Liu, B., Liu, B., … Good, I. (2015).Sentiment of Emojis. PLOS ONE, 10(12), e0144296. https://doi.org/10.1371/journal.pone.0144296

Tian, Y., Galery,T., Dulcinati, G., Molimpakis, E., & Sun, C. (2017). Facebook emotions:Reactions and Emojis. In Proceedings of the EACL 2017 Workshop on NaturalLanguage Processing for Social Media (SocialNLP).

Zhao, J., Dong, L., Wu, J., & Xu, K.(2012). MoodLens: An Emoticon-Based Sentiment Analysis System for ChineseTweets. Proceedings of the 18th ACM SIGKDD International Conference onKnowledge Discovery and Data Mining - KDD ’12, 1528–1531. https://doi.org/10.1145/2339530.2339772


来源:paperweekly

原文链接

PaperWeekly 第29期 | 你的Emoji不一定是我的Emoji相关推荐

  1. 【组队学习】【29期】Datawhale组队学习内容介绍

    第29期 Datawhale 组队学习活动马上就要开始啦! 本次组队学习的内容为: 编程实践(数据可视化) 计算机视觉 自然语言处理之情感分析 吃瓜教程--西瓜书+南瓜书 李宏毅机器学习(含深度学习) ...

  2. 《强化学习周刊》第29期:Atari 深度强化学习的研究综述、金融强化学习的最新进展...

    No.29 智源社区 强化学习组 强 化 学  习 研究 观点 资源 活动 关于周刊 强化学习作为人工智能领域研究热点之一,其研究进展与成果也引发了众多关注.为帮助研究与工程人员了解该领域的相关进展和 ...

  3. 3星|《财经》2017年第29期:未来,国有资本的收益和变现都是补贴社保的渠道...

    <财经>2017年第29期 总第516期 旬刊 本期几个主题:家庭医生签约覆盖率的压力:硅谷无人汽车研发现状:环保整顿后的快递业:国有资本划转社保:线上音乐版权之争:共享单车押金问题: 总 ...

  4. 第29期全国人工智能师资培训启动,百度500万AI人才培养计划续航

    随着数字浪潮袭来,人工智能的发展声势浩大,高校人工智能专业建设以及AI的人才培养已经提上日程.如何夯实产教融合,加快人工智能研究创新,培养具备AI系统能力的拔尖人才,是推进产业智能化升级的迫切课题. ...

  5. [29期] 一个乞丐的故事,什么叫职业人?

    我不知道这个故事是真的还是假的,但故事里面有很多值得体会的知识,所以分享给各位兄弟姐妹看看~ 我拎着刚买的levi's从茂业出来,站在门口等一个朋友.一个职业乞丐发现了我,非常专业的.径直的停在我面前 ...

  6. 【区块链技术工坊29期实录】小包总:SERO基于零知识证明的隐私保护公链解决方案

    1,活动基本信息 1)题目: [区块链技术工坊29期]SERO基于零知识证明的隐私保护公链解决方案 2)议题: 在区块链隐私保护领域,零知识证明被认为是最前沿的解决方案,同时也是最强大的,以太坊创始人 ...

  7. JavaEE大型分布式电商项目 上海淘淘商城 29期

    上海29期_张志君老师_淘淘商城_大型分布式电商项目 JavaEE大型分布式电商项目 淘淘商城 29期 需要的加qq:350226234,备注:程序员学习视频 ==================== ...

  8. PaperWeekly 第36期 | Seq2Seq有哪些不为人知的有趣应用?

    引言 Seq2Seq 于 2013年.2014 年被多位学者共同提出,在机器翻译任务中取得了非常显著的效果,随后提出的 attention 模型更是将 Seq2Seq 推上了神坛,Seq2Seq+at ...

  9. TUP第29期:王淮、龚世海谈如何打造优秀的技术团队

    CSDN报道4月27日,CSDN在北京福泰酒店举办了以"如何打造优秀的技术团队"作为主题的TUP第29期活动.本期活动邀请了前Facebook资深工程师.致景投资创始合伙人王淮:大 ...

最新文章

  1. 对比两个同类型的泛型集合并返回差异泛型集合 ——两个List类名的比较
  2. [c++] vector<vector<int>>排序
  3. vue 监听表格里的数据变化_vue中监听数据变化 watch
  4. 如何将更改的文件添加到Git中的旧(不是最后)提交
  5. java类库帮助文档,薪资翻倍
  6. 【机器学习】最容易实现的基于OpenCV的人脸检测代码、检测器及检测效果
  7. 帐号体系:后端信息结构设计
  8. 2019春季暑期实习生正式批招聘笔试【腾讯】(回忆版)第一题
  9. GridView Bind 短日期 格式
  10. shell中正则表达式详解_Shell if中的正则表达式使用详解
  11. 站怎么点都是一样_搞笑段子:都说女人是水做的,你怎么不太一样
  12. [原]用好注册表,加固系统和发现病毒
  13. php环境用什么服务器好些_PHP环境部署,Linux真的比Windows好吗?
  14. 民营医院网络咨询解答技巧
  15. mysql广告投放查询_广告投放数据分析
  16. python 批量转换docx只转换了一个出现pywintypes.com_error被调用的对象已与其客户端断开连接
  17. 系统中flvplayer.swf播放器的使用及配置
  18. 0逻辑comment--新世界大门
  19. 基于Vue 全家桶实现网易云音乐 WebApp
  20. 使用IBM Data Movement Tool 具体迁移oracle至db2实验

热门文章

  1. CP2102 USB to UART Bridge Driver的安装 RF读写器连接电脑不成功
  2. 10月2日回顾 |2021CBC街舞冠军赛,汇聚南宁巅峰对决!
  3. 【项目实战全解】基于深度学习与自然语言处理的AI文本生成(自动写作)
  4. 【无标题】删除线代码
  5. Word图片环绕方式图解
  6. 2018年7月20日集群课程
  7. (2)Newfc网络模型的解析(for image captioning)
  8. Macbook 终端Terminal下如何查看文件生成日期和修改日期
  9. Linux下显卡设置
  10. C# 错误代码为 0xc0000005。