对话机器人之Sparrow
每天给你送来NLP技术干货!
来自:NLP日志
提纲
1 简介
2 Sparrow
3 总结
参考文献
点击这里进群—>加入NLP交流群
1 简介
DeepMind提出的Sparrow,相对于以往的方法,是一种更加有用,准确并且无害的信息检索对话机器人。在之前的对话研究中,往往会针对对话的不同方面去设计对应的任务跟模块,例如知识性,一致性,长期记忆等等,但是Sparrow则不然,它直接根据用户的用户的反馈进行学习,这样能尽可能让模型对齐真实的用户行为,而不再需要关注过于琐碎的诸多对话细节。
图1: Sparrow测试样例
2 Sparrow
整个流程是通过Sparrow模型根据当前对话生成多个候选回复,让用户去判断那个回复最好,哪些回复违反了预先设置好的规则,基于用户的反馈去训练对应的Reward模型,利用训练好的Reward模型,用强化学习算法再去优化Sparrow的生成结果。
图2: Sparrow框架
Reward
Sparrow学习的用户反馈分为两种,一种用户判断对话是否违背某些预设置好的规则,另一种的是从用户根据当前对话从个候选答案里选择最合适的一个。这两种反馈分为对应两个不同的模型,Rule reward model跟Preference reward model。
对于Rule reward model,首先需要根据任务自定义对应的一些规则,例如判断机器人是否在回答用户问题,话题是否变化等等,规则样例如下图所示。在具体训练数据构造时,用户在给定对话条件下,还会给某个特定规则,让用户有意识的引导机器人去违反对应的规则,然后再由用户评估机器人回复是否违反对应的规则。之所以采用这种方式是为了更高效的积累到高质量样本。用构造好的训练数据训练对应的分类模型,判断机器人回复是否违反对应的规则,每个规则对应一个分类模型,彼此独立。
图3: 规则示例
对于Preference reward model,在给定当前对话条件下,利用多种方式生成多个候选答案(通过是否引入知识检索,不同生成模型,不同prompt,不同采样策略),让用户从中选择最合适的答案。利用这些构造好的数据训练可以得到对应的分类模型,判断用户对于当前回复的倾向。以下图为例,共有8个候选答案,其中前四个是不不经过知识检索直接生成的,后面四个是通过两个不同的检索query进行知识检索,将得到的检索结果跟当前对话合并再一起后再生成回复的。
图4: 回复生成流程
Reranking
当上述两个Reward模型给候选答案生成对应的得分后,通过一个重排机制综合考虑两者的得分可以进一步优化对话机器人的性能。
Evidence
前面提及的答案生成是可以通过知识检索,根据当前上下文生成对应的query,利用Google进行搜索,将得到的结果跟当前对话信息组合,然后再生成对应的回复。之前也写过一些相关的文章,有兴趣可以自行查看文本生成系列之retrieval augmentation(思考篇)。
Reinforcement learning
这里强化学习每一步的状态是当前的对话上下文,action是具体的token,利用前面提及的rule reward model跟preference reward model来给action打出对应的reward得分,从而优化Sparrow的输出结果。在强化学习训练过程中,如果机器人生成的回复reward超过预期的话,就会把当前对话上下文+机器人回复作为新的训练数据加入到语料中,扩充训练语料库。
图5: 强化学习流程
3 总结
个人认为,Sparrow对话机器人,最大的特色在于直接对用户的反馈进行学习,那样就不需要为对话各种琐碎细节去设计不同的模块跟任务,把决策权进一步交给模型,让模型自己去学,而对于那些机器人可能学不好的地方,通过预先定义的规则去构造对应的训练数据,让模型自己去补全。By the way, 可以好好期待一波ChatGPT了。
参考文献
1.(2022) Improving alignment of dialogue agents via targeted human judgements
https://storage.googleapis.com/deepmind-media/DeepMind.com/Authors-Notes/sparrow/sparrow-final.pdf
每天给你送来NLP技术干货! 来自:NLP日志 提纲 1 简介 2 LaMDA 3 总结 参考文献 点击这里进群->加入NLP交流群 1 简介 LaMDA是在DeepMind的S ... 作者 | Milvus.io 责编 | 胡巍巍 问答系统是自然语言处理领域一个很经典的问题,它用于回答人们以自然语言形式提出的问题,有着广泛的应用.其经典应用场景包括:智能语音交互.在线客服.知识获取 ... 叮当是一款可以工作在 Raspberry Pi 上的开源中文语音对话机器人/智能音箱项目,目的是让中国的Hacker们也能快速打造个性化的智能音箱. github地址:https://github.c ... 有些对话机器人总让人崩溃,也许是智能级别不够高.本文,就来一起看看如何判断一个机器人的智能程度. 随着智能对话技术的发展,对话机器人越来越多地出现在人们的日常工作和生活中. 从企业的角度,在合适的业务 ... 01-初心缘由 最近在研究语音识别方向,看了很多的语音识别的资料和文章,了解了一下语音识别的前世今生,其中包含了很多算法的演变,目前来说最流行的语音识别算法主要是依赖于深度学习的神经网络算法,其中RN ... 问答系统是自然语言处理领域一个很经典的问题,它用于回答人们以自然语言形式提出的问题,有着广泛的应用.其经典应用场景包括:智能语音交互.在线客服.知识获取.情感类聊天等.常见的分类有:生成型.检索型问答 ... 聊天大师--百度PLATO来了! 这个内置业界首个突破百亿级参数的对话大模型PLATO-XL的对话机器人,一经问世就给大家带来了不一般的对话体验.它可以俏皮可爱.也可以老练深沉,既能陪你谈家长里短.也 ... 本文内容整理自 PaperWeekly 和 biendata 在 B 站组织的直播回顾,点击文末阅读原文即可跳转至 B 站收看本次分享完整视频录像,如需嘉宾课件,请在 PaperWeekly 公众号回 ... 「PW Live」是由 PaperWeekly 和 biendata 共同发起的学术直播间,旨在帮助更多的青年学者宣传其最新科研成果.我们一直认为,单向地输出知识并不是一个最好的方式,而有效地反馈和交 ...对话机器人之Sparrow相关推荐
最新文章
热门文章