OpenAI是一个非营利人工智能科研团队,其创始人之一Elon Musk是Paypal以及Tesla的CEO。除此之外,他还是私人火箭发射公司SpaceX、太阳能电池商SolarCity的CEO。OpenAI的愿景是建立安全的AI系统、并尽量让每个人都能享受到AI带来的便利。因此,OpenAI的项目都是开源的,其研究结果也会毫无保留地公布。

OpenAI于2015年12月成立。2016年4月,OpenAI发布了公共测试版OpenAI Gym。OpenAI Gym是一个增强学习的科研平台,该平台提供了一个适用于多种场景的人工智能。OpenAI希望能通过该平台制定行业普适的场景划分标准,进而提高业内研究成果的普适性。

今年8月,英伟达(NVIDIA)与OpenAI达成合作。OpenAI将利用英伟达超级计算机DGX-1训练无限接近人类的聊天机器人。DGX-1是英伟达斥资20个亿研发、价值$129,000的超级计算机。搭载了8块Tesla P100 GPU、7TB的固态硬盘、以及2块Intel至强处理器,具备高达每秒170兆次的浮点运算能力(相当于传统服务器的250倍)。在人工智能领域,现有计算机的运算能力可以说是深度学习发展的最大瓶颈。有了DGX-1,OpenAI的人工智能系统将以更快的速度学习训练样本。这也意味着,在有限的时间内,系统能够处理量级更大的样本。

为此,OpenAI将利用Reddit(北美著名的社交新闻论坛网站)上超过20亿条帖子、新闻、回复、评论作为训练样本来训练其人工智能,且不需要更改代码。在DGX-1强大运算能力的支持下,这项需传统计算机耗时几年的工程将在一个月内完成。OpenAI希望借此打造能够无缝沟通、甚至以假乱真的聊天机器人,并利用其学习成果分析人类的交流方式。

Reddit上拥有将近90万个社区,这使其能够提供海量的、源源不断的、门类繁多的、口语化的训练样本。然而问题也在于此,充斥着污言秽语、色情暴力的Reddit会不会教坏OpenAI的人工智能,就像Twitter教坏Tay一样。对此,Hacker News上出现了广泛讨论,以下为部分观点:

  • LeanderK:我觉得OpenAI用Reddit比微软Tay用Twitter训练要好,因为Tay采用的是开放给Twitter用户的策略,但是OpenAI仅仅是使用Reddit上的数据,所以不会有这个顾虑。如果对于训练样本谨慎选择的话,OpenAI的人工智能最多也就是学到一些脏话。
  • Plusepsilon:Reddit作为数据源挺不错的,它上面的话题广泛、而且不同的用户有不同的语言风格。单就评论来说,也比Facebook和Twitter上的评论普遍要好,同时也没有报纸那么生硬。
  • Keyframe:很好奇,他们将如何处理非英语评论。
  • yahma:有人知道他们用什么网络结构吗?既然英伟达介入了,那应该用的是深度学习算法了。是LSTM?还是Generative Adversarial Nets?
  • bkanber:Reddit上的语料虽然会粗鲁刻薄,但也不乏篇幅较长的独到见解,所以不能全盘否定。如果AI系统能够自动识别出礼貌的交谈并加以更高的权重,那么系统就会变得越来越礼貌。所以我希望OpenAI能在语气和感情方面训练他们的系统,而不仅仅是语义语法上面。还有我也希望,OpenAI的算法能够通过链接一层层的获取到评论的源头,以深度优先的策略学习人类对话的逻辑。
  • gohrt:在学习算法中设置“仅包含长评论”可能是Reddit上脏话问题最简单的解决办法。
  • anexprogrammer:虽然过于口语化,但Reddit上有很多的长讨论都是非常正式的。我想如果训练样本足够多的话,AI能自己了解何时该表现聪明、何时该表现刻薄、何时该表现善良。
  • qxf2:我用过Reddit上的数据,当时我制作了一个AI来帮助作家调查人们对问题的看法,就是用Reddit上的评论作为训练样本。
  • random:要想真正的像人类一样说话,只懂语义是不够的,因为人类的语言是结合了人类的生存经验的。

在讨论中我们不难看到,大多数人对OpenAI选择Reddit作为训练样本这一事件持赞成并观望的态度。 虽然Reddit上的语料质量参差不齐,但其庞大的数据量以及大段大段的人类之间的交流与辩论给了OpenAI选择它的理由。希望OpenAI能找到合适的样本筛选方式来扬长避短。

如前文所说,OpenAI的研究成果将会公布,那么如果最终该聊天机器人成功面世,我们能够用它做什么?以下为Hacker News上的部分讨论:

  • jimmaswell:我觉得可以肯定的是,各种垃圾邮件以及骚扰信息会变得更多。如果这个机器人能高仿人类聊天,那么它发送的垃圾邮件会越来越难被检测到,它会假装人类在聊天工具上向你推销东西、跟你借钱或者企图挖掘你的银行卡信息。
  • swalsh:它的智慧能达到什么程度?它能跟我说话,跟我一起学习东西吗?更重要的是,它能不能学习我不会的东西,进而帮助我学习?这样的话,如果能够在网络教学的基础上,针对每个人进行个性化教学,那将是划时代的改变。如果我对某一个知识点理解错了,它能告诉我为什么我理解错了的话,就很有用。
  • otakucode:如果一个机器人能一边跟我说话一边查阅维基百科,那它就能知道我对于某个事件的理解与维基百科上的说明距离有多远,这样就太棒了!不过实现起来会不会有点棘手,对于我的理解程度的计算可能会有些困难。
  • happyslobro:我会用它来帮我预处理Github上的信息。当我要在Github上搜索某个解决方案的时候,它能帮我过滤掉无关的闲聊,直接生成简单明了的解决问题的方法。当生成方法所需的信息不全时,它能够自动帮我向作者提问以补全信息,或者呼叫其他用户的机器人寻求帮助。
  • netsharc:如果你有银行账单以及银行卡信息的话,那么你用可以用它研究经济压力是如何导致暴乱的。
  • TY:客服、私人智能助手、虚拟朋友、游戏角色、玩具等等。或者医疗助手,Eliza(第一个聊天机器人)就是模拟罗杰斯心理疗法搭建的,在当时很有影响力(当然,那是1960年代)。
  • chiph:智能管家机器人,就像钢铁侠里面的JARVIS一样。

如果你想获得Reddit的数据集,以下链接可能会帮到你(同样出自Hacker News评论):

  • Syllogism:Reddit语料库是一个非常好的数据库。需要做的标记少、重复率小、元数据质优、话题多。我们用Reddit训练过一个word2vec模型,这里是demo:
    https://explosion.ai/blog/sense2vec-with-spacy
  • minimaxir
    1. 他们用的Reddit语料库可能是这个:
      http://files.pushshift.io/reddit/comments/
    2. 还有在BigQuery上能够找到截止至2015年末的完整的数据表(2016年的表也可找到,但只有按月份整理的表):
      https://bigquery.cloud.google.com/table/fh-bigquery:reddit_posts.full_corpus_201512
    3. 这个是去年我写的“如何通过BigQuery使用Reddit的数据”指导:
      http://minimaxir.com/2015/10/reddit-bigquery/
  • chokma:这里有数据集的种子文件:
    magnet:?xt=urn:btih:UGFLA4QNEXGEFKYYY5ZU37JIHWEEYY5R&dn=reddit_data&tr=udp%3a%2f%2ftracker.openbittorrent.com%3a80&tr=udp%3a%2f%2fopen.demonii.com%3a1337&tr=udp%3a%2f%2ftracker.coppersurfer.tk%3a6969&tr=udp%3a%2f%2ftracker.leechers-paradise.org%3a6969
    这个种子文件里的数据是我整合的,更新到2016年4月。如果你想在自己的工作站上用这个数据集的话,这里有一些代码可供参考:
    https://github.com/dewarim/reddit-data-tools

想要获得更多技术干货?关注CSDN人工智能公众号 AI_Thinker

OpenAI使用Reddit训练聊天机器人相关推荐

  1. OpenAI研发的人工智能聊天机器人程序

    ChatGPT,是人工智能研究公司OpenAI研发的人工智能聊天机器人程序,一个自然语言生成式模型,使用基于GPT-3.5架构的大型语言模型并通过基于人类反馈的强化学习进行训练.ChatGPT使用自然 ...

  2. ChatGPT——OpenAI推出的人工智能聊天机器人

    ChatGPT--OpenAI推出的人工智能聊天机器人 目录 [隐藏] 1 什么是ChatGPT 2 ChatGPT的应用领域[3] 3 ChatGPT的原理 4 ChatGPT的发展历程 5 Cha ...

  3. 如何使用深度学习训练聊天机器人

    原文地址 译者观点:目前AI整体处于研究热点,很多领域离产业化还很远,比如本文中的主题如何制作聊天机器人,虽然各大厂都有不同涉足,但是涉及的领域有限,其实在各个细分领域都可以训练专用的聊天机器人.那么 ...

  4. 如何用TensorFlow训练聊天机器人(附github)

    前言 实际工程中很少有直接用深度学习实现端对端的聊天机器人,但这里我们来看看怎么用深度学习的seq2seq模型来实现一个简易的聊天机器人.这篇文章将尝试使用TensorFlow来训练一个基于seq2s ...

  5. python训练聊天机器人_一个可以进行训练的聊天机器人,一次chat的源码

    chatbot 一个可以使用自己语料进行训练的中文聊天机器人,目前包含seq2seq tf1.x和tf.2x版本,seqGan版本为tf1.x版本,后续计划更新pytorch版本,欢迎大家实践交流. ...

  6. PHP训练聊天机器人,智能聊天机器人,陪你聊天练口才!

    我们口才训练微信群里有智能聊天机器人,专门陪大家聊天练口才! (微信搜索公众号:社交口才训练营,就可以加入我们!) 加入我们口才训练营的朋友,空余时间可以在群里与智能机器人聊天,学习它的聊天技巧和说话 ...

  7. 【ChatGPT】如何通过提示工程(Prompt Engineering)训练你的聊天机器人

    文章目录 如何通过提示工程(Prompt Engineering)训练你的聊天机器人.md salesforce 爱因斯坦 gpt 代码开发实例 Prompt Engineering:提示工程解释 好 ...

  8. 一个可以使用自己语料进行训练的聊天机器人开源项目

    目录 背景 关于语料的说明 seq2seq版本代码执行顺序 seqGAN版本代码执行顺序 参考代码和文献 建议环境 已更新功能清单 版本路线图 背景 自定义语料训练聊天机器人,可以用于智能客服.在线问 ...

  9. 使用 ChatterBot 库制作一个聊天机器人

    作者 | 周萝卜 来源 | 萝卜大杂烩 我们学习一些如何使用 ChatterBot 库在 Python 中创建聊天机器人,该库实现了各种机器学习算法来生成响应对话,还是挺不错的 1什么是聊天机器人 聊 ...

最新文章

  1. verdi显示状态机名字_如何写好状态机(三)
  2. D2 日报 2019年6月11日
  3. NDIS6缓冲相关实验和经验
  4. 1.确保容器中的对象拷贝正确而高效
  5. 这届清华学生太难了!C++作业难到上热搜!
  6. oracle adf_Oracle ADF和Oracle Jet一起工作。 建筑模式
  7. java中Scanner类的使用
  8. 浅入浅出深度学习理论实践
  9. java 多线程的一种实现方式
  10. 微信为什么没有开屏广告?
  11. 天猫回应“双11数据造假”:已启动司法流程;小米折叠手机专利曝光;ASP.NET感染勒索软件|极客头条...
  12. java线程集合点_Java多线程学习笔记(三) 甚欢篇
  13. 基于16QAM调制的OFDM系统仿真实现
  14. QC新7大手法全面详解
  15. 2016.2.14-2016.2.21 中大信(北京)工程造价咨询有限公司实习有感
  16. 矩阵分解MF与非负矩阵分解NMF的应用
  17. ABB工业机器人程序编写与实战
  18. Ipv6地址与Ipv6 Cidr合法性校验
  19. 网站使用微软雅黑需要版权吗
  20. java空瓶换饮料的程序实现

热门文章

  1. 前端页面导入json格式数据
  2. 设计模式之命令模式(java)实例——电视机遥控器
  3. 学习yade日常错误2019.3.22
  4. 如何使用线性代数实现最小二乘法拟合曲线
  5. 《英语语法新思维初级教程》学习笔记(三)冠词
  6. 个人所得税税前工资计算器
  7. 全新WayOS 配置文件保存工具支持蓝色界面路由版本
  8. 超说网络NO.2 | 深入了解计算机网络:网络边缘、网络核心、接入网和物理媒体
  9. 【逗老师带你学IT】职场数据中心异地出口容灾,H3C的IP上一跳保持技术
  10. 云时代群雄逐鹿,云视频“杀手锏”知多少?