前言

前些日子我用ChatGPT和OpenAI提供的GPT-3 API做了一些实验。在实验的过程中我注意到,虽然ChatGPT可以记忆之前的对话内容,但其机制十分简单直白:

在发送一个新的prompt的时候,程序会将之前的所有的对话打包起来,然后添加到prompt之前。

这将导致单次prompt会随着对话的进行而变得越来越长,直至极限。即使没有极限,成本也会越来越大,直至难以接受。

也就是说,以目前的记忆方式,AI只能进行短期记忆,而无法进行长期记忆。于是我设计了一个可以让AI低成本地进行长期记忆的方法。

设计思路

不难看出,单次prompt可以被视作“背景条件”和“当前对话”两个部分。既然单次prompt的容量是有限的,那么只要让“背景条件”的部分尽可能和“当前对话”有关即可。

因此,我需要设计一个模型,使得AI会遗忘与“当前对话”无关的内容,并回忆起与“当前对话”有关的内容。

模型

  1. 记忆容器

    人格记忆容器:

    保存永久出现在prompt中的记忆。该容器包含了AI的语气、人设等信息,因为会一直占着“背景条件”的一部分容量,所以要尽可能精简。

    短期记忆容器:

    保存目前出现在prompt中的记忆。若该容器中某内容与当前对话无关,需将其转移到长期记忆容器中。

    长期记忆容器:

    保存还未出现在prompt中的记忆。若该容器中某内容与当前对话有关,需将其转移到短期记忆容器中。

    遗忘记忆容器:

    保存此回合即将被遗忘的短期记忆。属于短期记忆过渡到长期记忆的中间容器。

    此外,所有短期记忆与长期记忆组合起来称为所有记忆。

  2. 相关值与遗忘值

    相关值 R:用来衡量两个句子的相关性

    当判断两个句子是否相关时,我第一反应想到的是两句是否包含相同的关键字词,于是可以得到:当两个句子相同的字词越多时,这两句就越相关。

    然而,一句句子中,常见的虚词、代词所占的比重可能会比关键词所占的比重大很多,而且这类常见字词可能在几乎所有句子里都有出现,所以在定义R值时,需要将这些字词的比重降低。

    同时,我们不知道关键字词有多少字,但先不妨假设这个关键字词只有一个字,那么我们可以先得出一个简单的公式:
    B 句对于 A 句的相关性 R = ∑ 对 A 句的每个字 f ( B 句是否有这个字 ) g ( 该字在所有句子中的出现率 ) B句对于A句的相关性R=\sum_{对A句的每个字}{f(B句是否有这个字)\over g(该字在所有句子中的出现率)} B句对于A句的相关性R=对A句的每个字∑​g(该字在所有句子中的出现率)f(B句是否有这个字)​
    可以看到,当A中的某个字在所有句子中的出现率过大时,这个字对两句相关性的影响力将会减弱。

    接着,利用上述公式计算某记忆与当前对话的相关值,并将值映射到 ( 0 , 1 ) (0, 1) (0,1)区间。记:某记忆 M x = { c 1 , c 2 , . . . , c m } M_x=\lbrace c_1, c_2, ..., c_m\rbrace Mx​={c1​,c2​,...,cm​},当前对话 P = { p 1 , p 2 , . . . , p n } P=\lbrace p_1, p_2, ..., p_n\rbrace P={p1​,p2​,...,pn​},所有记忆 S = { M 1 , M 2 , . . . , M s } S=\lbrace M_1, M_2, ..., M_s\rbrace S={M1​,M2​,...,Ms​},且 M x ∈ S M_x\in S Mx​∈S。于是可得:
    R ( P , M x , S ) = s i g m o i d [ r ( P , M x , S ) ] R(P, M_x, S) = sigmoid[r(P, M_x, S)] R(P,Mx​,S)=sigmoid[r(P,Mx​,S)]
    其中:
    r ( P , M x , S ) = ∑ i = 1 n s i g n ( p i , M x ) × ( m ∑ j = 1 s s i g n ( p i , M j ) − 1 ) s i g n ( p i , M x ) = { 1 , i f p i i n M x 0 , i f p i n o t i n M x s i g m o i d ( x ) = 1 1 + e − x r(P, M_x, S) = \sum_{i=1}^n{sign(p_i, M_x)\times({m\over{\sum_{j=1}^s{sign(p_i, M_j)}}}-1)} \\\\ sign(p_i, M_x) = \begin{cases} 1,\,if\,\,p_i\,\,in\,\,M_x\\ 0,\,if\,\,p_i\,\,not\,\,in\,\,M_x\\ \end{cases} \\\\ sigmoid(x) = {1\over1+e^{-x}} r(P,Mx​,S)=i=1∑n​sign(pi​,Mx​)×(∑j=1s​sign(pi​,Mj​)m​−1)sign(pi​,Mx​)={1,ifpi​inMx​0,ifpi​notinMx​​sigmoid(x)=1+e−x1​
    然而,普遍情况下关键字词一般都由2、3个字组成,且通常来看,如果A句和B句拥有相同的多字词语,而A句和C句仅仅拥有相同的单字,那么显然B句相比于C句,与A句的相关性更大。因此,需要对上面的公式进行稍微的修改,降低拥有相同单字时的比重,同时加大拥有相同多字时的比重,且字数越多,比重越大。

    记:最大关键词字数为 A A A,当前对话 P = { p 1 , p 2 , . . . , p n } = p 1 p n ^ P=\lbrace p_1, p_2, ..., p_n\rbrace=\widehat{p_1p_n} P={p1​,p2​,...,pn​}=p1​pn​ ​,例如:“你吃了吗”中, p 2 p 3 ^ = \widehat{p_2p_3}= p2​p3​ ​=“吃了”。可得:
    R ( P , M x , S , A ) = s i g m o i d [ r ( P , M x , S , A ) ] r ( P , M x , S , A ) = ∑ a = 1 A − 1 [ ∑ i = a n s i g n ( p i − a p i ^ , M x ) × ( m [ ∑ j = 1 s s i g n ( p i − a p i ^ , M j ) ] A − a − 1 ) ] R(P, M_x, S, A) = sigmoid[r(P, M_x, S, A)] \\\\ r(P, M_x, S, A) = \sum_{a=1}^{A-1}[{\sum_{i=a}^n{sign(\widehat{p_{i-a}p_i}, M_x)\times({m\over{[\sum_{j=1}^s{sign(\widehat{p_{i-a}p_i}, M_j)}}]^{A-a}}-1)}}] R(P,Mx​,S,A)=sigmoid[r(P,Mx​,S,A)]r(P,Mx​,S,A)=a=1∑A−1​[i=a∑n​sign(pi−a​pi​ ​,Mx​)×([∑j=1s​sign(pi−a​pi​ ​,Mj​)]A−am​−1)]

    遗忘值 F:用来判断是否该遗忘某记忆

    在短期记忆容器中,每条记忆都会有一个遗忘值,并且在每一轮对话结束时更新。当遗忘值超过临界时,记忆将会被转移到长期记忆中。

    遗忘值的更新基于该记忆与当前对话的相关值,若相关值大于某一标准,则遗忘值将减小,反之则增大。

    记 R R R为当前记忆与当前对话的相关值, R ^ \widehat R R 为标准,则第n次对话时,当前记忆的遗忘值为:
    F n ( R ) = ∑ i = 1 n Δ F i ( R ) F_n(R)=\sum_{i=1}^n\Delta F_i(R) Fn​(R)=i=1∑n​ΔFi​(R)
    其中:
    Δ F n ( R ) = t a n h ( R ^ − R ) t a n h ( x ) = e x − e − x e x + e − x \Delta F_n(R)=tanh(\widehat R-R) \\\\ tanh(x)={e^x-e^{-x}\over e^x+e^{-x}} ΔFn​(R)=tanh(R −R)tanh(x)=ex+e−xex−e−x​

流程

  1. 设立阈值 R 0 ∈ ( 0 , 1 ) R_0\in(0,1) R0​∈(0,1), F 0 ∈ ( R 0 , + ∞ ) F_0\in(R_0,+\infin) F0​∈(R0​,+∞),其中, R 0 R_0 R0​越低越容易回忆, F 0 F_0 F0​越低越容易忘记。
  2. 遍历短期记忆容器,更新每条记忆的 F F F值。若 F ≥ F 0 F\geq F_0 F≥F0​,则转移至遗忘记忆容器。
  3. 遍历长期记忆容器,给每条记忆一个 R R R值。若 R ≥ R 0 R\geq R_0 R≥R0​,则给出初始 F F F值并转移至短期记忆容器。
  4. 将遗忘记忆容器中的所有记忆转移至长期记忆容器,并清空。

可能的改进方向

当某一话题重复多次后,未来回忆起该话题的可能性将会被降低。解决这个问题可能需要对长期记忆容器进行调整,减少记忆中相同、重复的话题数量。

关于AI记忆系统的研究相关推荐

  1. 应对AI失控,研究人员提出用“人格障碍治疗”解决问题

    翻译 | 林椿眄 编辑 | 明明 出品 | AI 科技大本营 [AI 科技大本营导读]随着人工智能 (AI)  技术和应用的普及,人们对于 AI 的认识不再只是一种智能机器.近日,麻省理工的研究团队构 ...

  2. TorchFusion 是一个深度学习框架,主要用于 AI 系统加速研究和开发

    TorchFusion 是一个深度学习框架,主要用于 AI 系统加速研究和开发. TorchFusion 基于 PyTorch 并且完全兼容纯 PyTorch 和其他 PyTorch 软件包,它供了一 ...

  3. AI面试锦囊|网易互娱AI Lab人工智能研究工程师两面分享

    ©原创作者 | 三金 写在前面 网易经过近20年的飞速发展,现已经跻身全球七大游戏公司之一,旗下拥有游戏行业领先的人工智能实验室--网易互娱AI Lab.该实验室致力于将AI技术应用在游戏中,现网易游 ...

  4. 我国AI医疗及人工智能医疗公司现状+2019年全球引领医疗健康的AI初创公司+科大讯飞和依图科技AI医疗发展情况+AI在医疗领域总结+面临的问题+AI医疗最新研究进展

    1.我国AI医疗及人工智能医疗公司现状 本节链接 2.2019年全球引领医疗健康的AI初创公司 本节链接 3.科大讯飞和依图科技AI医疗发展情况 本节链接 4.AI在医疗领域发展总结 本节链接 5.面 ...

  5. 北京内推 | 微软亚洲研究院机器学习组招聘AI for Science研究实习生

    合适的工作难找?最新的招聘信息也不知道? AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职! 微软亚洲研究院 微软亚洲研究院机器学习组从理论.算法.应用等不同层面推动机 ...

  6. AI一分钟|研究人员证明“金钱真的可以买到快乐”;特斯拉中国梦面临威胁

    1. 研究人员证明"金钱真的可以买到快乐" 我们会经常听到"金钱无法买到快乐"的说法,但是新的研究表明这不是真的.事实证明,金钱的确可以让一个人开心,但究竟需要 ...

  7. 王者荣耀AI绝悟如何选英雄?腾讯AI Lab新研究揭秘

    视学算法报道 编辑:Panda 抢射手?抢中单位?「绝悟」在打王者荣耀时是如何选英雄的? 腾讯 AI Lab 开发的 AI 智能体「绝悟」已让王者峡谷不再只是人类召唤师的竞技场,而且这个 AI 战队在 ...

  8. 一文看尽谷歌AI全年重大研究突破,Jeff Dean执笔,全程干货

    本文经AI新媒体量子位(公众号ID:qbitai )授权转载,转载请联系出处 本文约一万字,建议阅读10+分钟. 学术和应用两开花,开源和新技术同步推进. 刚刚,Jeff Dean代表Google A ...

  9. 网易云信AI音频最新研究成果获世界顶级学术会议 ICASSP 2022 认可

    近日,全球顶级音频技术会议 ICASSP 2022 公布了论文入选名单.网易云信音频实验室论文--<一种针对实时通信的基于神经网络的啸叫检测方法>(A Neural Network-bas ...

最新文章

  1. android控件触摸缩放,Android控件之ZoomControls缩放使用
  2. 螳螂捕蝉黄雀在后!地下黑客论坛免费远控木马被曝“后门”
  3. POJ2553 强连通出度为0的应用
  4. Scala 学习笔记(2)
  5. Nginx 完整安装篇
  6. 【LeetCode笔记】剑指Offer 37. 序列化二叉树(Java、二叉树、序列化、BFS、队列)
  7. 招聘启事的正确阅读方式您知多少?
  8. CodeForces - 589B
  9. 优化mysql的21个建议_MySQL优化小建议
  10. 错误解析 error:unable to find numeric literal operator ‘operator““a/b/c/...‘
  11. TIOBE 3 月编程语言排行榜:Java 大涨,Delphi 辉煌不再!
  12. iOS 细碎知识整理
  13. 学海无涯!马士兵的Java教程
  14. 粒子滤波(Particle filter)算法简介及MATLAB实现
  15. 数字电路:数据选择器与译码器
  16. MATLAB中矩阵求和的方法
  17. 基于SpringBoot-上传照片保存到本地,且回显照片
  18. 产品经理必备技能之业务流程图
  19. 【SDPTWVRP】基于matlab头脑风暴算法求解带时间窗和同时取送货车辆路径问题【含Matlab源码 1990期】
  20. Kafka入门经典教程

热门文章

  1. 笔记本电脑应用指南(下)
  2. 高校计算机等级一级考试试题,全国高校计算机等级考试一级试题.doc
  3. MACA协议和CSMA/CA协议的区别
  4. haproxy 503 Service Unavailable
  5. FindBugs配置介绍
  6. 【阿里云学习笔记】快速搭建网站
  7. JAVA中String的深入研究
  8. Web服务器,Web容器和应用服务器的区别
  9. Vue packages version mismatch:
  10. 这些软件测试行业的内幕你知道多少?