来,你们要的夸夸聊天机器人升级了,针对问题内容进行“准个性化”回答,目前可以凑合用,但是聊胜于无,欢迎来撩,使用方法,关注公众号AINLP,后台对话即可:

自从《一行Python代码实现夸夸聊天机器人》发布后,有不少同学期待着夸夸聊天机器人的升级。但是巧妇难为无米之炊,所以我准备了夸夸语料库:《为了夸夸聊天机器人,爬了一份夸夸语料库》。有了夸夸问答语料之后,针对聊天机器人或者智能问答就有很多方法可以操作,最直接的一个想法就是计算问题与夸夸语料库中的标题(以及内容)的语义相似度,然后取最匹配问题的答案作为结果返回。

我大概就是是这样操作的,首先对语料库进行了简单的清洗和重组,清洗掉没有答案的,以及作者自己回答的答案,然后将每个问题的答案组合为list作为随机答案。不过更直接一些,只计算问题和标题的相似度,按一定的阈值进行过滤,所以这个版本,还存在很多问题,大家先凑合着用,后续还有升级计划。

这方面比较关键的一个问题就是相似问题匹配或者句子语义相似度计算。关于文本相似度,词语或者短语级别的语义相似度在词向量范畴下解决的很漂亮,感兴趣的同学可以体验:《相似词查询:玩转腾讯 AI Lab 中文词向量》,但是到了句子级别或者文档级别,目前貌似还没有很漂亮的解决方案,或者我调研的不够,有线索的同学欢迎留言探讨。

最后关于如何使用这个夸夸聊天机器人,首先关注我们的公众号AINLP,然后后台和聊天机器人对话即可,不过需要一些关键字触发夸夸模式,譬如“。。。求夸。。”, “。。。求赞。。”, “。。。,求鼓励”, “。。。, 求表扬”, 或者 “。。夸我。。。。”, “。。。鼓励我。。。”等等,否则进入闲聊模式。关于聊天机器人,目前希望大家不要抱太高的期望,把它当傻子即可:

聊天过程中如果问题没有匹配上或者过于简单,会回退到随机模式:

当然,这里选的case一定是准备过的,还有一些bad case没有给你们看,欢迎测试,欢迎建议,特别是如何匹配问题域的建议,非常欢迎。

继续阅读 →

python 句子相似度 库_句子相似度相关推荐

  1. python 句子相似度 库_利用python语句的word2vec查找两个句子之间的相似度

    我想用word2vectors计算两个句子之间的相似度,我试图得到一个句子向量的向量,这样我就可以计算出一个句子向量的平均值来找到余弦相似度.我试过这个代码,但它不起作用.它给出的输出是带有一的句子向 ...

  2. python中nlp的库_用于nlp的python中的网站数据清理

    python中nlp的库 The most important step of any data-driven project is obtaining quality data. Without t ...

  3. python中nlp的库_单词袋简介以及如何在Python for NLP中对其进行编码

    python中nlp的库 by Praveen Dubey 通过Praveen Dubey 单词词汇入门以及如何在Python中为NLP 编写代码的简介 (An introduction to Bag ...

  4. pillow是python的图像处理标准库_详解Python图像处理库Pillow常用使用方法

    pil(python image library)是python的第三方图像处理库,但是由于其强大的功能与众多的使用人数,几乎已经被认为是python官方图像处理库了. 其官方主页为:pil. pil ...

  5. python动态交互式图表库_五个创建交互式图表的Python库

    数据可视化专家Andy Kirk说过,数据可视化分为两类:探索性可视化图表和解释性可视化图表.解释性可视化图表的目标是进行描述--它们是根据对事物表面的关键线索而被仔细构造出来的. 另一方面,探索性可 ...

  6. python如何仿写文章_句子仿写 python

    句子仿写~ 语文是陆游怀才不遇而作<卜算子 咏梅>,壮志未酬乃书<示儿>;陶渊明看破尘俗.不得志而吟"采菊东篱下,带月荷锄归"-- 仿照<我想> ...

  7. python文本相似度分析_文本相似度分析(基于jieba和gensim)

    ##基础概念 本文在进行文本相似度分析过程分为以下几个部分进行, 文本分词 语料库制作 算法训练 结果预测 分析过程主要用两个包来实现jieba,gensim jieba:主要实现分词过程 gensi ...

  8. python解析html的库_用python解析html

    python中,有三个库可以解析html文本,HTMLParser,sgmllib,htmllib.他们的实现方法不通,但功能差不多.这三个库中 提供解析html的类都是基类,本身并不做具体的工作.他 ...

  9. python语音合成需要的库_语音合成的几种方案实现与分析

    1. 语音合成平台介绍语音合成是将人类语音用人工的方式所产生.若是将电脑系统用在语音合成上,则称为语音合成器,而语音合成器可以用软/硬件所实现.文字转语音(text-to-speech,TTS)系统则 ...

最新文章

  1. 【译】MongoDb vs Mysql—以NodeJs为例
  2. 题目1192:回文字符串
  3. Softmax算法:逻辑回归的扩展
  4. 数据结构 链表(一)
  5. json的键为变量而不是字符串时,怎么写?
  6. 若依前后端分离版怎样根据数据库生成代码并快速实现某业务的增删改查
  7. fiddler几种功能强大的用法(一)转自:http://www.cnblogs.com/chenshaoping/p/5785010.html
  8. LeetCode 1966. Binary Searchable Numbers in an Unsorted Array
  9. 一辈子的礼物56ay长沙论坛
  10. 万能客服公众号版-聚合客服小程序功能模块V28.1.0
  11. (13)Verilog程序结构-基本语法(一)(第3天)
  12. 关于计算机组件游戏,Windows系统运行库/游戏运行库组件怎么补全?
  13. MySQL的sql优化
  14. CentOS之安装Netcore运行hellowworld
  15. 最长递增子序列和双序列
  16. OMG: daily scrum nine
  17. 目标追踪论文之狼吞虎咽(1):VITAL算法
  18. 小于n的最大素数python_找到小于n的最大素数,n=~10^230
  19. 大数据全系技术知识概览
  20. 零基础入门WordPress安装详细教程(图文)

热门文章

  1. 前端开发-数组和对象转换
  2. stm32 基于TouchGFX显示视频动画的详细制作过程和讲解
  3. Android 中心区域选中图表 WheelChart,必须试试
  4. win10双屏锁屏后再解锁导致副屏窗口全部移到主屏的解决方法
  5. 常用的几种Hints优化一条SQL
  6. 从BSV下架风波, 揭秘构造区块链分叉的测试方案 | 技术头条
  7. 全民直播时代,视频云带来了哪些价值?
  8. 周志华西瓜书 10 个算法详细视频
  9. SoapUI接口测试之WSDL(四)
  10. latex一行插入多图