论文地址:https://arxiv.org/abs/1809.05350v1

二.  实现

我们从Kaggle[6]中获取了TED演讲数据集,其中包括2400个TED演讲的数据,包括标题、演讲者、标签、文字记录等等。从数据集中,我们主要使用平均有3000字的转录本。

Step1:我们使用Mechanical Turk (labMT)[7]进行语言评估,从转录本中得到正和负的分数。分数越高,代表内容越积极,说明视频内容对观众有积极的情感影响

Step2:我们使用TF-IDF分析来确定哪些单词代表TED演讲的语义。具有较高TF-IDF值的单词被用来形成描述每个视频的词云。

Step3:应用Gensim包的Doc2vec导出转录本向量。对矢量表示进行了训练,并用它们来计算这些文档嵌入之间的余弦相似度。我们使用向量维度200和上下文大小8作为超参数。

三.  系统演示

我们的web应用程序的后端分析(如相似度计算、社群检测和情感分析)是使用Python进行的。对于我们web应用的用户界面,我们使用d3.js构建了相似视频的网络

图1是我们的web应用程序的主页,左边的面板显示了2400个TED talk视频的标题列表。中心面板显示了主要网络,其中视频被表示为定点,它们的相似性被表示为边。主网络只显示了最上面1%的相似评分关系作为边。节点的颜色表示视频的情绪得分:蓝色表示消极,红色表示积极。节点的大小表示每个视频的视图数量,节点根据检测到的社群进行分组。

当鼠标指针悬停在一个节点时,视频的标题出现,和右边的面板显示了该节点的信息:一个字云总结了视频的内容,和其他视频内容相近的列表(图2)。通过悬停鼠标指针在节点,用户可以浏览在TED的演讲视频。

用户可以点击左边面板上显示的视频标题,或者在搜索框中键入标题进行搜索。图3是用户搜索“大脑创造意义的三种方式”视频时显示的画面。这个视频的邻居网络出现在中央面板上。它展示了高度推荐的共享相似内容的视频。将鼠标悬停在节点上,右边的面板会显示一个词云和一个相关视频列表,这些视频的相关性最高,最低。通过点击其中一个列出的标题,用户可以登陆TED.com上的视频网页。

表1比较了TED.com和我们的方法推荐的视频,题目是“学校扼杀创造力吗?”TED.com提供了一个列表,列出了每个TED演讲最多6个相关视频,而我们的方法则推荐了10多个相关视频。平均两个视频作为两组的交集,一组来自TED.com的推荐视频,另一组使用我们的方法(B部分)。一些最初由TED.com的视频管理员推荐的视频并没有包含在我们的推荐人(A部分)的结果中。通过查看Kaggle的数据集,我们能够确定这些视频是否共享公共标签。一些结果,包括可能不如课程g相关的课程d,显示了这种面向标记的建议的局限性。所选的TED talk和lecture g的主题强调“孩子们有自己的创造力,老师应该尽量让孩子有创造力”,而lecture d强调的是“孩子们有受教育的权利,没有歧视”。C部分是关于相关的视频,这些视频并没有在TED.com的相关视频数据中列出,但是我们的方法是推荐的。

三.  最后

本文介绍了TED talk视频推荐系统的新概念,并将其开发成web应用程序。我们的应用程序使用深度学习技术,通过测量视频转录本的相似性来推荐语义相关的视频。与基于标签的推荐相比,我们的方法在质量和数量上都有可能提供更好的相关视频,因为C部分的大多数课程看起来都非常相关。所以这项研究可以证实我们基于转录的推荐方法适用于有演讲的视频。

此外,随着语音识别技术的提高,我们的方法有望在TED.com之外扩展到其他视频平台。除了视频平台如YouTube,提供视频分享的社交网络服务也可以从我们的方法中获益。通过将其应用到用户创建的视频中,可以分析这些视频的内容,并用于构建视频的语义网络。因此,用户可以很容易地找到与自己兴趣相关的视频,而不会被不恰当的推荐误导。

转载于:https://www.cnblogs.com/kyxfx/p/9831130.html

基于语音转录的ted演讲推荐相关推荐

  1. 基于端到端 语音合成_基于语音的电子医疗应用

    基于端到端 语音合成 Healthcare has been one of the countless beneficiaries of the revolutionary advances that ...

  2. 【国内首家】第一个基于语音生成实时知识图谱的系统来啦!!!

    点击上方,选择星标或置顶,不定期资源大放送! 阅读大概需要8分钟 Follow小博主,每天更新前沿干货 基于文本生成知识图谱的研究很常见,但是基于语音生成知识图谱,这算是第一家. 在这个信息飞速发展的 ...

  3. 基于深度学习的个性化新闻推荐.pdf(附下载链接)

    今天给大家带来微软亚洲研究院研究院吴方照先生在2020年5月10日举办的"推荐系统前沿进展"系列学术沙龙活动中所做的分享<基于深度学习的个性化新闻推荐>,在本次分享中, ...

  4. TED演讲双语演讲稿:为什么我们很难做出理性的决定?

    TED演讲双语演讲稿(精编 word打印版) :为什么我们很难做出理性的决定? 演讲时间:2019年 讲者简介:David Asch:经济学家 演讲简介:为什么我们在明明知道的情况下还做出对健康有害的 ...

  5. 逐字稿整理-中/TED演讲:如何训练思维,突破局限?(大花猫冯夏)

    TED演讲/中文篇:如何训练思维,突破局限? (整理by大花猫冯夏) 今天我们要讲合作,我会和你们分享,我认为最重要的合作,也就是你和你思维的合作. 当你能够与思维合作,告诉它你想要的,那你就会得到你 ...

  6. [机器学习笔记] 用Python分析 TED演讲数据(更新中)

    用Python分析 TED演讲数据 首先准备TED演讲数据集,TED演讲数据集和信息可以从下面的资源获得: https://www.datafountain.cn/datasets/11 该数据集包含 ...

  7. 【实战】“TED”演讲——可视化分析

    TED(technology entertainment design) 旨在将技术.娱乐.设计领域的专家聚集在一起的非盈利性组织 口号:"Ideas worth spreading&quo ...

  8. TED演讲-从苹果派到无人驾驶,为什么说大数据是更好的数据?

    CDA数据分析师 出品 编译:Mika [导读]自动驾驶汽车只是个开始.大数据驱动技术和设计的未来是什么?肯尼斯·库基尔在TED演讲中探讨了机器学习和人类知识的下一步发展方向. 标题从苹果派销量下降说 ...

  9. 听说AI不光能做双十一海报,还有了集体智慧 | TED演讲

    摘要: 提起"人工智能"几个字,你的脑海里会浮现出什么呢? 是星球大战里的R2-D2和C3PO? 还是能在几分钟内做出双十一1000张海报.完美诠释"五彩斑斓的黑&quo ...

  10. python单例模式基于__new__方法实现的单例模式(推荐使用,方便)

    单例模式以及Python实现 单例模式 单例模式就是确保一个类只有一个实例.当你希望整个系统中,某个类只有一个实例时,单例模式就派上了用场. 比如,某个服务器的配置信息存在在一个文件中,客户端通过Ap ...

最新文章

  1. 【SpringCloud】Zuul-实例
  2. mysql 存储地理信息_使用Amazon Aurora存储和处理地理信息数据
  3. DHCP详细工作过程
  4. 深度剖析 synchronized
  5. 华为android9.0升级,华为官方更新消息:这几款手机9月5日分批推送安卓9.0系统升级...
  6. 助人快乐:笔记本连网
  7. 【Java】异常处理体系概述
  8. c++矩阵转置_lt;读书笔记4gt; 稀疏矩阵基础算法
  9. SQL Server触发器创建、删除、修改、查看示例步骤
  10. Cuda:invalid device pointer
  11. 12.04 ubuntu 安装微软雅黑的字体
  12. Java原生代码连接MySQL数据库
  13. python权重初始值设置_如何查看初始权重(即训练前)?
  14. 地图Web服务API接口——搜索POI(以高德地图为例)
  15. 软件体系结构期末复习题
  16. 超全!体验度量理论2021版
  17. TP6微信公众号登陆授权
  18. 解决按键精灵助手无法连接Android手机的问题
  19. WIPE与Format的种种神马情况
  20. 黑客帝国神级影评,转至豆瓣。 — — 哲思。

热门文章

  1. 有源医疗器械有效期如何验证?
  2. 时钟同步 matlab,合并时间表并同步其数据
  3. Python/sorts/
  4. aes解密流程图_史上最全经典设计案例:基于AES加密算法的保密通信系统设计,完整软硬件协同方案-通信/网络-与非网...
  5. Java基础提升高级API---百知教育java基础学习3
  6. npm模块包批量安装_为什么在安装npm软件包或模块之前应该三思而后行
  7. MATLAB直流电机机械特性仿真——上课笔记
  8. 第13届景驰-埃森哲杯广东工业大学ACM程序设计大赛 D psd面试 【LCS】
  9. 区块链首次应用于集五福:链上有“福”同享是什么体验?
  10. IT行业博客网站分析和创新