邓仰东专栏|机器学习的那些事儿(五):基于GPU的机器学习实例之IBM Waston
目录
1.绪论
1.1.概述
1.2 机器学习简史
1.3 机器学习改变世界:基于GPU的机器学习实例
1.3.1 基于深度神经网络的视觉识别
1.3.2 AlphaGO
1.3.3 IBM Waston
1.4 机器学习方法分类和本书组织
1.3 机器学习改变世界:基于GPU的机器学习实例
机器学习技术正在不断取得举世瞩目的成就,这一节会介绍三个机器学习的成功案例,让大家体会机器学习技术怎样解决极度挑战性的实际问题。
1.3.3 IBM Waston
前面两个小节介绍的是机器学习图像和游戏的成就,还没有直接处理人类知识。2010年,IBM “沃森”系统在人类知识竞赛中同样战胜了人类对手。IBM选择的突破口是美国著名的电视智力竞赛节目《危险边缘》(Jeopardy!)。《危险边缘》从1984年开始播出,其形式如图1-18所示。每次竞赛有三名参赛者,以抢答形式参赛。游戏直播现场的大屏幕被分为6×5的网格,每列对应一个主题(如历史、科学和政治等),每行对应一定的奖金数量。每次选中一个网格后,其中的文字(英语)显示出来,节目主持人念完内容后,参赛者可以开始抢答。这里的题目是最为独特的部分,大屏幕的网格显示的内容是题目的线索,而不是问题。参赛者看到线索后,按下抢答器后要回答出相应的问题。举例来说,大屏幕上显示的线索可以是:“他曾经被12道金牌召回,后来被秦桧陷害而死”,那么正确的答案是“岳飞是谁”。如果抢答正确,则相应参赛者奖金增加,否则要扣除一定的奖金。显然,《危险边缘》这种独特的竞赛形式对计算机来说是相等困难的。试想,提问题说答案的形式对计算机是很容易的,只需要进行一次搜索即可,甚至不需要真正理解问题;而目前的形式要求计算机不仅能够理解线索,还要找到线索之间的内在关系,从而找到答案。同时,在不能完全确信答案正确性的时候,计算机需要判断是冒险抢答还是保守求稳,从而最大化最后的奖金总额。
图1-18. 《危险边缘》节目示意图
为了证明机器学习能够掌握职业水准的问题-回答能力并且能够基于该能力进行关键决策,IBM成立了DeepQA团队,用三年时间研发了“沃森”计算机系统。该系统由90台IBM服务器组成,拥有360个Power 7系列处理器(由45nm工艺制造,每个处理器拥有8个内核、支持32个线程,主频最高可达4.1GHz),存储容量15TB,体积大致相当于10台冰箱那么大的计算机系统。“沃森”存储了大量图书、新闻和电影剧本资料、辞海、文选和《世界图书百科全书》(World Book Encyclopedia)等数百万份资料,全部资料长达2亿页。在参加《危险边缘》竞赛时,题面的问题线索以文字流的方式送给“沃森”,没有使用语音识别。参赛过程中,“沃森”没有上网,和人类一样只依靠自身的知识库。
图1-19. IBM“沃森”超级计算机
“沃森”在接受问题后,首先使用自然语言处理技术对问题进行语法语义分析,从中提取出关键词和核心语义。语义分析需要识别各种微妙的语言结构,例如讽刺、谜语、诗词以及特定文化现象。接下来,“沃森”把问题分解进行大规模并行计算。这里的分解包含若干层次,既有多种解题思路或角度的分解,也有基于同一思路使用不同算法的分解,还有把一套思路分解若干步骤的分解。每一个并行任务中,“沃森”根据关键词和语义从其知识库中查找线索并提取相关证据,由此产生针对答案的假设,然后对假设-证据组合进行评分。多个并行任务的答案汇总后,“沃森”再一次对解答的置信度进行评估,决定是否抢答。“沃森”能够象人类一样跳过自身不擅长的题目,甚至可以模仿开玩笑。图1-20是“沃森”计算机上运行的DeepQA深度问答系统的体系结构框图。
图1-20. DeepQA顶层架构图(根据[11]改画)
IBM“沃森”系统于2011年2月14日至16日与《危险边缘》历史上两位最成功的选手肯·詹宁斯(Ken Jennings,最长连胜记录的保持者,2004年连续获得74场的胜利,共赢得2,520,700美元)和布拉德·鲁特(Brad Rutter,2005年终极冠军)展开对决,图1-22是比赛场景的照片。最后成绩以比赛过程获得的奖金金额决定,实际冠军奖金为100万美元,亚军为30万美元,季军为20万美元。比赛过程略有波折:第一天,“沃森”与两位人类选手胜负难分,最终分别取得5000美元、5000美元和2000美元的成绩;第二天,“沃森”开始发力,以35734美元的成绩遥遥领先,而詹宁斯和拉特分别只获得4800美元及10400美元;第三天,“沃森”势如破竹,以41413美元的分数击败对手,使得两位人类选手仅获得19200美元和11200美元。我们可以进一步看看“沃森”回答的一些题目:
1.“There are about 50 species of the hedgehog type of this plant, so named for its spiny fruit.”(这种形似刺猬的植物有50个左右品种,根据其多针的果实命名),“沃森”首先抢答,正确地猜到答案应该是“cactus”(仙人掌),显然“沃森”在这道题目的优势在于其速度;
2. “Wanted for killing Sir Danvers Carew; appearance--pale & dwarfish; seems to have a split personality.”(意图谋杀丹佛斯·卡鲁爵士,外表苍白而侏儒化,似乎有分裂人格),这道题目对人来说很容易,看过《化身博士》的参赛者立刻指导答案,“沃森”则需要确定这个内容在什么文本里面以及描述的是哪个任务,它也的确正确推导出上面描述的是“Hyde”(海德);
3.“It was the anatomical oddity of US gymnist George Eyser who won a gold medal on the parallel bars in 1904. ”(这是生理解剖学的奇迹,美国体操运动员乔治·艾瑟尔在1904年赢得了一枚双杠金牌),这道题目相当困难, 乔治·艾瑟尔的奇迹在于他只有一条腿,对于“沃森”来说,知道乔治·艾瑟尔缺一条腿不难,但是推理出“缺一条腿还能得金牌是奇迹”就很难,此时“沃森”需要理解什么可以称之为奇迹,遗憾的是“沃森”给出的答案是“腿”,然而正确答案是“缺一条腿”;
4.“Its largest airport is named for a World War II hero; its second largest, for a World War II battle.”(该城市最大机场以一位二战英雄命名,第二大机场以二战的一场战役命名),这道题目必须考虑题目范畴“美国城市”,而且需要把“二战”、“城市”和“机场”等概念放在一起考虑,“沃森”错误的回答多伦多(正确答案应为芝加哥),显然是没有考虑题目范畴。
图1-22. “沃森”与两位人类对手
在取得《危险边缘》的胜利后,IBM为“沃森”规划了4条商业化道路,分别是医疗、金融、呼叫中心和政府公共事业。比如,“沃森”已经在美国克利夫兰医学中心找到了一份工作,参与医生培训工作,并与克利夫兰医学中心的临床医生和师生一起工作不断在医学领域的理解和分析能力。此外,“沃森”也为美国最大的百货公司——梅西百货处理顾客问题,为著名的“芝麻街”节目设计节目等。根据著名的市场调查公司IDC的报告,到2018年,以“沃森”为代表的IBM数据服务将贡献415亿美元的年收入。
邓仰东专栏|机器学习的那些事儿(五):基于GPU的机器学习实例之IBM Waston相关推荐
- 邓仰东专栏|机器学习的那些事儿(一)
目录 1.绪论 1.1.概述 1.2 机器学习简史 1.3 机器学习改变世界:基于GPU的机器学习实例 1.3.1 基于深度神经网络的视觉识别 1.3.2 AlphaGO 1.3.3 IBM Wast ...
- 基于张量机器学习模型_什么是基于模型的机器学习?
基于张量机器学习模型 About Tom: Tom Diethe is a research fellow on the SPHERE project at the University of Bri ...
- 基于Spark的机器学习实践 (九) - 聚类算法
0 相关源码 1 k-平均算法(k-means clustering)概述 1.1 回顾无监督学习 ◆ 分类.回归都属于监督学习 ◆ 无监督学习是不需要用户去指定标签的 ◆ 而我们看到的分类.回归算法 ...
- 基于Spark的机器学习实践 (三) - 实战环境搭建
0 相关源码 1 Spark环境安装 ◆ Spark 由scala语言编写,提供多种语言接口,需要JVM ◆ 官方为我们提供了Spark 编译好的版本,可以不必进行手动编译 ◆ Spark安装不难,配 ...
- 机器学习入门笔记(五):决策树
文章目录 一.决策树模型与学习 1.1 决策树模型 1.2 决策树与 if-then 规则 1.3 决策树与条件概率分布 1.4 决策树的学习 二.特征选择 2.1 信息增益 2.2 例题:利用信息增 ...
- 基于Spark的机器学习实践 (七) - 回归算法
0 相关源码 1 回归分析概述 1.1 回归分析介绍 ◆ 回归与分类类似,只不过回归的预测结果是连续的,而分类的预测结果是离散的 ◆ 如此,使得很多回归与分类的模型可以经过改动而通用 ◆ 因此对于回归 ...
- 清华大学邓志东:自动驾驶的“感”与“知” - 挑战与机遇(附视频)
不到现场,照样看最干货的学术报告! 嗨,大家好.这里是学术报告专栏,读芯术小编不定期挑选并亲自跑会,为大家奉献科技领域最优秀的学术报告,为同学们记录报告干货,并想方设法搞到一手的PPT和现场视频--足 ...
- 【认知智能】邓志东教授:如何迈向认知智能与通用人工智能
中国金融信息网讯 9月10日-13日,2017世界物联网博览会在无锡召开,清华大学计算机科学与技术系教授邓志东在网易AI公开课上介绍了人工智能现状和复兴原因,及其商业价值和中国人工智能产业发展的优势和 ...
- 清华成立视觉智能研究中心,邓志东任中心主任
整理 | 阿司匹林 出品 | AI科技大本营(ID: rgznai100) 6月21日,清华大学人工智能研究院视觉智能研究中心正式成立,清华大学副校长.清华大学人工智能研究院管委会主任尤政院士,清华大 ...
最新文章
- OpenCV(项目)车牌识别4 -- 总结篇
- Python-接口自动化(二)
- 图解电商支付架构设计,这才是真电商!
- R语言使用gganimate包和ggforce包可视化动画并动态缩放(zoom)移动动画的内容
- matlab toolbox下载_Matlab自动导出高质量无变形论文插图
- 【Android 安全】DEX 加密 ( 代理 Application 开发 | multiple-dex-core 依赖库开发 | 配置元数据 | 获取 apk 文件并准备相关目录 )
- Matlab图形用户界面编程初级入门
- Java web应用引用外部jar包 运行时报ClassNotFoundException 解决方法
- 【图像处理】——Python图像分割边缘检测算法之一阶梯度算子(Roberts、Prewitt、Sobel、 Kirsch、Canny算子)
- ASP.NET 多环境下配置文件web.config的灵活配置---转
- 金融行业怎么用AI?蚂蚁金服是这么做的
- 宁德时代预计一季度净利润超9.9亿元 同比增长超140%
- MenuItem 对象
- PDF按页拆分为PDF单页或者图片
- 软考—信息项目管理师(信息化和信息系统二)
- To install spack and your first package
- 庖丁解牛——深入解析委托和事件
- [算法] 手绘家谱的流程思考
- 教子要过计算机考试吗,[教子有方]高考家长最容易陷入的十大志愿填报误区
- Android 11.0 PackageManagerService(一)工作原理和启动流程
热门文章
- WEEP10 dp入门
- 网易蜂巢ubuntu16.04 安装mysql5.7
- 为了彻底弄懂CSS中的1px究竟有多长,我翻出了家里的卷尺
- 腾讯云域名价格表包括注册/续费/转入费用
- request和response简介
- 谷歌ajax失败重新请求,谷歌浏览器 - 失败GET ajax请求
- 解决 *** error 65: access violation at 0x0000000C : no 'read' permission
- 华为交换机基础配置(telnet/ssh登录)
- 阎王点赞!地府后台管理系统驾到,速来销生死簿名单!附地址
- VS2013运行OpenGL例子提示找不到GL/glew.h