“沃森”背后的中国力量

cfoteam · 发表于 2012-1-17 23:12:51

月16日，由IBM研究的人工智能计算机“沃森”在美国著名电视问答栏目《危险边缘！》中战胜了两位人类选手，成为自1996年“深蓝”大战世界棋王卡斯帕罗夫之后最为引人瞩目的一次“人机大战”。沃森是如何制造出来的？它是如何“理解”人类的语言，并“思考”出答案来的？参与沃森项目的IBM中国研究院资深研究员潘越接受了《外滩画报》专访。

　　在美国著名电视问答栏目《危险边缘！》（Jeopardy！）47年的历史上还从未出现过这样的情景：历史上连胜最多的选手和获得奖金最多的选手成了一块电脑屏幕的陪衬。
　　在距离纽约城不远的IBM研究中心，主持人艾利克斯·特里博克在节目录制现场首先介绍参赛选手：肯·詹宁斯——曾连赢74场的答题王，创下连赢场数最多纪录；布拉德·拉特——获得奖金总额最高选手，总数达325万美元之多。
　　接下来，他说：“这一位……就是“沃森”（Watson）。”伴随着观众的掌声，“沃森”屏幕上的图案变成几条快速旋转的弧线，这说明它正在“思考”。艾利克斯接着介绍：“这块屏幕其实是一部庞大机器的‘阿凡达’”。
　　画面随后切换到他之前拜访“沃森”的场景，他走进存放“沃森”的实验室，“首先，我听到巨大的轰鸣声，这来自给它降温的‘冰箱’——风扇。”“沃森”看起来的确有10台冰箱那么大，通过线路连接着节目现场的那块屏幕，但它并不接入互联网。
　　这一幕不禁让人回忆起15年前，世界棋王卡斯帕罗夫第一次败在了一块电脑显示器的“手”下，一名棋手按照显示器上的步数与卡斯帕罗夫对弈，这台显示器连接着的正是旁边房间里两台冰箱大小的“深蓝”（Deep Blue）。
　　“接下来，就是见证历史的时刻。”艾历克斯说道，“这实在太有趣了。”
　　
“沃森”是如何工作的？
　　“沃森”看起来像是为《危险边缘！》度身定做的。这是一档在美国广受欢迎的著名知识问答节目，涵盖面涉及历史、时事、文学、艺术、流行文化、科技、体育、地理、文字游戏等各个领域。
　　根据题目提供的各种线索，参赛者必须抢答并给出简短正确的答案。提问是开放式的，答题者必须自己想出答案，而不是像《开心辞典》那样在A和B之间做选择，因此难度也更大。
　　《危险边缘！》自1964年开播，经久不衰，并不断演化出不同的形式和版本，题目从不重复，网络上的大批粉丝为它建立了题库。而在形式上它简单快速，题目提出到抢答不过十几秒，没有《开心辞典》求助现场观众、场外亲友那些娱乐化的形式。
　　“如果让‘沃森’求助亲友他就手足无措了。”参与“沃森”开发的IBM中国研究院资深研究员潘越开玩笑说。这种节目形式很适合基于深度问答（DeepQA）系统而建造的“沃森”。
　　问答系统(Question Answering System)是信息检索系统的一种高级形式。它能用人类语言回答人们提出的问题，比如“中国最长的江是什么？”
　　“它不同于google搜索的是，google搜出一大堆答案让人们自己去判断，而“沃森”——这个问答系统会自己做出判断并给出一个答案。”潘越说。
　　15年前，“深蓝”凭借在国际象棋领域展现出数学运算方面的能力取胜，而“沃森”更多地侧重于日常知识的掌握和对人类语言的理解及学习的能力。““沃森”的系统和架构与“深蓝”的完全不同。”潘越说。
　　问答系统一般包括三个主要组成部分:问题分析、信息检索和答案抽取。“沃森”是如何“读懂”问题并给出答案的呢？潘越为《外滩画报》详细介绍了这一过程。
　　比如，提问：谁导演了《星球大战》？人类选手会根据知识积累，给出“卢卡斯”这个答案，但对于“沃森”，这个过程要复杂得多。
　　它会通过摄像头把这个问题“扫描”进大脑里。先分析这个问的是人，然后再细化到是一位导演。接着分析《星球大战》，会找到很多文章。它要定位某篇文章，其中把星球大战的导演那一段找出来，然后对这一段做深度分析，比如找到一句话，这句话里说到这是某人在哪一年执导（direct）的，但没有提导演(director)这个词。实际上还可以找到很多类似的词，它就需要过滤，它先会找人名，比如斯皮尔伯格、卢卡斯等，这些都是潜在答案。针对这些答案它要找相关的证据去支持。它会再把“星球大战”和“斯皮尔伯格”一起搜索，或者是和“卢卡斯”搜索，结果发现“星球大战”和“斯皮尔伯格”共同出现在同一篇文章中比较少，而“卢卡斯”比较多。
　　“但是这还不是一个足够强的证据，还要列出证据一、证据二、证据三、证据四是什么。下一阶段是对于卢卡斯和斯皮尔伯格做快速排序，通过一个模型来确定哪个应该排在前面，哪个应该排在后面。“沃森”就要根据过去的比赛和知识库来确定。最后它得出的答案是‘卢卡斯’。”于是，人们听到的答案是“沃森”模拟人声的回答：“卢卡斯。”
　　当然，这一复杂的运算过程是在3秒钟之内解决的。
　　“沃森”还有一个“置信系统”，如果它对答案准确的信心百分比很高时，它就会通过传感器按下抢答按钮，如果信心不足或者大比分领先时，它会选择不回答，这也是“沃森”的“参赛策略”。

“沃森”背后的中国力量
　　《危险边缘！》人机大战的比赛在2月14日至16日进行，即便之前3个月“沃森”已经参加了真人参与的55场模拟比赛，并且成绩骄人，但这仍是潘越和他的团队最紧张的3天。
　　比赛第一天，“沃森”抢到了大部分问题，但错误率很高，与人类对手并未分出胜负，“沃森”和两位人类选手分别获得了5000、5000和2000分的成绩，而肯和布拉德也显得信心十足。
　　在后两天的比赛中，“沃森”势如破竹，肯和布拉德几无招架之力，很少按下抢答按钮，完全成了“沃森”的陪衬。最终“沃森”以77147分取得了胜利，肯24000，布拉德21600分，宣告了“沃森”以绝对优势赢得人类历史上第一次人机智力问答比赛的胜利。
　　潘越分析：“第一天的问题恰巧并不是“沃森”擅长的领域，因此差距并没有拉开，而后两天的比赛，人类对手则显然受到了沮丧情绪的影响。”这是机器智能的优势——没有感情当然也就不会沮丧。事实上，后两天里开发者并没有对“沃森”做出任何策略调整。
　　在比赛进行的同时，潘越和他的团队对每一天的比赛进行网络直播“复盘”，一是因为网友普遍反映英语非母语的人很难完全听懂和理解题目，二是中国团队也希望通过复盘总结“沃森”的得失。
　　实际上，节目的节奏实在太快，潘越也往往要听上好几遍才能把问题翻译成中文，同时他还要分析“沃森”为什么得到这个答案。
　　与潘越一起工作的还有3位中国研究员，中国团队负责从不同的途径给“沃森”提供数据支持。这是美国团队之外最重要的一支力量。而美国团队负责整体非结构化的知识架构——简单地说就是将2亿页书灌进“沃森”的脑袋，此外，IBM日本、以色列团队也参与其中，在“沃森”4年的研发过程中，全球有近30位研究员参与了开发。
　　.实际上，中国团队并不是最初就加入的。““沃森”项目最早是美国团队在做，在语义分析方面遇到困难向中国研究院求助，才有我们的加入。”潘越说，“在整个“沃森”系统性能停滞不前的时候，中国团队推动了它的前进。”
　　“大概是三年前我们接到这个任务时，用已有人工智能系统来参加《危险边缘！》的问答，当时的结果可以说是惨不忍睹。”那时候的“沃森”回答准确性大概只有10%，而人类选手正确率都能达到85%。“因为差距太大，我们没有采取提高原有系统性能的方法，而是重新构建新的系统。”
　　“沃森”原来采用的是一阶段的学习（将证据作为特征训练打分算法）。中国研究院提出了两阶段学习算法，提高了原来一阶段学习算法的准确度。两阶段的学习是指先用特征计算出模型，再用模型挑选数据，再用数据做另外的训练，根据选择的答案进行排序，就是多了一个选择的环节。也就是前面提到的“星球大战”的答题过程。
　　为了让“沃森”系统尽可能多地获得各种知识，中国研究专家在研发过程中不仅考虑采用来自诸如万维网的网页这样的非结构化知识源，也考虑采用一些结构化知识源，例如百科全书、小说、网页等。
　　但是，让电脑理解人类语言十分困难， IBM中国研究院的团队的任务之一就是让“沃森”尽可能地把人类语言变成计算机语言。简单地说，比如有一个表格介绍中国，列着国家名字、首都、人口，这就是结构化知识，这对于计算机来说非常容易理解。但百度百科上搜索到的关于中国的介绍，就是非结构化的知识，“沃森”就难以通篇理解它的意思。因此，将一篇文字介绍转变成表格就是中国团队的工作之一。
　　此外，中国团队还要评估“沃森”答案的可靠性。例如，问哪座山是中国最高的山，那所问对象的类型就是“山”。如果“沃森”错误地找到了“长江”作为备选答案之一，中国研究专家的算法在地理数据库中发现“长江”的类型是“河流”，而“河流”和“山”是两个互相排斥的类型，因此他们给“沃森”发出一个非常强烈的信号：“长江”的类型和问题不匹配，极不可能是答案。这样就可以帮助“沃森”排除那些让计算机显得很“愚蠢”的答案。
　　三年后，“沃森”的答题正确率已从最初的10%提高到如今的85%，达到了人类冠军选手的水平。
　　潘越说，“沃森”实际上是一个平台上搭建了100多个程序和算法，最初算一道题耗时长达2小时，后来IBM研究团队发现很多程序可以并行，最终将它的答题时间缩短到了3秒钟。

“沃森”不是为比赛而生
　　“沃森”战胜人类后，大多数人认为，它与“深蓝”一样，不过是一台为了比赛而生的机器，一台作秀的机器。毕竟“深蓝”在那场比赛后，除了帮忙算算基因序列，并无太大建树。
　　实际上，从“沃森”的硬件系统就能看出IBM的商业野心。“沃森”采用的是POWER750通用计算机，不是生物科学或者是气象预报使用的超级计算机，它的运算速度甚至远远不及中国的天河一号。这种计算机是任何商业公司都可以买到的商用计算机，价格基本在中级水平。
　　对于“沃森”的商业未来，潘越说：“我们很早就做了十个行业计划，目前看起来，在医疗领域是一个很好的应用。”在人机大战结束短短5天后，IBM就宣布与Nuance通讯公司(Nuance Communications)合作，将“沃森”在医疗卫生领域实现商业化应用。
　　一名专科医师要掌握当前最先进的医学成果，每天要看20篇文章；一个医学院学生，毕业之后五年内学到的知识可能有一半是过时的。此外，电子健康档案和电子病例会积累大量原始数据，这些数据对医生作更准确的诊断和提出治疗方法非常有帮助。
　　“但是人的认知能力和时间都是有限的，看一个病人可能要10分钟，但在中国医生少的情况下可能5分钟要看一个病人，因为不了解医学的最新进展和最新数据，所以误诊率还是很高的。”熟悉信息医学的潘越说。
　　如何把这些医学文献成果和医学数据提炼出来，帮助医生做临床决策，“沃森”这样的系统技术可以让医生对病人作针对性治疗，这对医生提高诊断准确性和治疗有效性有很大帮助，无疑是一个飞跃。
　　“其实这种方法在20多年前就在医学界被提出来了，但是我们没有这样的手段使其变成临床实践，有了“沃森”之后，这种比较科学的决策方式将成为现实。”潘越说。
　　无论如何，“沃森”的出现展示了一种趋势——计算机能和人类对话的时代已经不远了。

		自动登录	找回密码
密码			注册

微信扫一扫分享朋友圈