书院导师

书院建设

书院学术

读书交流

社区生活

服务专区

联系我们

回到首页

友情连接

知识图谱：让搜索通往答案本身

发布日期： 2013-07-10 访问次数: 562

谷歌似乎成为了知识的代名词。它虽不能回答你的问题，却可以帮你找到答案。随着“知识图谱”（Knowledge Graph）的出现，谷歌的定位也在改变——它提供的不仅是通向答案的链接，还有答案本身。

谷歌从未停止自己对于搜索的探索。这间公司已经近乎达成“世间万物的所有信息都汇聚于此”，“知识图谱”（Knowledge Graph）要做的，就是梳理清楚这些信息间的关系。

这十几年来，随着以谷歌为代表的互联网搜索巨头的出现，“搜索”这个概念已经发生了翻天覆地的变化，被改变的不仅仅是困惑时寻找答案的方式，连“迷路”等状况也渐渐地淡出了人们的生活。思考的方式在变，与朋友联系的方式在变，获取信息的方式在变，甚至于搜索的方式也在改变——用语言向计算机提问，不再需要输入框。

搜索的未来会是怎样？身价亿万的谷歌创始人拉里·佩奇（Larry Page）和谢尔盖·布林（Sergey Brin）2004年曾预言，“搜索会成为人们大脑的一种活动，当你在想到一件不怎么清楚的事，它便会自动出现在你的脑海里”；“谷歌的目的是用全世界的信息扩张人类的脑容量。目前，你需要在搜索框内输入字眼，但未来事情肯定会更简单。你可以和设备对话，计算机会自动收集周围的信息……”；佩奇更是坚信，“最终，计算机会被植入你的大脑，只要想到，答案就会出现”。

9年之后，布林规划的“未来”已经逐步实现，苹果和谷歌都推出了语音搜索服务，而Google Now可以在你发问之前告诉你目的地的天气如何、喜欢的球队战况怎样，诸如此类的信息。而佩奇的大脑植入计划还仍旧遥远，不过谷歌正在研发的“谷歌眼镜”可以在使用者眼睛近前方外侧投射一个恒定的屏幕影像，操控也是通过语音进行。搜索，已经越来越接近于思考。（※此处已修改）

搜索的概念日新月异，但其本质却始终如一——满足你对信息的需求。在这一切的背后，是写代码的程序员孜孜不倦的努力。提起程序员，就不得不提到阿米特·辛格尔（Amit Singhal）。44岁的辛格尔是Google搜索部门的带头人，十几年来他肩负着编写及维护谷歌搜索算法的大任，正是他负责的200多个独立的编码方程式，让我们在迷惑时能从Google得到答案。

谷歌搜索的掌门人

阿米特·辛格出生于印度北部的一个小村庄，在8岁后他的家里才添置了第一块显示屏，那是一台黑白电视机。“当时的电视只有两个频道，一个是针对于本地农民播放的农业频道，另一个不断地播放美国电视剧，比如星际迷航（Star Trek）。”“我看了非常多遍星际迷航，每一集我都烂记于心”，回忆这段岁月时辛格尔发出了爽朗的笑声，“我认为是这部电视剧改变了我的世界观。在星球间穿行、能回答任何问题的电脑，这些概念深深地植入我的心底。唯一没想到的是，这些东西竟然会在我的有生之年出现。”

辛格尔认为自己是个幸运的人，总是在正确的时间被引领向正确的事情。1991年他在美国本科毕业，转入学习计算机搜索，这一年起万维网（World Wide Web）开始连接世界。在拿到博士学位后，辛格尔加入AT&T的贝尔实验室（Bell laboratories）。2000年起，他加入谷歌。这一切，仿佛冥冥之中有一双手在指引他前进的方向。

接受采访时，辛格尔从口袋中掏出自己的安卓手机，对着手机问道：“伦敦有多少人口？”手机答：“2011年的数据显示，伦敦人口为817.4万。”他接着问：“贾斯汀·比伯（Justin Bieber）身高几何？”手机答：“贾斯汀·比伯身高5英尺7英寸。”声音落下，辛格尔露出了孩子般的笑容：“如果我二十年前睡着了今天才起床，看到这一切后，我肯定会激动地问：‘快告诉我，去哪里搭乘星际航班？’”

辛格尔进而表示，他们现在取得的成果都还在初级阶段，但搜索已经站在了奇幻未来的大门口。在经过了十几年的发展后，这些冷冰冰的计算机开始获得人性化的能力，“开始学习如何理解真实社会中的人和事”。

在一些看似简单的场景背后，蕴含着极其丰富的信息，就比如说手机回答了贾斯汀·比伯的身高。手机得明白，贾斯汀·比伯是一个人，还得明白身高一词代表着怎样的含义。“计算机已经能够跨越语义学上的障碍，但这远远不够。在简单的语句背后是一大堆无结构的文本信息，只有明白了究竟问得是什么问题，才能给出适合的答案。”

现在，谷歌似乎成为了知识的代名词。它虽然不能回答你的问题，但它可以帮助你找到问题的答案。从某些方面看，随着“知识图谱”（Knowledge Graph）的出现，谷歌的定位也在改变——它提供的不仅是通向答案的链接，还有答案本身。

知识图谱：梳理人与信息的联系

知识图谱是一个收集了5亿余个最常被搜索的人、地、事的数据库。对于每一个词条，谷歌都提供了大量而全面的信息——不是简单的词串或单薄的数据片段。假设你通过知识图谱查询唐宁街10号（10 Downing Street），谷歌给出的答案并不是“这是一个地名”，他会像一个普通人一样，把相关的信息对你娓娓道来，这些相关信息都是其他用户经常查询的。

5 年前，当科技类杂志《连线》（Wired）创始人约翰·巴特利（John Battelle）创作著作《搜》（The Search：How Google and Its Rivals Rewrote the Rules of Business andTransformed Our Culture）时，他引用了艾萨克·阿西莫夫（Isaac Asimov）在科幻小说中描述的场景：“所有被收集的信息都来到一个终点，世间万物的所有信息都汇聚于此。但是，这些信息之间的关系还没有被完全梳理清楚，这项工程要耗费无穷无尽的时间。”

信息的广度和精度

在某种角度上，谷歌对知识图谱的尝试便是这一无穷无尽的工程的开端。对于这间公司，它已经近乎达成“世间万物的所有信息都汇聚于此”，它管理的信息不仅是互联网上一切网页上书写着的内容，更有每一条街、每一道路上的照片，有数不尽的实体书内容，有你我观看的每一个网络视频（最大的视频分享网站Youtube为谷歌所有）。近年来，谷歌又在做新的尝试，它想记录下世间各色各样的人音，为了收集世间一切的语言或方言，以打造出新一代的翻译／人声阅读功能。同时，谷歌还在人脸识别领域进行探索。最关键的是，凭借搜索记录等常被大肆批评讨论是否侵犯隐私的个人信息搜集，谷歌足够了解每个用户的私人生活。

一切被收集的信息不仅可用于精准契合用户需求提供信息支持，更能帮助谷歌去思考如何给机器培养思维。这十几年来，辛格尔和他的团队一直在探索，如何通过文本和超链接为搜索用户提供更为准确的信息。同时，他们也慢慢掌握了方法，“观察这个世界是如何与信息产生互动，并开始做一些其他的东西，比如让计算机明白人们输入的问题是什么意思”。

谷歌是如何向用户学习的呢？其实很简单，分析用户在搜索页面上停留的时间。如果时间长，说明用户找到了满意的答案，他们不需要点开其他链接，或是更改搜索词条。如果时间短，这就说明搜索页面没有做到尽善尽美，得算是一个小的失败。每个人都认为，我们向谷歌学习了很多。但事实上，受益于源源不断的上十亿次分析，谷歌从你我身上学到了更多东西。

理解用户的需求

早在2002年，辛格尔就基于路德维希·维特根斯坦（Ludwig Wittgenstein）的理论，引进了一套关于上下文如何影响单词词义的升级理论。当词义模糊的单词被搜索时，谷歌跨越单词本身去查询相关的词汇。比如热狗，谷歌会通过相关词“芥末”或“球赛”明白它是一种快餐类食物，而不是一只很热的狗。辛格尔解释说，“正是热狗与很热的狗之间的细微差别，定义了人工智能。”

既然如此，是不是人们用谷歌用得越多，谷歌就越能提供精准的回答呢？对于这个假设，辛格尔发出一声叹息：“事实不是如此。当搜索引擎给出的信息越精准，用户的提问就越粗糙，搜索引擎的进步就受到了阻碍。”面对着大量的语法错误或是拼写错误，工程师要耗费大量的精力去调试系统，目的只有一个，做出《星际迷航》中那样的计算机，即便你不知如何表述自己的问题，答案仍会出现在你的脑海中。“最终我们希望搜索成为大脑思考进程中自然的一环，我们竭尽全力消除问题与答案之间的阻碍。”这一切，恰是对于“植入大脑的计算机”概念的响应。

知识图谱是一个强有力的尝试，它的出现是随着谷歌收购 Metaweb 公司开始的。辛格尔回忆道，“我们发现了这家叫做Metaweb 的公司，他们拥有让计算机与人类和谐交互的办法，他们正尝试着把真实世界的人与物投射到计算机内存之中。他们的技术看起来很靠谱，所以我们收购了Metaweb。”

在那时，Metaweb 存储了1200万个参照点（reference points）。在两年后，有了谷歌的推动，这个规模被扩张至5.7亿，并在这些参照点之间建立了180亿个连接。这是一个怎样的概念呢？“百科全书”维基百科内仅收录了约400万个词条。

艾米丽·莫克斯利（Emily Moxley）是谷歌知识图谱的负责人，她在接受记者采访时表示，他们花了极大的功夫，才让这个搜索引擎能够区分英式足球和美式足球（即橄榄球）。“比如说在日本，我们的分析结果显示，用户对于影星的血型很感兴趣，于是我们在知识图谱内便添加了这部分内容。”谷歌针对日本市场还花费了另一些功夫。他们发现日本用户在搜索相扑时难以得到满意的答案，“我认为我们至少得能够回答一些较有深度的相关问题”，艾米丽如是说。怎样才是“较有深度”呢？艾米丽的答案是，“至少要能回答最常见的那几千万个问题。”

知识的精度与广度并不是谷歌唯一的追求，辛格尔希望搜索的结果能够与用户的需求相一致。“当你搜索马丁·路德·金（Martin Luther King）那篇著名的演讲《我有一个梦想》时，”辛格尔说：“你可能想找演讲文本，可能想找相关图片，但我们猜，你真正想要到的是当时现场的视频，所以这段视频出现在知识图谱的最上方。”这就是知识图谱，谷歌希望它不仅能提供信息，还要能理解人的需求。

不少人质疑，谷歌每年的营收超过 9 成来自于广告收入，而广告收入的基础恰恰是他们所掌握的信息。不过，如果你向任何一位谷歌员工提起这个话题，他们都会自然地给出类似回应：“你为什么不相信我们呢？”谷歌也时时因为自己的角色陷入法律纠纷中，比如欧盟起诉谷歌在搜索结果中偏袒自己的产品服务，违反了反垄断的相关法规。

对于这些问题，辛格尔的回应是——我们是搞搜索的人，我就是想建立一个强大的搜索引擎，实现自己的价值，仅此而已。辛格尔进一步说：“所有的信息都是经过授权的。”对于谷歌拥有的信息的意义，他举了自己最喜欢的例子以作说明——每年，辛格尔都要回到自己出生的那个印度小村庄，看看信息化如何影响了这里的人们，而辛格尔的父亲几乎每年都会到访加利福尼亚，“我的父亲是一位退休公务员，他以前每次来这都很担心，因为他带回家的礼品得经过海关的复杂检验。印度海关对于这一块的规定纠结且善变，要搞懂最新的规定十分非常让人头疼。”

“我仍记得在10年前，我教父亲使用谷歌搜索‘印度海关通关条例’，黑纸白字的搜索结果，全是最新版的。父亲会将其打印出来塞进胸前口袋，鼓囊囊的一坨。当父亲回家时他会打电话向我描述，自己在通关时是怎样拿出那张纸，向海关工作人员说明，自己给孩孙带的礼物都符合了的规定。海关工作人员之后对他说，‘欢迎回家，辛格尔先生！’”

正如辛格尔父亲的经历，便捷的搜索简化了我们的生活，辛格尔还在继续努力让这种便捷继续前进。如今知识图谱会显示出它认为你最需要的信息，但未来它可能可以模拟我们的思维过程。辛格尔如今醉心于对行为心理学的研究，他成为了心理学家丹尼尔·卡尼曼（Daniel Kahneman）的拥趸。“我喜欢他对于人类面对选择和决定时心态的细致研究。比如当有人拿出32条巧克力要你选择时，你为什么想逃；为什么当那人拿出只一只巧克力让你无从选择时，你会感到心满意足。”

辛格尔与谷歌从未停止自己对于搜索的探索。这样发展下去，信息与搜索的未来会是何种模样？对于这个问题，辛格尔爽朗地答道：“具体我还不确定……”让你毫不怀疑他、还有谷歌这家公司一贯所奉行的，很快就会知晓。

更正说明：文章发布之初，第三自然段中对于谷歌眼镜（Google Glass）的功能表述有误，而且没有准确传达作者对佩奇将计算机植入大脑这一预测的看法。经读者_Taget_指出后修改，特此说明。（2013-1-26）

编译自：《卫报》，Google and the future of search: Amit Singhal and the Knowledge Graph