华裔科学家李飞飞：她看见的世界和她改变的世界

type

status

date

slug

summary

“我听到的劝阻之声多得够我用一辈子”

每当我与同事们讨论ImageNet的想法，我就越发感到孤独。虽然有西尔维奥（注：李飞飞的丈夫）的鼓励，但这么庞大的工程刚刚起步，就遭到了几乎所有人的一致反对，真是不祥之兆。我需要一群志同道合的伙伴，但现在似乎一个队友都找不到。最糟糕的是，不管我是否同意，我都无法否认他们批评的合理性。

毫无疑问，在2006年，算法是计算机视觉的中心，而数据这个话题并不十分吸引人。数据生活在算法的阴影之下，仅仅被视为训练工具，就像成长中的孩子玩的玩具一样。

我听到的劝阻之声已经多得够我用一辈子了(可能下辈子也够了)，最后我终于遇到了第一位支持者。李凯教授是微处理器架构领域的领军人物。微处理器架构是一门将数百万纳米级晶体管排列到世界上最复杂的设备中的艺术，因此他比大多数人都更了解指数思维的力量。他相信我的方向是正确的。尽管我们都在计算机科学领域，但领域之间没有太多交集，所以他无法直接为我做出贡献，但他知道我们需要强大的计算能力才能启动。他毫不犹豫地为我们的研究捐赠了一套工作站。这正是我所需要的支持。

不巧的是，他即将休长假，这缩短了我作为他的年轻同事的时间。不过，他的离开也不完全是坏事。他有一个极聪明的一年级研究生叫邓嘉，他要给邓嘉找个新导师。据李凯介绍，邓嘉是一个完美的合作者，他年轻有为，工程天赋出众，对新的挑战充满渴望。

除了聪颖过人，我也注意到，邓嘉是计算机视觉领域的新人。他的背景与众不同，因此他不仅具备一般计算机视觉专业学生难以拥有的工程技能，同时还完全没有背负期望的包袱。这个项目不同于传统的研究项目，甚至可以说充满风险，与当时的领域潮流格格不入。对于这一切，邓嘉并不知情。

于是，我们两人组成团队，开启了这个似乎需要成千上万甚至更多贡献者的项目。大多数同事对我的假设都不屑一顾。单从理论上讲，这一切确实说不通，但这是我人生中第一次感受到一种毋庸置疑的自信。无论需要多长时间，我确信我们正在做一件大事，一件也许具有历史意义的大事。

我的新办公室位于普林斯顿大学的计算机科学大楼，虽然已经搬过来快四个月了，但地上依然堆满了半开的纸箱，墙壁上也空空如也。我靠在扶手椅背上，大声呼出一口气，转了转椅子。邓嘉坐在我对面的沙发上——这是我到目前为止为办公室添置的唯一家具。

于是我们确定了一个目标，为每个物品类别搜集1000张不同的照片:1000张不同的小提琴照片、1000张不同的德国牧羊犬照片、1000张不同的抱枕照片，直到涵盖全部2.2万个类别，也就是一共需要大约2000万张图片。但即便是这个数字，也只是最终成品数据库的情况。我们可能需要从数亿张照片，甚至10亿张照片中筛选，才能达到目标。

邓嘉面露疑色。“我从理论上能理解，但这个工作量也太大了，属于天文数字，可不是谷歌搜索几次就能完成的。”

他说的当然没错，但是我们需要拥抱现实，而不是逃避现实。我们的目标是捕捉完整的现实世界。如果这个总数不能吓到我们，那才奇怪呢。

“邓嘉，我们希望算法能够看到的一切事物都存在于这个世界的某个地方。在我们说话的这一刻，就有人在拍摄这所有的细节。现在人人都有翻盖手机，每个人的圣诞节礼物都是数码相机。想象一下，如果把所有这些照片都放在一起，我们会看到什么，我们会看到整个世界的缩影啊!那就是从世界一头到另一头的日常生活的全部。”

“就算我们想办法组织好了图片，”他补充说，“这些图像本身也没有任何作用，对吧?它们需要先标注，才能用于模型训练，而且每一个标签都必须是准确的。”邓嘉暂停了一下，好像才感受到自己说的话有多么重要，“听上去又是一个浩大的工程。”

“是啊，是啊。”我回答说，“让我们一次只创造一个奇迹吧。”

完工时间大概是19年，我不能等那么久才拿到博士学位

我和邓嘉在实验室一角，看着一排本科生不断地点击鼠标、敲击键盘。本周早些时候，我们发出了邮件，招募愿意帮忙从网上下载和标注图片的本科生，工作时间灵活，每小时10美元。我们很快就收到了一些回复。这看起来很公平:我们朝着机器智能的新时代迈进了一步，而大学生也能赚到一些啤酒钱。一时间，我们感到心满意足，但没过多久，现实就给我上了一课。

“邓嘉，是我的错觉吗，还是进展确实有点儿太慢了?”“对，我也很担心。我对他们的速度做了几分钟计时，计算了一下。”

不妙。

“按照目前的速度，预计ImageNet的完工时间是……”

我用力咽了一下口水。他注意到了。

“没错，差不多要19年吧。飞飞，我很看好这个项目，真的，只是我不能等那么久才拿到博士学位。”

“那我们该怎么办呢?”他问，“再多找些本科生?”

“这当然是一种选择，但是得花不少钱。如果真要19年的话，我觉得我们实验室的预算也是不够用的。”

不管怎样，显然我们需要更多的大学生。当年做Caltech101的时候，招募的大学生勉强够用，而那次的工作量不过是ImageNet的零头。看来，我们必须采取新的策略了。

做ImageNet已有一年时间，我感觉我们已经步入正轨。有了标注团队的工作，还有邓嘉在不断努力优化标注流程，我确信我们已经有所突破。我很好奇进展如何，而邓嘉知道我的想法(他经常能知道我在想什么)。

“你在想我们多久能完成ImageNet?我已经重新预估时间了。”我正准备问他这个问题。于是我兴奋地跑到他的办公桌前。

“好的，如果我们把所有因素都考虑在内:我们所有的优化和快捷方式，再加上已经标注的图片，我们已经设法将19年的预计时间缩短到……”

我突然失去了勇气，因为我预感结果会很糟糕。“……大约18年。”

邓嘉虽然才华横溢，但巧妙地传达坏消息、减轻它对人的打击并不是他的技能之一。这么久以来，我第一次不知道接下来该怎么办了。

“飞飞，你现在有自己的实验室了，最近在忙什么呢?”这是我最害怕听到的问题，但这个问题来自吉滕德拉——彼得罗的导师，也是我的“师爷”，他是我此行最想遇到的人。我们已经好几年没有面对面交流了，我知道他会出席计算机视觉与模式识别大会这样的活动。ImageNet项目停滞不前，我的学术生涯前途渺茫，我需要见见熟人。他也不是第一次在这种场合鼓舞我的斗志了。

“说实话，吉滕德拉，这个话题有点儿让人郁闷。”“哎呀。”

我把一切都如实告诉了他:我和克里斯蒂安的谈话，第一次见到WordNet时的情景，我和邓嘉所做的决定——每个决定都比上一个更艰难，以及这一年来我们为实现一个不可能实现的目标所经历的苦苦挣扎。

“还真曲折呀。”他回答道，语气一反常态地平淡。如果他对我目前介绍的进展情况有什么意见的话，他会选择闭口不谈。

“是的。最糟糕的是，这一切归根结底是个后勤问题，而不是科学问题。我始终确信，ImageNet正是计算机视觉所需要的，要是我们能把这玩意儿搞出来就好了。”

“飞飞……”他开始小心翼翼地组织语言，“当然，没有人会不认同数据起着一定的作用，但是……”他停顿了片刻，然后继续说道，“坦率地说，我觉得你们在这个想法上投入得过多了。”

我浅浅地吸了一口气。“科学的诀窍是跟随着你的领域一起成长。不要太超前。”

这真是出乎我的意料。吉滕德拉竟然站在反对者的一边，让我深受打击。这种打击不仅仅是在个人层面:等到我将来需要请人写终身教职推荐信的时候，我原本计划请他做我的推荐人之一(虽然在这样巨大失败的阴影笼罩下，能获得终身教职的可能性已经变得非常渺茫)。出于多方面的原因，他的观点很重要。

我几乎可以看到我的北极星在逐渐暗淡下来，我的道路又陷入了黑暗之中。一个可怕的想法开始在我心头升起:我承担的风险比我意识到的更大，而现在回头已经为时太晚。

在计算机视觉与模式识别大会之后的几个月里，我都不知道应该如何处理ImageNet。要担心的事情有很多，但我总会想起邓嘉。他进入计算机视觉领域时才气过人却又稚气未脱，他信任我，让我担任他的导师。现在，我能感觉到他的挫败感越来越强，我知道他在担心自己的博士之路，我完全能理解他。我还记得自己在研究生时期的种种挣扎，一想到现在要把自己的学生引入歧途了，我的胃里就阵阵难受。

当然，科学研究上的挫败也同样令人痛苦。在经历了如此漫长的旅程之后，我无法接受我的直觉居然导致了错误的道路。我们突然失去了方向，仿佛头顶上是一片空荡荡的天空，在黑色波浪中漂泊。

没有哪个个体的智慧能有意外之力的一半强大

然而，一切都还没有结束。

“打扰一下，飞飞。”我正在赶去教职工会议的路上，马上就要迟到了，一个叫孙民的研究生突然出现在我面前。他能看出我在赶时间，但他看上去非常想要跟我聊聊，说话的时候甚至显得有些不安。

“请问你现在有空吗?”他没等我回答。我对他比较了解，知道他说话时一般都是轻声细语的。看他今天的表现，显然是有大事压在心头。“昨天我跟邓嘉在一起，”他继续说，“他跟我说了你们在项目标注问题上遇到的麻烦。我有一个你俩还没试过的办法，真的可以帮你们提高速度。”

我立刻忘记了自己还在赶时间，耳朵竖了起来。邓嘉还有社交生活?

孙民问道:“你听说过众包吗?”

他解释说，在线平台可以将任务分配和结果收集过程自动化，有效组织远程的临时工作团队，规模小到个人，大到数百万人的团队。

“如果你感兴趣的话，亚马逊就在提供这种服务，叫作’土耳其机器人’。”

“请求者”可以发布“人类智能任务”，由贡献者完成，这些贡献者被称为“土耳其人”(Turker)，他们可能来自世界上的任何地方。从理论上讲，这个模式很合理，似乎可以提供我们想要的一切:既有人工标注图片带来的智慧成分，又有与自动化相当的速度与规模。有趣的是，亚马逊称之为“人工人工智能”，这个名字相当贴切。

我急匆匆地穿过走廊找到了邓嘉，但他并没有像我这般兴奋。在经历了种种挫折之后，他有充分的理由对再次碰运气保持警惕。但在经历了这一切之后，他可以看到，这真的可能是我们一直在等待的救命稻草。他看起来既犹豫又宽慰。最终他同意了:亚马逊土耳其机器人值得我们再试一次。

ImageNet之所以能够存在，要归功于互联网、数码相机和搜索引擎等众多技术的融合。现在，一个一年前还几乎不存在的平台提供的众包服务，成为让我们的项目臻于圆满的关键因素。这件事就是最好的例证，它让我深刻了解到，任何一个科学家的默认立场都应该是绝对谦卑，他们应该明白，没有哪个个体的智慧能有意外之力的一半强大。

亚马逊土耳其机器人改变了一切。它把我们起初的大学生标注员队伍变成了一个由数十人、数百人、数千人组成的国际团队。随着我们获得的支持不断扩大，邓嘉给出的预计完成时间急剧缩短，先是15年，然后是10年、5年、2年，最后不到1年。这为我们提供了全新的视角来看待预算，彻底颠覆了ImageNet的成本效益。曾几何时，我们的预算只能招到几个标注员，连一个房间都站不满，而现在足以聘请一支遍布全球并通过互联网连接的众包团队。

就这样，每天都有成千上万张新图像被标注出来。在ImageNet发展的高峰期，我们是土耳其机器人平台上最大的雇主之一，这一点从我们每月的服务账单上也能看出。成本的确很高，但效果也很显著。

然而，我们的预算困境还没有结束。虽然土耳其机器人价格合理，但ImageNet规模实在太大，所以我们很快发现自己再一次接近预算极限。

在两年多的时间里，我们的财务状况一直岌岌可危，那是一段痛苦的日子，哪怕是路途中的一个小颠簸，都有可能让我们人仰马翻、一蹶不振，但ImageNet日臻完善，终于成为我和邓嘉一直憧憬的研究工具。我们实验室自然是第一个将其投入使用的。即使是在未完成的状态下，它的影响力也让我们备受鼓舞。完工在即，我们不再需要依靠想象力;大家第一次清楚地意识到，我们正在创造一个值得与全世界分享的东西。

在2009年，我决定再次前往西部，邓嘉和我的大多数学生也跟随我转学。斯坦福大学成了我们新的学术家园。

2009年6月，ImageNet的初始版本终于完成了，这在很大程度上得益于斯坦福大学提供的新研究资金。尽管我们一路上遇到了许多挑战，但我们最终成功达成了目标:收集了1500万张图片，涵盖了2.2万个不同类别。这些图片筛选自近10亿张候选图片，并由来自167个国家的4.8万多名全球贡献者进行了标注。

ImageNet不仅在规模和多样性上达到了我们多年来梦寐以求的水平，还保持了一致的精确度:每张图片都经过了手工标注，并在层次结构中进行了组织，经过了三重验证。

从数量上看，我们已经实现了既定目标，建立起了当时人工智能史上最大的人工编辑数据集。但在这些数字之外，最让我感动的成就是我们所构建的真实世界本体。这个本体是人类从零开始策划的，既包含视觉图像，又能传达逻辑概念，其唯一的目的就是教导机器。

我们实验室所做的每一件事都充满了活力。有一次，我们利用ImageNet快速训练了数百个图像分类算法的实例，让它们识别一组日常事物，然后将所有实例应用在一张照片上。实验目的并不是简单地检测单个物体的存在，而是通过寻找物体组合来诠释整个场景。例如，如果检测算法发现了一个人、一艘船、一只桨和一片水域，它就会将照片作为一个整体归类为“划船”。这是一种更深层次的理解，可以说接近于原始的视觉推理。

就像我们那个时代的许多实验一样，我们使用的算法准确性很不稳定，还有很大的改善空间。毕竟，就连简单的图像识别也仍处于起步阶段。但困难只会进一步激发我们的冒险精神。我们的研究大胆且具有前瞻性，虽然并不完备，但能引发思考，其中很多在概念上也很简单。但直到ImageNet出现，一切才变得切实可行起来。

与此同时，邓嘉也开始在学术领域崭露头角。在ImageNet发布后一年左右，他发表了题为《对超过10000个图像进行分类能告诉我们什么》的论文，总结了ImageNet出现后图像识别领域发生的根本性变化。尽管论文技术性很强，但其中所蕴含的哲学思想使它有别于一般的学术论文。这篇论文宛如一个预言，甚至触及了存在的本质。邓嘉认为，ImageNet不仅代表了规模的扩大，还代表了分类逻辑的转变，类似于物理学领域的“相变”，在这种转变中，甚至现象的最基本属性也会发生变化。ImageNet极大地拓宽了算法面临的可能性，但因为规模太大，也给算法造成了挑战(相比而言，小型数据集就不会有这个问题)。

“你知道我最喜欢Caltech101哪一点吗?”亚历克斯的话把我拉回了现实，“除了里面的训练数据，它还让我有机会用完全相同的图像，把我的研究结果和你的进行比较，做同类对比。”

“相当于一个基准。”我回答道。

“没错，这样就很容易衡量进展。还有什么比这更能激励研究人员呢?就像是发起了一个挑战，就像打赌一样。”

就像打赌一样，我喜欢这个说法。

“那么……如果我们用ImageNet做同样的事呢?”我问道，边思考边说，“或者，干脆我们就用ImageNet搞一个完整的竞赛怎么样?”

“你是说像PASCAL那样的吗?”PASCAL视觉对象类别数据集(通常称为PASCALVOC)是一个欧洲研究团队汇编的数据集，包含大约1万张图片，分为20个类别。PASCALVOC与Caltech101类似，但有一个重要区别:PASCALVOC是年度计算机视觉大赛的基础数据集。该大赛始于2005年，每年都有来自世界各地的参赛者提交经过PASCALVOC训练的算法，然后用这些算法去识别一组以前没有见过的新图片，最后根据分类的准确度对算法进行排名，错误率最低的即为获胜算法。比赛既具有协作性，又具有竞争性，吸引了各方对计算机视觉领域最新进展的关注。而参赛者所使用的数据集仅有ImageNet的千分之一大小。

“那就有意思了。”亚历克斯回答道，“我都可以想象研究人员在互相交流新想法的时候问:‘它在ImageNet上的表现怎么样?’”

这样一来，ImageNet也成了计算机视觉领域的北极星了，我想。

如果邓嘉论文的核心思想是正确的，如果ImageNet真的会引起一场大洗牌，带来新的规则、新的直觉，甚至全新的范式，那么还有什么比通过比赛来探索这个数据集更好的方式呢?激烈的竞争压力可以激发合作的集体力量。比赛要遵循一定的规则，但又要有探索性。即使经过多年的努力创建了ImageNet，仅仅是想像着把它做成比赛，也为它注入了新的生机。

这也意味着将ImageNet推向世界的工作尚未结束。

黎明前的黑暗

一回到美国，我就开始了比赛的筹备工作。比赛的正式名称为“ImageNet大型视觉识别挑战赛”(ImageNet Large Scale Visual Recognition Challenge，ILSVRC)，对所有人开放，获胜者会即刻获得认可。首届比赛将于2010年举行，5月开放报名，9月统计结果，同年晚些时候，会在克里特岛举行的欧洲计算机视觉大会(European Conference on Computer Vision，ECCV)研讨会上公布获胜者。

然而，现实却与我们的期望背道而驰。

获胜算法来自一个由NEC实验室、罗格斯大学和伊利诺伊大学的研究人员组成的联合团队。这个参赛算法的表现确实可圈可点，我们对每位参赛者的努力表示赞赏。不过，与计算机视觉领域其他方面的前沿工作相比，这些算法只能算略有改进，很难说开启了新的时代。

在ImageNet的发展历程中，有很多令人泄气的时刻，这次就是其中之一。如果说2010年的比赛虎头蛇尾的话，那么2011年的比赛则给人一种末日之感。2011年的获胜算法来自法国施乐研究中心，也是一种支持向量机算法，识别表现虽然比前一年有所提高，但也只是将准确率提高了2个百分点左右。

我开始意识到自己可能误判了。正如我猜测的那样，大多数算法都难以应对ImageNet，但支持向量机比我想象的要强大，它为参赛者提供了安全的避风港，阻碍了我梦寐以求的激进创新。连续两年，司空见惯的算法都只是在能力上略有提升，几乎没有任何真正的进步。最糟糕的是，参赛人数也出现急剧下降:第二年的报名人数从150人减少到96人，参赛算法也从35个减少到15个。愿意为此付出努力的人似乎越来越少，也许这并不奇怪。

说这种经历“让人羞愧”已经远远不足以描述我们的心情了。为了推动ImageNet的发展，我们倾注了多年的心血，搜集的图片数量远远超过以往的任何数据集，还精心策划了一场国际竞赛来探索它的能力，但结果却只是简单地重复了现状。如果说ImageNet是一场赌注，是时候开始思考我们是不是已经输了。

2012年8月，让我夜不能寐的事情终于不再是ImageNet了——我们的孩子出生了，我的生活主题变成了哺乳、换尿布和永远不够的断断续续的睡眠。

这一年，ImageNet挑战赛的结果将在意大利佛罗伦萨宣布，因为孩子的原因，我本不打算亲自去参加，但有一天，邓嘉深夜打来电话。这个时间点很不寻常，我的第一反应是出了什么事。

“喂?”听得出他很激动，但感觉不像是痛苦，而更像是兴奋，准确地说，

是迷茫而兴奋。因为邓嘉一向淡定，所以他的语气让我格外留意。“是这样的……我们一直在评估今年的参赛作品，其中的一个算法是……我的意思是……”

他迟疑了一下。

正名时刻

“怎么了?是什么?”我问道。“好吧。获胜的团队使用了非正统的算法，是一种神经网络算法。

你敢相信吗?”我的耳朵竖得更直了。如果说刚才我的注意力还没有完全集中在他的身上，那么现在我肯定百分之百地在听他说话了。“感觉像是……老古董。”

“真的吗?是神经网络算法?”“是的，但还不止这些。飞飞，你不会相信算法的表现有多好。”

我一直在思考这次的获胜算法。它的识别准确率高达85%，比上一年的冠军高出10个百分点，创造了计算机视觉领域的世界纪录。可以用一个数据来说明这个准确率的意义:我所看到的研究表明，人类的平均识别准确率约为97%，而这还是对简单得多的二元选择而言(比如判断一张照片上是否有动物)。相比之下，算法需要筛选上千个选项才能找到正确答案。因此，虽然这个算法还没有达到人类的水平，但已经比其他任何算法都更加接近，而且差距已经小到惊人。

冠军算法名为AlexNet，是向这项技术和项目的主要作者、多伦多大学研究员亚历克斯·克里热夫斯基(Alex Krizhevsky)致敬。

AlexNet是卷积神经网络(Convolutional Neural Network，CNN)的一个实例。卷积神经网络的叫法源于图形卷积过程。在这个过程中，一系列滤波器在图像上扫过，寻找与网络所识别事物相对应的特征。这是一种独特的有机设计，灵感来自休伯尔和威塞尔对哺乳动物视觉系统的观察，即视觉处理在多个层次上进行。就像在自然界中一样，卷积神经网络的每一层都会逐渐整合更多的细节信息，从而形成越来越高层次的感知，最终将真实世界的物体完整地呈现在我们的视野中。

（视觉的多个层次上进行）

当然，这些并不是什么新的创意。自从贝尔实验室成功将卷积神经网络应用于手写邮编，杨立昆多年来一直对卷积神经网络保持着惊人的忠诚。在AlexNet诞生时，他已经花了20年时间坚持不懈地完善算法、发表研究成果，但一直没有必要的资源来充分实现这些成果。现在，几乎在一夜之间，这种常被视为误入歧途的执着似乎变得极具先见之明。杨立昆把自己的卷积神经网络算法巧妙地命名为LeNet(呼应他的英文名Yann Le Cun)，其指导理念在AlexNet中熠熠生辉，宛如重生般焕发生机。

这种联系让AlexNet背后的三人团队备受瞩目。他们都是多伦多大学的研究人员，负责人是与项目同名的亚历克斯·克里热夫斯基，以及他的合作伙伴伊利亚·苏茨克维(Ilya Sutskever)。这两个聪明的年轻人资历尚浅，仍在建立自己的声誉。然而，第三个名字立刻引起了我的注意:杰弗里·辛顿。

就是这位辛顿，在20世纪80年代中期开发了反向传播技术，成为早期机器学习的先驱。反向传播的突破性方法首次实现了对大型神经网络的可靠训练。就是这位辛顿，曾经指导过彼时还是他实验室学生的杨立昆。和他的学生一样，辛顿拒绝放弃对神经网络的研究，即使这让他在同事中显得形单影只。看来，AlexNet绝不仅仅是一个参赛算法。这是一个历经四分之一个世纪的正名时刻。

事实上，在ImageNet的帮助下，AlexNet焕发生机，它贪婪地吸收着ImageNet的内容，在ImageNet规模和多样性的土壤中生根发芽，茁壮成长。一直以来，神经网络并不需要更花哨的数学公式和更奇特的抽象概念。我们期待神经网络能够理解世界，而它们只是在等待我们提供更加清晰的图景，等待一些真正有学习价值的东西。大数据训练了LeNet去理解复杂的人类笔迹，现在它也在训练AlexNet去理解万物。

后来我才知道，在2012年之前的几年里，辛顿重拾激情，想要证明神经网络的可行性。2011年，他认为自己比以往任何时候都更接近转折点，于是开始以一种既对抗又合作的方式与同事沟通，他的表达方式听起来更像是提出挑战，而不是提出问题。他跟同行探讨下一步行动计划，其中一个同行就是吉滕德拉。虽然他们两人早有交情，但吉滕德拉一直对辛顿的项目持怀疑态度。

“我要怎么做，才能让你相信神经网络是未来的趋势?”辛顿问道。

“你真的想打动我吗，杰弗里?那就让我看看它们能不能处理一些真正的任务。”

“比如?”

“比如物体识别，真实世界中的物体识别。”无论吉滕德拉对ImageNet有什么看法，他的确相信视觉分类的力量，这一点我在加州理工学院时就了解到了，“你参加过PASCALVOC吗?”

“参加了啊。但没什么用，他们的数据集太小了，例子不够，所以我们给神经网络展示新图片的时候，泛化效果并不好。”

“那你就需要更大的数据集。你关注过飞飞的实验室吗?等你准备好迎接真正挑战的时候，可以看看她组织的比赛。”

不管吉滕德拉是真的对我的项目改变了看法，还是只是想打老朋友的脸(这两种情况似乎都有可能)，辛顿都认真地听取了建议。

ImageNet的数据广泛而全面，覆盖了世界上绝大多数物体。现在看来，AlexNet和ImageNet也属于相互成就。简而言之，这就是最大的不同——现在算法可以探索的数据范围大大增加了。一想到训练完成后AlexNet的层级中包含的内容，我就惊叹不已:形状、边缘、图案、纹理，涵盖我们多年来从互联网上捕捉到的所有人物、动物和物体。现实世界中幽灵般的碎片，以恰到好处的方式组织起来，供算法来查看。

历史刚被创造出来，而世界上只有少数人知道

第二天一早，消息就传开了。据传，会上将宣布一个具有历史意义的事件。这些含糊不清的传言激起了与会者的好奇心。当我到达时，研讨会现场已经人满为患，杨立昆本人不得不靠后墙站着，因为他稍微晚了几分钟，没能找到座位。

从研讨会开始的那一刻起，现场的气氛就异常紧张，人群分成了三派。第一派是ImageNet的少数支持者，包括我、亚历克斯·伯格和辛顿实验室的成员。第二派占绝大多数，由中立但感兴趣的观察者组成。第三派虽然人数不多，但态度强硬，也最直言不讳。他们是那些从早期就反对ImageNet理念的批评者，虽然我通常不理会他们的态度，但在会议现场很难忽视他们的存在。

更糟糕的是，我们并没有形成统一战线。辛顿无法亲自参会，因为他长期患有背部疾病，几乎不可能进行国际旅行，所以他派了亚历克斯·克里热夫斯基代他出席。亚历克斯非常有才华，也是算法的主要作者，所以可以代替辛顿。但就像许多杰出的人一样，他的个人表现与他工作成果的高度并不相符——我不确定他是否完全理解这一点。他的表现笨拙而轻率(这在学术界并不罕见)。一个典型的例子是，我在研讨会开始前多次给他发短信确认会面时间，但他完全没有回应(但幸好，他按时到了现场)。由于听众的怀疑态度空前高涨，他只摆事实、不带情感的演讲更难赢得他们的认同。

提问环节一开始，现场的紧张气氛就越来越浓。我们听到了所有常见的抱怨:ImageNet太大了，不实用;没有必要包含这么多类别;物体识别模型还太原始，不需要如此庞大的数据集;等等。事实上，AlexNet几乎是逐点证明了相反的观点，但奇怪的是，观众却不信服。同时，也出现了一些新的批评声音，有些甚至非常离谱。一位与会者(来自顶尖大学的后起之秀)煞有介事地提出，描绘T恤的图片类别多样性不够，因而无法可靠地训练模型。对此我更多的是感到好笑。是认真的吗?T恤图片是致命弱点?会议现场的其他人也都一头雾水。

但那些认真倾听的人得到了回报。在27张幻灯片中，大多数只有黑白文字和图表，却以我们从未见过的清晰方式展示了神经网络的本质，极具启示性。继罗森布拉特的感知机、福岛的新认知机和杨立昆的LeNet之后，AlexNet实现了计算机视觉领域的新跨越。这一步早就应该迈出，却历经了数十年的酝酿，现在终于横空出世，利用大型数据集充分彰显了潜力。

尤其值得注意的是AlexNet的学习过程。

与所有神经网络一样，AlexNet的初始状态是无形的、惰性的，就像虚空中的一块挂毯。然后，学习过程就开始了:面对从ImageNet库中随机选择的图片，神经网络的任务是从上千个标签中选择一个正确的标签，对图片进行标注。这个过程周而复始，不断重复。一开始，标注几乎是不可能完成的任务;AlexNet的数千万个神经元是随机配置的，对世界甚至连一点儿模糊的理解都没有，只会产生错误的结果。把一张蘑菇图片标注为“瓶盖”。错误。把一张拖车图片标注为“电吉他”。错误。把一张棱皮龟图片标注为“浴巾”。错误。但失败并非无用功。错误会触发纠正信号，在网络的数千万个组成部分中蔓延开来，同时对每个部分对于结果的贡献进行评估，并按比例推动它们下次采取不同的行动。这是最简单的学习方式:减少失败的行为，增加成功的行为。但学习的规模极大，算法会仔细审查每个错误的每个细节:每一片光影、每一个图案和纹理、每一个柔和的渐变和坚硬的边缘。

在早期阶段，效果并不明显，当AlexNet再次看到类似它之前错误分类的图片时，很可能会再次出错。不过，错误会更小一些。如此循环往复，直到正确为止，哪怕只是靠运气。这一次，信号的目的是强化，而不是削弱:强化任何看似指向正确方向的东西。训练继续进行。错误。错误。错误。正确。错误。错误。正确。正确。错误。

ImageNet规模巨大，算法学习也注定是个漫长的过程，即使只是为比赛挑选的1000个类别的子集，完成学习也需要很长时间。ImageNet涵盖了各种各样的对象，比如数字钟、篱笆、盘式制动器、秒表、意大利灰狗、微波炉、醋栗，每个类别都有上千个不同的品种。不过，AlexNet本身也是个庞大的网络。它有65万个独立神经元，通过6.3亿个连接组成网络，其中有6000万个微小的、几乎无法察觉的权重影响着连接的强度，当信号从网络的一端流向另一端时，一些连接会增强，另一些则会减弱。

作为整体，这些连接提供了一张巨大的画布，足以描绘整个世界。在一轮又一轮的标注中，权重不断变化，有的变强，有的变弱，有的摇摆不定，形成了一种柔韧结构，对训练做出有机的优雅反应。承载这些庞大数据的是两个英伟达图形处理器，高度专业化的硅芯片并行工作，以最快速度进行着一轮又一轮运算。

训练从早到晚不停地进行，直到每幅图像的每个像素都被研究完毕。几个小时变成几天，几天又变成一周。图形处理器推动之。ImageNet挑战之。AlexNet适应之。随着数以千万计的权重一次又一次地调整，整个网络出现了更庞大、更奢侈的结构。就像铁匠用锤子敲打发光的钢铁。每次微小的增量积累，直到近乎肉眼不可见的扰动变成山脉和山谷，延伸到数千维的超空间。这个网络是世界无数细节的幽灵般的均值，是1000种不同事物、每种事物1000幅不同照片留下的痕迹。这里有1000只达尔马提亚犬，那里有1000个洗衣篮，另一处有1000个马林巴琴。

就像地质变化一样，种种印记凝聚成了地形，从AlexNet的一端延伸到另一端。削笔刀、清真寺、海星、曲棍球——所有事物都镶嵌在这个地形之中。算法不仅“看到”了这些东西，还成为它们。我们花了数年时间在互联网上搜寻照片，这些照片形成了完整多元的机器意识空间，原始而强大，成为世界一切事物的统一表征。

在经过140万轮标注后，最后几张图片与其说是一场磨炼，不如说是一场加冕礼。网络的焦点穿过像素，随着熟悉模式的识别而亮起，并传递到下一层，与其他模式相结合，形成越来越强大的感知。算法的反应不再是随机的，大多数也不再是错误的。土狼。正确。台灯。正确。敞篷车。正确。显然，这是硬件、软件和数据的神奇组合，比计算机视觉领域所打造的任何成果都更接近于捕捉到塑造了人类这种哺乳动物思维的进化精神。

ImageNet的多样性是在全世界众包志愿者的共同努力下实现的。它所形成的拓扑结构无比多样、强大，达到了圣杯的境地。AlexNet是计算机视觉领域有史以来最大的神经网络，它的训练数据比此前任何神经网络都要丰富，而且具备了泛化能力。

我们要花上几个月的时间，才能真正理解在那个会议室里看到的一切，但即使在那一刻，我们也清楚地知道我们正在见证非凡之物。这么多年来，我一直希望ImageNet能够推动新事物的诞生，现在我终于明白，一切的一切，都是为了认可和表彰一种永恒的成就，我们对此刻期待已久。受生物学启发的算法几十年来一直凝视着我们，它只是需要适当的挑战，才能充分展现出来。

这个下午也让我们有机会回顾计算机视觉领域在过去10年的发展历程。我的实验室将所有赌注都押在了长达数年的、规模空前的数据追寻上，而辛顿的实验室则将他们的声誉都押在了卷积神经网络这套几乎已经被专业领域抛弃的算法上。我们都在赌，都有可能赌错。但在那一天，当我们看到神经网络在ImageNet强大训练能力的支持下展现出的惊人能力时，我意识到，虽然两个项目都获得了认可，但这只是因为它们是同步发展的。所有参与者都不知道，我们的每一步都相互依赖。我往返佛罗伦萨的飞行时间比在佛罗伦萨当地待的时间还长。但在返程的航班上，我的感受与来时完全不同。飞机上的拥挤程度丝毫未减，我的疲惫感更加浓重，但思绪已经不再飞速奔涌——至少不像来时那样。我亲眼见证了成果。没有错误，没有疏忽，也没有文书方面的失误。神经网络起死回生，比以往任何时候都更庞大、更复杂、更强大。ImageNet已经教会了它们所需知道的一切，让它们在一次尝试中就达到了与人类能力相当的水平。

生物视觉的出现导致远古海洋波涛下的寒武纪大爆发，距今已经5亿年。而如今，我们很难不去联想:我们是不是正处于一个类似拐点的边缘?机器视觉的兴起是否会引发一轮数字进化新浪潮呢?

我在来时飞机上狂躁的思绪和焦灼的问题一扫而空，取而代之的是一种意外的感觉。不是平静，而是大悟，是沉思。这一次，从起飞到着陆，我一直静静地坐着，脑子里只回荡着一个念头:历史刚被创造出来，而世界上只有少数人知道。