真正实现与人更类似的智能!Jeff Hawkins:创造机器智能的路线图

来自通约智库
跳转至: 导航搜索

首页>条目>人工智能

2021智源大会 学术头条 2021-6-8

导读:Jeff Hawkins 是美国著名计算机科学家与神经科学家,美国工程院院士,目前任职于美国加州Numenta 公司。2004年,他曾出版科普著作《On Intelligence》,把人工智能这个陌生概念播撒到无数人心中。

在本届智源大会上,他发表了题为「The Thousand Brains Theory - A roadmap for creating machine intelligence」的演讲。作为公司的联合创始人,Jeff 为 Numenta 公司设定了双重使命:理解大脑工作的机制、根据大脑工作的机制创造机器智能。在 Jeff Hawkins 看来,想要最迅速地创造真正的智能机器,首先需要理解人类大脑是如何工作的。

作者:熊宇轩

编辑:梦佳

01、大脑皮层如何学习世界模型

大约 5 年前,Jeff 在理解大脑的工作机制方面取得了重大突破。他将大量的研究成果汇集到了「千脑理论」一书中。特别值得一提的是,2022 年年初,由智源研究院承担翻译工作的「千脑理论」中文版将由湛庐文化出版社出版,敬请期待!

人脑可以分为两个部分。其中,占人脑 70% 的大脑皮层是一大片神经组织,其厚度大约为 2.5 毫米,表面积大约为 1,500 平方厘米,它将大脑的其余部分包裹起来。人脑其余的部分由一些不可见的有专门用途的小型区域组成,它们可以控制人类的基本功能,例如:呼吸、消化、应激、跑步、走路、咀嚼,甚至情感。

相较之下,大脑皮层是真正产生智能的器官。人类的意识、视觉、听觉、触觉等感觉都产生于大脑皮层。认知、思维、计划等人类拥有的活动都是大脑皮层的产物。近年来,研究人员对大脑工作机制的了解有了较大的突破,并受此启发制造智能机器。

首先,人们很容易将大脑的工作机制与计算机进行类比,即得到输入数据,对输入信息进行一系列处理,然后再输出信息。然而,Jeff 认为这并不是大脑真正的工作方式。在他看来,大脑皮层是一种建模器官,它会学习关于世界的模型。我们所知晓的一切关于物体的形状、触觉、颜色、温度、声音,以及我们与物体的交互都会被存储在该模型中。该模型还会囊括物体的位置信息,知晓我们与物体交互后物体会产生的变化。成千上万的物体、单词、概念会被存储于位于我们大脑的神经元的模型中。

这种模型使我们可以知晓自己所处的方位,能够识别物体和交互动作。更重要的是,它使我们可以预测动作将导致的结果。为了实现某些目标,我们可以在行动前根据该模型在脑海中做出对行为的规划。

我们可以根据房屋架构的物理模型,从各种不同的方向观察房屋,还可以想象我们对其进行改造后的外观。此外,我们还可以做出一系列规划,例如:如何从车道上走到游泳池。

我们经常在计算机中构建如图 5 所示的房屋模型,从而从不同视角观测房屋。我们往往会为该模型施加一个笛卡尔坐标系作为参考,而房屋中的一切物体都具有其相对于参考系的方位。如果我们想要定位一个门,只需要再构造一个绿色的参考系,然后定位该参考系相对于房屋参考系的位置。五年前,我们发现大脑对世界建模的机制与上述情况类似,它也会使用某种类似的参考系存储知识。

此外,想要实现智能,我们不仅需要学习出这种有关世界的模型,还需要不断更新它,该模型并非一成不变。每当有情况发生变化时,该模型就会发生改变。

那么,大脑皮层会如何学习世界模型?

大脑皮层可以被划分为若干功能区域。例如,在大脑后侧有视觉中枢,侧面有听觉中枢,顶部有感觉中枢,此外,还有专门负责语言的脑区。所有脑区支配的行为之间存在异同,它们之间也会进行整合。

实际上,从外部来看,这些区域的外观是相同的。但是,如果我们通过显微镜观察脑区的内部结构,又会有何发现呢?

令人惊讶的是,在显微镜下,大脑皮层每一处的结构都是相似的。1899 年,Cajal 首次获得了 2.5 毫米厚的大脑皮层的照片。如图 7 所示,大脑皮层组织里包含许多不同种类的细胞,这些细胞的形状、大小、密度各异。这些细胞分层排列,细胞之间存在连接,而层与层之间也存在着连接。因此,在这个 2.5 毫米厚的组织中,信息会在层与层之间传递。尽管有些层可以远距离传递信息,但大多数层仍然是垂直传递信息。

不仅人类大脑皮层不同区域的结构相似,猫、狗、猴子等其它动物的大脑皮层也是如此。它们有相同种类的神经元,通过相同的层次化方式组织起来。每个区域都会接受某种输入,其中有的区域会直接从感受器接受输入。同时,每个区域都会产生运动输出。在大脑皮层的每个区域,都存在「感觉运动整合」,这是一种普遍存在的结构。

那么,为什么具有相同结构的大脑皮层区域会产生不同的行为呢?

1975 年,约翰霍普金斯大学的教授 Vernon Mountcastle 指出,大脑皮层之所以处处看起来是相同的,是因为它们执行着同样的基本功能。而不同的脑区负责怎样的功能取决于它们与什么相连接(例如,负责视觉的枕叶皮层与眼球相连接)。此外,他还指出,大脑皮层由重复的单元组成,这种单元被称为「皮质柱」。我们的大脑皮层会复制大量的皮质柱,从而变得越来越大,这些皮质柱一个挨一个地堆叠起来。

在显微镜下,我们无法看见皮质柱,但它们确实存在。如图 8 左下角所示,我们用六个圆代表六个相连的皮肤块,它们一个接一个排列开来。这些皮肤块分别与大脑皮层中的皮质柱相连。我们可以通过探针找到对某个皮肤块有响应的所有皮质柱细胞。我们发现,不同的皮质柱会对不同的皮肤块产生响应,这并不是一种连续的表征。这种组织方式贯穿于整个大脑皮层。

在神经科学研究社区中,关于是否「所有皮质柱的功能都相同」这一问题存在一定争论。Jeff 等人发现,皮质柱之间 90% 的部分是相同的。那么,这些皮质柱共同的功能是什么呢?

02、千脑理论:大脑对每个物体构建数千模型

首先,每个皮质柱都会学习关于世界的完整模型,它们会通过整合感觉输入以及时间流中的各种运动来学习模型。如图 9 所示,当我们手指上的皮肤块触碰到咖啡杯时,它会接收到感觉输入,并将其传递给大脑皮层中特定的皮质柱。除此之外,大脑皮层还知道手指的运动信息,即能够跟踪手指在咖啡杯的参考系中的运动轨迹。

因此,皮质柱中存在表征物体参考系的细胞,他们负责不断更新手指在该坐标系中的位置信息,并将其作为另一种感觉输入。通过移动手指,我们将构建出一个有关咖啡杯的模型(是什么?在哪里?),该模型会逐渐稳定下来。

我们之所以将该理论称为「千脑理论」,是因为大脑会对每个物体构建数以千计的模型,每个皮质柱都会构建关于许多物体的模型。关于物体的知识存储于数以千计的皮质柱中。

如图 10 所示,假设我们使用三个手指同时触摸咖啡杯,每一个手指对应于一个不同的皮质柱。每个手指及其皮质柱会生成一个独立的关于咖啡杯的模型。由于皮质柱中各层细胞之间存在横向的链接,我们认为这些皮质柱之间存在一种「投票」机制。在不移动手指的情况下,这些手指利用它们所掌握的部分信息进行投票,从而整合在咖啡杯不同位置获取到的信息。因此,我们只需要让多个皮质柱投票一次就可以迅速得到咖啡杯的信息。而如果我们只使用一根手指,就需要不断移动手指才能识别出咖啡杯。

对视觉而言,视网膜就好比上面提到的皮肤,每一片视网膜都只关注图像的局部区域,并且投射给皮质柱,各个皮质柱则将通过投票机制整合视觉信息。因此,如果我们使用完整的视野,只需要扫一眼就可以识别物体。而如果我们透过一根吸管观察物体,就必须不断移动吸管中的视野才能识别物体。

有趣的是,大脑皮层中有一些部分是稳定的,也有些部分在不断变化。即使我们的手指或视觉在某个物体上移动,我们对物体的表征会保持稳定。以视觉为例,我们的眼睛每秒钟大约会移动3次,但是我们并不会察觉到这个现象,也就是说,我们觉察到的表征是稳定的,而这种现象也是通过皮质柱之间的投票机制实现的。

03、仿真实验

Jeff 等人在 YCB 物体抓取数据集上进行了实验。他们构建了一个虚拟的带有曲率传感器的机械手,这个机械手可以抓取并识别物体。

抓取/识别实验的结果如图 12 所示,图中的横轴代表真实的物体类别,纵轴代表机器所推理出的物体类别,图中对角线上的点代表完美的预测结果。当我们使用 1 根手指触摸物体时,结果存在很严重的误差,随着使用手指的增多,误差逐渐下降。

从另一个角度来看,图 13 的横轴代表参与感知任务的皮质柱数量,纵轴代表为了识别物体需要进行触摸的次数。随着皮质柱数量的增多,需要触摸的次数迅速下降。当皮质柱数量大于等于 6 时,无论物体有多么难以识别,我们只需要触摸一次就可以将其识别出来。

人类等动物可以对环境进行学习。以小鼠为例,其网格细胞相当于参考系,而位置细胞则会基于感觉输入判断小鼠所处的方位。我们的大脑可能也通过同样的机制工作。类比于神经科学领域的网格细胞、位置细胞、物体向量细胞,Jeff 等人认为我们的皮质柱中也存在类似的细胞。

科学家们通过一系列复杂且巧妙的实验证明,当人类从尺寸、腿长、颈长等方面辨认鸟类时,会用到位于前额叶皮层的网格细胞,并且沿着其构造的参考系思考鸟类。

来自中国的科学家们发现,网格细胞、位置细胞、边缘细胞等存在于躯体感觉皮层,印证了 Jeff 等人的预测是正确的。

04、人工智能与机器智能

将大脑工作机制应用于机器智能是 Numenta 的目标之一。在 Jeff Hawkins 看来,尽管如今的神经网络技术十分强大且有效,但是它们仍然并不够智能。

首先,机器需要学习有关世界的模型,从而更好地进行推理、预测、规划,并且基于该模型做出运动行为。现有的机器学习技术大多只是浅显的捕获了世界中的某些结构(例如,物体的三维模型或交互情况)。然而,真正的世界模型要复杂得多,它并不针对于某种具体的任务,可以被应用到各种各样的场景下。

第二,这种世界模型应该分布在许多几乎一样的单元中,这些单元通过投票形成共识。这种架构极为鲁棒。以人为例,即使大脑的某些部位受到了损伤,我们仍然能够很好地构建出关于世界的模型。这种分布式的模型还可以从小的尺度向超大规模的系统进行扩展。其它的哺乳动物也具有与人类似的皮层结构,只不过它们所包含的皮质柱较少。此外,我们可以使用任意类型、任意大小的传感器阵列来获取感觉输入,这为我们设计人工智能系统带来了很大的灵活性。各个单元的投票机制解决了「绑定问题」,即如何将各种感觉输入融合为单一的知觉。

对于制造智能机器来说,最重要的一点是,在每个构建单元中,我们将知识存储于参考系中,并且通过「感觉-运动」交互来学习知识。这也正是我们进行无监督学习的方式,我们通过移动和观察来提取不同的特征。引入参考系可以使机器像人一样快速地学习,在对新物体进行学习时,我们只需要找到物体在参考系中的位置。此外,对于机器人等应用而言,我们可以将运动行为融合到该参考系中。

Jeff 从如今的人工神经网络出发,给出了创造机器智能的路线图。其中的关键要素包括:稀疏性、活跃的树突、参考系、皮质柱。

就稀疏性而言,在人脑中,有 98% 的神经元处于静息状态,只有少数的神经元是活跃的,人脑中大多数的基本单元并不相连,这与现代人工神经网络区别很大。具体而言,Jeff 等人通过稀疏的激活函数和权值使现有的神经网络稀疏化。通过稀疏化处理,神经网络对于噪声变得更加鲁棒,其运算速度也大大提升,并且可以被迅速扩展为更大的模型。

在谷歌语音控制数据集上,目前最优的准确率为 95%-97.5%。Jeff 等人提出的稀疏卷积神经网络相较于密集的卷积神经网络而言,获得的平均准确率相当。而稀疏卷积神经网络神经元之间的连接数仅为密集卷积神经网络的 1/10,稀疏程度为 90%,在大大提升计算速度的同时,降低了内存的占用,并且对于噪声的鲁棒性也有显著的提升。

Jeff 等人进一步在赛灵思的 FPGA 上验证了稀疏网络的性能。如图 20 所示,在 Alveo U250 上,单个稀疏神经网络的运行速度相较于密集神经网络提升了 33 倍。由于稀疏神经网络的规模远小于密集神经网络,整块芯片上可以容纳更多系数神经网络,因此整块芯片上的吞吐量提升了超过 100 倍。而更小的芯片甚至无法容纳密集神经网络,却可以很好地适用于稀疏神经网络。这样的特性使得系数神经网络可以被嵌入到边缘计算应用设备上。目前,Jeff 等人正试图在 Transformer 网络上实现稀疏性。

当下所有的人工神经网络所使用的神经元都是「点神经元」,这是一种对于真实的人类神经元极为简化的抽象。实际上,人类神经元具有树突分支,它们具有很多很好的特性。Jeff 等人正试图使用拥有树突分支的神经元替换点神经元。这样的结构有助于实现持续学习、无监督学习/自监督学习。这是因为,人类在学习时,并不会更新整个突触,而只会更新某些突触段。从而使之前学习到的大多数知识不受影响。这样的结构还使我们可以根据预测误差学习,并且需要更少的有标签数据。

向神经网络引入参考系有助学习不变的表征,这使我们需要的训练集更小,并且使机器可以理解组合式的结构,从而展现出非常灵活的泛化性能。

我们可以在软件和硬件上实现堆叠的皮质柱,从而引入高度可扩展性的感觉运动系统,这将催生出更先进的机器人设备。


真正实现与人更类似的智能!Jeff Hawkins:创造机器智能的路线图