查看“真正实现与人更类似的智能！Jeff Hawkins：创造机器智能的路线图”的源代码

[[首页]]>[[通约智库条目|条目]]>[[人工智能]]

2021智源大会 学术头条 2021-6-8

导读：Jeff Hawkins 是美国著名计算机科学家与神经科学家，美国工程院院士，目前任职于美国加州Numenta 公司。2004年，他曾出版科普著作《On Intelligence》，把人工智能这个陌生概念播撒到无数人心中。

在本届智源大会上，他发表了题为「The Thousand Brains Theory - A roadmap for creating machine intelligence」的演讲。作为公司的联合创始人，Jeff 为 Numenta 公司设定了双重使命：理解大脑工作的机制、根据大脑工作的机制创造机器智能。在 Jeff Hawkins 看来，想要最迅速地创造真正的智能机器，首先需要理解人类大脑是如何工作的。

作者：熊宇轩

编辑：梦佳

==01、大脑皮层如何学习世界模型==

大约 5 年前，Jeff 在理解大脑的工作机制方面取得了重大突破。他将大量的研究成果汇集到了「千脑理论」一书中。特别值得一提的是，2022 年年初，由智源研究院承担翻译工作的「千脑理论」中文版将由湛庐文化出版社出版，敬请期待！

人脑可以分为两个部分。其中，占人脑 70% 的大脑皮层是一大片神经组织，其厚度大约为 2.5 毫米，表面积大约为 1,500 平方厘米，它将大脑的其余部分包裹起来。人脑其余的部分由一些不可见的有专门用途的小型区域组成，它们可以控制人类的基本功能，例如：呼吸、消化、应激、跑步、走路、咀嚼，甚至情感。

相较之下，大脑皮层是真正产生智能的器官。人类的意识、视觉、听觉、触觉等感觉都产生于大脑皮层。认知、思维、计划等人类拥有的活动都是大脑皮层的产物。近年来，研究人员对大脑工作机制的了解有了较大的突破，并受此启发制造智能机器。

首先，人们很容易将大脑的工作机制与计算机进行类比，即得到输入数据，对输入信息进行一系列处理，然后再输出信息。然而，Jeff 认为这并不是大脑真正的工作方式。在他看来，大脑皮层是一种建模器官，它会学习关于世界的模型。我们所知晓的一切关于物体的形状、触觉、颜色、温度、声音，以及我们与物体的交互都会被存储在该模型中。该模型还会囊括物体的位置信息，知晓我们与物体交互后物体会产生的变化。成千上万的物体、单词、概念会被存储于位于我们大脑的神经元的模型中。

这种模型使我们可以知晓自己所处的方位，能够识别物体和交互动作。更重要的是，它使我们可以预测动作将导致的结果。为了实现某些目标，我们可以在行动前根据该模型在脑海中做出对行为的规划。

我们可以根据房屋架构的物理模型，从各种不同的方向观察房屋，还可以想象我们对其进行改造后的外观。此外，我们还可以做出一系列规划，例如：如何从车道上走到游泳池。

我们经常在计算机中构建如图 5 所示的房屋模型，从而从不同视角观测房屋。我们往往会为该模型施加一个笛卡尔坐标系作为参考，而房屋中的一切物体都具有其相对于参考系的方位。如果我们想要定位一个门，只需要再构造一个绿色的参考系，然后定位该参考系相对于房屋参考系的位置。五年前，我们发现大脑对世界建模的机制与上述情况类似，它也会使用某种类似的参考系存储知识。

此外，想要实现智能，我们不仅需要学习出这种有关世界的模型，还需要不断更新它，该模型并非一成不变。每当有情况发生变化时，该模型就会发生改变。

那么，大脑皮层会如何学习世界模型？

大脑皮层可以被划分为若干功能区域。例如，在大脑后侧有视觉中枢，侧面有听觉中枢，顶部有感觉中枢，此外，还有专门负责语言的脑区。所有脑区支配的行为之间存在异同，它们之间也会进行整合。

实际上，从外部来看，这些区域的外观是相同的。但是，如果我们通过显微镜观察脑区的内部结构，又会有何发现呢？

令人惊讶的是，在显微镜下，大脑皮层每一处的结构都是相似的。1899 年，Cajal 首次获得了 2.5 毫米厚的大脑皮层的照片。如图 7 所示，大脑皮层组织里包含许多不同种类的细胞，这些细胞的形状、大小、密度各异。这些细胞分层排列，细胞之间存在连接，而层与层之间也存在着连接。因此，在这个 2.5 毫米厚的组织中，信息会在层与层之间传递。尽管有些层可以远距离传递信息，但大多数层仍然是垂直传递信息。

不仅人类大脑皮层不同区域的结构相似，猫、狗、猴子等其它动物的大脑皮层也是如此。它们有相同种类的神经元，通过相同的层次化方式组织起来。每个区域都会接受某种输入，其中有的区域会直接从感受器接受输入。同时，每个区域都会产生运动输出。在大脑皮层的每个区域，都存在「感觉运动整合」，这是一种普遍存在的结构。

那么，为什么具有相同结构的大脑皮层区域会产生不同的行为呢？

1975 年，约翰霍普金斯大学的教授 Vernon Mountcastle 指出，大脑皮层之所以处处看起来是相同的，是因为它们执行着同样的基本功能。而不同的脑区负责怎样的功能取决于它们与什么相连接（例如，负责视觉的枕叶皮层与眼球相连接）。此外，他还指出，大脑皮层由重复的单元组成，这种单元被称为「皮质柱」。我们的大脑皮层会复制大量的皮质柱，从而变得越来越大，这些皮质柱一个挨一个地堆叠起来。

在显微镜下，我们无法看见皮质柱，但它们确实存在。如图 8 左下角所示，我们用六个圆代表六个相连的皮肤块，它们一个接一个排列开来。这些皮肤块分别与大脑皮层中的皮质柱相连。我们可以通过探针找到对某个皮肤块有响应的所有皮质柱细胞。我们发现，不同的皮质柱会对不同的皮肤块产生响应，这并不是一种连续的表征。这种组织方式贯穿于整个大脑皮层。

在神经科学研究社区中，关于是否「所有皮质柱的功能都相同」这一问题存在一定争论。Jeff 等人发现，皮质柱之间 90% 的部分是相同的。那么，这些皮质柱共同的功能是什么呢？

==02、千脑理论：大脑对每个物体构建数千模型==

首先，每个皮质柱都会学习关于世界的完整模型，它们会通过整合感觉输入以及时间流中的各种运动来学习模型。如图 9 所示，当我们手指上的皮肤块触碰到咖啡杯时，它会接收到感觉输入，并将其传递给大脑皮层中特定的皮质柱。除此之外，大脑皮层还知道手指的运动信息，即能够跟踪手指在咖啡杯的参考系中的运动轨迹。

因此，皮质柱中存在表征物体参考系的细胞，他们负责不断更新手指在该坐标系中的位置信息，并将其作为另一种感觉输入。通过移动手指，我们将构建出一个有关咖啡杯的模型（是什么？在哪里？），该模型会逐渐稳定下来。

我们之所以将该理论称为「千脑理论」，是因为大脑会对每个物体构建数以千计的模型，每个皮质柱都会构建关于许多物体的模型。关于物体的知识存储于数以千计的皮质柱中。

如图 10 所示，假设我们使用三个手指同时触摸咖啡杯，每一个手指对应于一个不同的皮质柱。每个手指及其皮质柱会生成一个独立的关于咖啡杯的模型。由于皮质柱中各层细胞之间存在横向的链接，我们认为这些皮质柱之间存在一种「投票」机制。在不移动手指的情况下，这些手指利用它们所掌握的部分信息进行投票，从而整合在咖啡杯不同位置获取到的信息。因此，我们只需要让多个皮质柱投票一次就可以迅速得到咖啡杯的信息。而如果我们只使用一根手指，就需要不断移动手指才能识别出咖啡杯。

对视觉而言，视网膜就好比上面提到的皮肤，每一片视网膜都只关注图像的局部区域，并且投射给皮质柱，各个皮质柱则将通过投票机制整合视觉信息。因此，如果我们使用完整的视野，只需要扫一眼就可以识别物体。而如果我们透过一根吸管观察物体，就必须不断移动吸管中的视野才能识别物体。

有趣的是，大脑皮层中有一些部分是稳定的，也有些部分在不断变化。即使我们的手指或视觉在某个物体上移动，我们对物体的表征会保持稳定。以视觉为例，我们的眼睛每秒钟大约会移动3次，但是我们并不会察觉到这个现象，也就是说，我们觉察到的表征是稳定的，而这种现象也是通过皮质柱之间的投票机制实现的。

==03、仿真实验==

Jeff 等人在 YCB 物体抓取数据集上进行了实验。他们构建了一个虚拟的带有曲率传感器的机械手，这个机械手可以抓取并识别物体。

抓取/识别实验的结果如图 12 所示，图中的横轴代表真实的物体类别，纵轴代表机器所推理出的物体类别，图中对角线上的点代表完美的预测结果。当我们使用 1 根手指触摸物体时，结果存在很严重的误差，随着使用手指的增多，误差逐渐下降。

从另一个角度来看，图 13 的横轴代表参与感知任务的皮质柱数量，纵轴代表为了识别物体需要进行触摸的次数。随着皮质柱数量的增多，需要触摸的次数迅速下降。当皮质柱数量大于等于 6 时，无论物体有多么难以识别，我们只需要触摸一次就可以将其识别出来。

人类等动物可以对环境进行学习。以小鼠为例，其网格细胞相当于参考系，而位置细胞则会基于感觉输入判断小鼠所处的方位。我们的大脑可能也通过同样的机制工作。类比于神经科学领域的网格细胞、位置细胞、物体向量细胞，Jeff 等人认为我们的皮质柱中也存在类似的细胞。

科学家们通过一系列复杂且巧妙的实验证明，当人类从尺寸、腿长、颈长等方面辨认鸟类时，会用到位于前额叶皮层的网格细胞，并且沿着其构造的参考系思考鸟类。

来自中国的科学家们发现，网格细胞、位置细胞、边缘细胞等存在于躯体感觉皮层，印证了 Jeff 等人的预测是正确的。

==04、人工智能与机器智能==

将大脑工作机制应用于机器智能是 Numenta 的目标之一。在 Jeff Hawkins 看来，尽管如今的神经网络技术十分强大且有效，但是它们仍然并不够智能。

首先，机器需要学习有关世界的模型，从而更好地进行推理、预测、规划，并且基于该模型做出运动行为。现有的机器学习技术大多只是浅显的捕获了世界中的某些结构（例如，物体的三维模型或交互情况）。然而，真正的世界模型要复杂得多，它并不针对于某种具体的任务，可以被应用到各种各样的场景下。

第二，这种世界模型应该分布在许多几乎一样的单元中，这些单元通过投票形成共识。这种架构极为鲁棒。以人为例，即使大脑的某些部位受到了损伤，我们仍然能够很好地构建出关于世界的模型。这种分布式的模型还可以从小的尺度向超大规模的系统进行扩展。其它的哺乳动物也具有与人类似的皮层结构，只不过它们所包含的皮质柱较少。此外，我们可以使用任意类型、任意大小的传感器阵列来获取感觉输入，这为我们设计人工智能系统带来了很大的灵活性。各个单元的投票机制解决了「绑定问题」，即如何将各种感觉输入融合为单一的知觉。

对于制造智能机器来说，最重要的一点是，在每个构建单元中，我们将知识存储于参考系中，并且通过「感觉-运动」交互来学习知识。这也正是我们进行无监督学习的方式，我们通过移动和观察来提取不同的特征。引入参考系可以使机器像人一样快速地学习，在对新物体进行学习时，我们只需要找到物体在参考系中的位置。此外，对于机器人等应用而言，我们可以将运动行为融合到该参考系中。

Jeff 从如今的人工神经网络出发，给出了创造机器智能的路线图。其中的关键要素包括：稀疏性、活跃的树突、参考系、皮质柱。

就稀疏性而言，在人脑中，有 98% 的神经元处于静息状态，只有少数的神经元是活跃的，人脑中大多数的基本单元并不相连，这与现代人工神经网络区别很大。具体而言，Jeff 等人通过稀疏的激活函数和权值使现有的神经网络稀疏化。通过稀疏化处理，神经网络对于噪声变得更加鲁棒，其运算速度也大大提升，并且可以被迅速扩展为更大的模型。

在谷歌语音控制数据集上，目前最优的准确率为 95%-97.5%。Jeff 等人提出的稀疏卷积神经网络相较于密集的卷积神经网络而言，获得的平均准确率相当。而稀疏卷积神经网络神经元之间的连接数仅为密集卷积神经网络的 1/10，稀疏程度为 90%，在大大提升计算速度的同时，降低了内存的占用，并且对于噪声的鲁棒性也有显著的提升。

Jeff 等人进一步在赛灵思的 FPGA 上验证了稀疏网络的性能。如图 20 所示，在 Alveo U250 上，单个稀疏神经网络的运行速度相较于密集神经网络提升了 33 倍。由于稀疏神经网络的规模远小于密集神经网络，整块芯片上可以容纳更多系数神经网络，因此整块芯片上的吞吐量提升了超过 100 倍。而更小的芯片甚至无法容纳密集神经网络，却可以很好地适用于稀疏神经网络。这样的特性使得系数神经网络可以被嵌入到边缘计算应用设备上。目前，Jeff 等人正试图在 Transformer 网络上实现稀疏性。

当下所有的人工神经网络所使用的神经元都是「点神经元」，这是一种对于真实的人类神经元极为简化的抽象。实际上，人类神经元具有树突分支，它们具有很多很好的特性。Jeff 等人正试图使用拥有树突分支的神经元替换点神经元。这样的结构有助于实现持续学习、无监督学习/自监督学习。这是因为，人类在学习时，并不会更新整个突触，而只会更新某些突触段。从而使之前学习到的大多数知识不受影响。这样的结构还使我们可以根据预测误差学习，并且需要更少的有标签数据。

向神经网络引入参考系有助学习不变的表征，这使我们需要的训练集更小，并且使机器可以理解组合式的结构，从而展现出非常灵活的泛化性能。

我们可以在软件和硬件上实现堆叠的皮质柱，从而引入高度可扩展性的感觉运动系统，这将催生出更先进的机器人设备。
----
[https://mp.weixin.qq.com/s/x9MCP-qqPy88OwGUPnIPGg 真正实现与人更类似的智能！Jeff Hawkins：创造机器智能的路线图]