查看“真正实现与人更类似的智能!Jeff Hawkins:创造机器智能的路线图”的源代码
←
真正实现与人更类似的智能!Jeff Hawkins:创造机器智能的路线图
跳转至:
导航
、
搜索
因为以下原因,您没有权限编辑本页:
您所请求的操作仅限于该用户组的用户使用:
用户
您可以查看与复制此页面的源代码。
[[首页]]>[[通约智库条目|条目]]>[[人工智能]] 2021智源大会 学术头条 2021-6-8 导读:Jeff Hawkins 是美国著名计算机科学家与神经科学家,美国工程院院士,目前任职于美国加州Numenta 公司。2004年,他曾出版科普著作《On Intelligence》,把人工智能这个陌生概念播撒到无数人心中。 在本届智源大会上,他发表了题为「The Thousand Brains Theory - A roadmap for creating machine intelligence」的演讲。作为公司的联合创始人,Jeff 为 Numenta 公司设定了双重使命:理解大脑工作的机制、根据大脑工作的机制创造机器智能。在 Jeff Hawkins 看来,想要最迅速地创造真正的智能机器,首先需要理解人类大脑是如何工作的。 作者:熊宇轩 编辑:梦佳 ==01、大脑皮层如何学习世界模型== 大约 5 年前,Jeff 在理解大脑的工作机制方面取得了重大突破。他将大量的研究成果汇集到了「千脑理论」一书中。特别值得一提的是,2022 年年初,由智源研究院承担翻译工作的「千脑理论」中文版将由湛庐文化出版社出版,敬请期待! 人脑可以分为两个部分。其中,占人脑 70% 的大脑皮层是一大片神经组织,其厚度大约为 2.5 毫米,表面积大约为 1,500 平方厘米,它将大脑的其余部分包裹起来。人脑其余的部分由一些不可见的有专门用途的小型区域组成,它们可以控制人类的基本功能,例如:呼吸、消化、应激、跑步、走路、咀嚼,甚至情感。 相较之下,大脑皮层是真正产生智能的器官。人类的意识、视觉、听觉、触觉等感觉都产生于大脑皮层。认知、思维、计划等人类拥有的活动都是大脑皮层的产物。近年来,研究人员对大脑工作机制的了解有了较大的突破,并受此启发制造智能机器。 首先,人们很容易将大脑的工作机制与计算机进行类比,即得到输入数据,对输入信息进行一系列处理,然后再输出信息。然而,Jeff 认为这并不是大脑真正的工作方式。在他看来,大脑皮层是一种建模器官,它会学习关于世界的模型。我们所知晓的一切关于物体的形状、触觉、颜色、温度、声音,以及我们与物体的交互都会被存储在该模型中。该模型还会囊括物体的位置信息,知晓我们与物体交互后物体会产生的变化。成千上万的物体、单词、概念会被存储于位于我们大脑的神经元的模型中。 这种模型使我们可以知晓自己所处的方位,能够识别物体和交互动作。更重要的是,它使我们可以预测动作将导致的结果。为了实现某些目标,我们可以在行动前根据该模型在脑海中做出对行为的规划。 我们可以根据房屋架构的物理模型,从各种不同的方向观察房屋,还可以想象我们对其进行改造后的外观。此外,我们还可以做出一系列规划,例如:如何从车道上走到游泳池。 我们经常在计算机中构建如图 5 所示的房屋模型,从而从不同视角观测房屋。我们往往会为该模型施加一个笛卡尔坐标系作为参考,而房屋中的一切物体都具有其相对于参考系的方位。如果我们想要定位一个门,只需要再构造一个绿色的参考系,然后定位该参考系相对于房屋参考系的位置。五年前,我们发现大脑对世界建模的机制与上述情况类似,它也会使用某种类似的参考系存储知识。 此外,想要实现智能,我们不仅需要学习出这种有关世界的模型,还需要不断更新它,该模型并非一成不变。每当有情况发生变化时,该模型就会发生改变。 那么,大脑皮层会如何学习世界模型? 大脑皮层可以被划分为若干功能区域。例如,在大脑后侧有视觉中枢,侧面有听觉中枢,顶部有感觉中枢,此外,还有专门负责语言的脑区。所有脑区支配的行为之间存在异同,它们之间也会进行整合。 实际上,从外部来看,这些区域的外观是相同的。但是,如果我们通过显微镜观察脑区的内部结构,又会有何发现呢? 令人惊讶的是,在显微镜下,大脑皮层每一处的结构都是相似的。1899 年,Cajal 首次获得了 2.5 毫米厚的大脑皮层的照片。如图 7 所示,大脑皮层组织里包含许多不同种类的细胞,这些细胞的形状、大小、密度各异。这些细胞分层排列,细胞之间存在连接,而层与层之间也存在着连接。因此,在这个 2.5 毫米厚的组织中,信息会在层与层之间传递。尽管有些层可以远距离传递信息,但大多数层仍然是垂直传递信息。 不仅人类大脑皮层不同区域的结构相似,猫、狗、猴子等其它动物的大脑皮层也是如此。它们有相同种类的神经元,通过相同的层次化方式组织起来。每个区域都会接受某种输入,其中有的区域会直接从感受器接受输入。同时,每个区域都会产生运动输出。在大脑皮层的每个区域,都存在「感觉运动整合」,这是一种普遍存在的结构。 那么,为什么具有相同结构的大脑皮层区域会产生不同的行为呢? 1975 年,约翰霍普金斯大学的教授 Vernon Mountcastle 指出,大脑皮层之所以处处看起来是相同的,是因为它们执行着同样的基本功能。而不同的脑区负责怎样的功能取决于它们与什么相连接(例如,负责视觉的枕叶皮层与眼球相连接)。此外,他还指出,大脑皮层由重复的单元组成,这种单元被称为「皮质柱」。我们的大脑皮层会复制大量的皮质柱,从而变得越来越大,这些皮质柱一个挨一个地堆叠起来。 在显微镜下,我们无法看见皮质柱,但它们确实存在。如图 8 左下角所示,我们用六个圆代表六个相连的皮肤块,它们一个接一个排列开来。这些皮肤块分别与大脑皮层中的皮质柱相连。我们可以通过探针找到对某个皮肤块有响应的所有皮质柱细胞。我们发现,不同的皮质柱会对不同的皮肤块产生响应,这并不是一种连续的表征。这种组织方式贯穿于整个大脑皮层。 在神经科学研究社区中,关于是否「所有皮质柱的功能都相同」这一问题存在一定争论。Jeff 等人发现,皮质柱之间 90% 的部分是相同的。那么,这些皮质柱共同的功能是什么呢? ==02、千脑理论:大脑对每个物体构建数千模型== 首先,每个皮质柱都会学习关于世界的完整模型,它们会通过整合感觉输入以及时间流中的各种运动来学习模型。如图 9 所示,当我们手指上的皮肤块触碰到咖啡杯时,它会接收到感觉输入,并将其传递给大脑皮层中特定的皮质柱。除此之外,大脑皮层还知道手指的运动信息,即能够跟踪手指在咖啡杯的参考系中的运动轨迹。 因此,皮质柱中存在表征物体参考系的细胞,他们负责不断更新手指在该坐标系中的位置信息,并将其作为另一种感觉输入。通过移动手指,我们将构建出一个有关咖啡杯的模型(是什么?在哪里?),该模型会逐渐稳定下来。 我们之所以将该理论称为「千脑理论」,是因为大脑会对每个物体构建数以千计的模型,每个皮质柱都会构建关于许多物体的模型。关于物体的知识存储于数以千计的皮质柱中。 如图 10 所示,假设我们使用三个手指同时触摸咖啡杯,每一个手指对应于一个不同的皮质柱。每个手指及其皮质柱会生成一个独立的关于咖啡杯的模型。由于皮质柱中各层细胞之间存在横向的链接,我们认为这些皮质柱之间存在一种「投票」机制。在不移动手指的情况下,这些手指利用它们所掌握的部分信息进行投票,从而整合在咖啡杯不同位置获取到的信息。因此,我们只需要让多个皮质柱投票一次就可以迅速得到咖啡杯的信息。而如果我们只使用一根手指,就需要不断移动手指才能识别出咖啡杯。 对视觉而言,视网膜就好比上面提到的皮肤,每一片视网膜都只关注图像的局部区域,并且投射给皮质柱,各个皮质柱则将通过投票机制整合视觉信息。因此,如果我们使用完整的视野,只需要扫一眼就可以识别物体。而如果我们透过一根吸管观察物体,就必须不断移动吸管中的视野才能识别物体。 有趣的是,大脑皮层中有一些部分是稳定的,也有些部分在不断变化。即使我们的手指或视觉在某个物体上移动,我们对物体的表征会保持稳定。以视觉为例,我们的眼睛每秒钟大约会移动3次,但是我们并不会察觉到这个现象,也就是说,我们觉察到的表征是稳定的,而这种现象也是通过皮质柱之间的投票机制实现的。 ==03、仿真实验== Jeff 等人在 YCB 物体抓取数据集上进行了实验。他们构建了一个虚拟的带有曲率传感器的机械手,这个机械手可以抓取并识别物体。 抓取/识别实验的结果如图 12 所示,图中的横轴代表真实的物体类别,纵轴代表机器所推理出的物体类别,图中对角线上的点代表完美的预测结果。当我们使用 1 根手指触摸物体时,结果存在很严重的误差,随着使用手指的增多,误差逐渐下降。 从另一个角度来看,图 13 的横轴代表参与感知任务的皮质柱数量,纵轴代表为了识别物体需要进行触摸的次数。随着皮质柱数量的增多,需要触摸的次数迅速下降。当皮质柱数量大于等于 6 时,无论物体有多么难以识别,我们只需要触摸一次就可以将其识别出来。 人类等动物可以对环境进行学习。以小鼠为例,其网格细胞相当于参考系,而位置细胞则会基于感觉输入判断小鼠所处的方位。我们的大脑可能也通过同样的机制工作。类比于神经科学领域的网格细胞、位置细胞、物体向量细胞,Jeff 等人认为我们的皮质柱中也存在类似的细胞。 科学家们通过一系列复杂且巧妙的实验证明,当人类从尺寸、腿长、颈长等方面辨认鸟类时,会用到位于前额叶皮层的网格细胞,并且沿着其构造的参考系思考鸟类。 来自中国的科学家们发现,网格细胞、位置细胞、边缘细胞等存在于躯体感觉皮层,印证了 Jeff 等人的预测是正确的。 ==04、人工智能与机器智能== 将大脑工作机制应用于机器智能是 Numenta 的目标之一。在 Jeff Hawkins 看来,尽管如今的神经网络技术十分强大且有效,但是它们仍然并不够智能。 首先,机器需要学习有关世界的模型,从而更好地进行推理、预测、规划,并且基于该模型做出运动行为。现有的机器学习技术大多只是浅显的捕获了世界中的某些结构(例如,物体的三维模型或交互情况)。然而,真正的世界模型要复杂得多,它并不针对于某种具体的任务,可以被应用到各种各样的场景下。 第二,这种世界模型应该分布在许多几乎一样的单元中,这些单元通过投票形成共识。这种架构极为鲁棒。以人为例,即使大脑的某些部位受到了损伤,我们仍然能够很好地构建出关于世界的模型。这种分布式的模型还可以从小的尺度向超大规模的系统进行扩展。其它的哺乳动物也具有与人类似的皮层结构,只不过它们所包含的皮质柱较少。此外,我们可以使用任意类型、任意大小的传感器阵列来获取感觉输入,这为我们设计人工智能系统带来了很大的灵活性。各个单元的投票机制解决了「绑定问题」,即如何将各种感觉输入融合为单一的知觉。 对于制造智能机器来说,最重要的一点是,在每个构建单元中,我们将知识存储于参考系中,并且通过「感觉-运动」交互来学习知识。这也正是我们进行无监督学习的方式,我们通过移动和观察来提取不同的特征。引入参考系可以使机器像人一样快速地学习,在对新物体进行学习时,我们只需要找到物体在参考系中的位置。此外,对于机器人等应用而言,我们可以将运动行为融合到该参考系中。 Jeff 从如今的人工神经网络出发,给出了创造机器智能的路线图。其中的关键要素包括:稀疏性、活跃的树突、参考系、皮质柱。 就稀疏性而言,在人脑中,有 98% 的神经元处于静息状态,只有少数的神经元是活跃的,人脑中大多数的基本单元并不相连,这与现代人工神经网络区别很大。具体而言,Jeff 等人通过稀疏的激活函数和权值使现有的神经网络稀疏化。通过稀疏化处理,神经网络对于噪声变得更加鲁棒,其运算速度也大大提升,并且可以被迅速扩展为更大的模型。 在谷歌语音控制数据集上,目前最优的准确率为 95%-97.5%。Jeff 等人提出的稀疏卷积神经网络相较于密集的卷积神经网络而言,获得的平均准确率相当。而稀疏卷积神经网络神经元之间的连接数仅为密集卷积神经网络的 1/10,稀疏程度为 90%,在大大提升计算速度的同时,降低了内存的占用,并且对于噪声的鲁棒性也有显著的提升。 Jeff 等人进一步在赛灵思的 FPGA 上验证了稀疏网络的性能。如图 20 所示,在 Alveo U250 上,单个稀疏神经网络的运行速度相较于密集神经网络提升了 33 倍。由于稀疏神经网络的规模远小于密集神经网络,整块芯片上可以容纳更多系数神经网络,因此整块芯片上的吞吐量提升了超过 100 倍。而更小的芯片甚至无法容纳密集神经网络,却可以很好地适用于稀疏神经网络。这样的特性使得系数神经网络可以被嵌入到边缘计算应用设备上。目前,Jeff 等人正试图在 Transformer 网络上实现稀疏性。 当下所有的人工神经网络所使用的神经元都是「点神经元」,这是一种对于真实的人类神经元极为简化的抽象。实际上,人类神经元具有树突分支,它们具有很多很好的特性。Jeff 等人正试图使用拥有树突分支的神经元替换点神经元。这样的结构有助于实现持续学习、无监督学习/自监督学习。这是因为,人类在学习时,并不会更新整个突触,而只会更新某些突触段。从而使之前学习到的大多数知识不受影响。这样的结构还使我们可以根据预测误差学习,并且需要更少的有标签数据。 向神经网络引入参考系有助学习不变的表征,这使我们需要的训练集更小,并且使机器可以理解组合式的结构,从而展现出非常灵活的泛化性能。 我们可以在软件和硬件上实现堆叠的皮质柱,从而引入高度可扩展性的感觉运动系统,这将催生出更先进的机器人设备。 ---- [https://mp.weixin.qq.com/s/x9MCP-qqPy88OwGUPnIPGg 真正实现与人更类似的智能!Jeff Hawkins:创造机器智能的路线图]
返回至
真正实现与人更类似的智能!Jeff Hawkins:创造机器智能的路线图
。
导航菜单
个人工具
登录
名字空间
页面
讨论
变种
视图
阅读
查看源代码
查看历史
更多
搜索
导航
首页
社区主页
新闻动态
最近更改
随机页面
帮助
华师附中老三届
站群链接
社友网(sn)
产品百科(cpwiki)
产品与服务(sn)
社区支持农业(sn)
工具
链入页面
相关更改
特殊页面
页面信息