电子邮件是免费的
一维的表示中。 而在空间智能领域,我们的思路正好相反——我们认为世界的三维本质应该成为表示的核心。从算法的角度来看,这为我们处理数据和获得不同类型的输出提供了新的机会,帮助我们解决一些截然不同的问题。 即使从一个粗略的层面来看
你可能会说
多模态 LLM 也能看图像。”确实可以,但它们 瑞士电邮清单 在处理图像时没有将三维的本质置于其方法的核心。 我完全同意,讨论一维与三维表示的根本性区别是非常核心的。此外,还有一个稍微哲学化的观点,但对我来说同样重要:语言本质上是一种纯生成的信号,世界上不存在语言。
你走到大自然中
不会看到天上写着文字。无论你输入什么 运营管理新技术 数据,语言模型几乎都可以通过足够的泛化将相同的数据吐出来,这就是语言生成的特质。 但 3D 世界不同,它遵循物理法则,拥有自己的结构和材料。能够从根本上提取这些信息,进行表示和生成,这是一种完全不同的问题。尽管我们会借鉴语言模型中的一些有用的想法,但从根本上来说,这是一个不同的哲学问题。
对所以语言模
型是一维的,可能是对物理世界的不良表示,因为它是人类生成的,带有损失。而另一个生成模型的模态是像素,即 D 图像和视频。如果你看视频,可以看到 3D 场景,因为摄像机可以平移。那么空间智能与 D 视频有什么不同呢? 这里有两点值得思考。一是底层的表示
二是用户体验的
便利性。这两者有时会让人混淆。我们感知的是 D ——我们的 AFB 目录 视网膜是二维的结构,但我们的大脑将其视为三维世界的投影。 你可能希望移动物体、移动摄像机,原则上你可以用二维的表示和模型来做这些事情,但它并不适合解决你提出的问题。动态三维世界的二维投影可能可以建模,但将三维表示放在模型的核心,能够更好地适应问题的需求。 我们的目标是将更多的三维表示融入模型的核心,从而为用户提供更好的体验。这也与我的“北极星”相关。为什么我们强调“空间智能”,而不是“平面像素智能”?