技术问题,或者说一个关于像素的技术故事。 很多从事语言研究的人可能不知道,在生成 时代之前,我们这些从事计算机视觉领域的人,实际上有一个很长的历史,叫做 3D 重建的研究。 这可以追溯到上世纪70年代,你可以通过拍摄照片——因为人类有
两只眼睛
所以可以用立体照片来尝试三 瑞典电子邮件列表 角测量,构建 3D 形状。然而这是一个非常难的问题,至今尚未完全解决,因为存在匹配问题等复杂情况。 这个领域有着长期的进展,但是当 Nerf 和生成方法结合,尤其是在扩散模型的背景下 重建与生成突然开始融合。
在计算机视
觉领域内,我们突然发现,如果我们看 什么是技术运营模式? 到某个东西,或者想象某个东西,二者都可以汇聚到生成它的方向。这是一个非常重要的时刻,但很多人可能没有注意到这一点,因为我们没有像谈论 L 那样广泛讨论它。 对,在像素空间中有重建,例如你重建一个真实的场景;而如果你看不到那个场景,则会使用生成技术。这两者实际上是非常相似的。整个对话中你一直在谈论语言和像素,或许这是一个好时机来讨论空间智能与语言方法的对比,比如它们是互补的
还是完全不同的
我认为它们是互补的。我不确定如何定义“完全不同”,但我可 AFB 目录 以尝试做个对比。如今,很多人都在谈论GPT、开放 以及多模态模型。大家觉得这些模型既能处理像素,也能处理语言。那么它们是否能实现我们想要的空间推理呢?为了回答这个问题,我们需要打开这些系统的“黑箱”,看看它们是如何在底层工作的。 语言模型和我们现在看到的多模态语言模型,其底层的表示是“一维的”。我们谈论上下文长度、 Transformer 、序列、注意力机制,但归根结底,这些模型的表示是基于一维的序列化令牌。 这种表示在处理语言时是非常自然的,因为文本本身就是由一维的离散字母序列组成的。这种一维表示是 LLM 成功的基础,现在我们看到的多模态 LLM 也是如此,它们将其他模态(如图像)“硬塞进”这种