努力加载中
  • 推荐
  • 要闻
  • 财经
  • 娱乐
  • 时尚
  • 情感

热点推荐

热门图文

人工智能科学家揭开 AI 创意背后的神秘机制
人工智能学家

图像生成器旨在模拟他们的训练数据,那么他们明显的创造力来自哪里呢?最近的一项研究表明,这是他们架构不可避免的副产品。

Adrián Astorgano 为 Quanta 杂志拍摄韦伯·赖特 特约撰稿人

文章来源:
https://www.quantamagazine.org/researchers-uncover-hidden-ingredients-behind-ai-creativity-20250630/

我们曾经被承诺提供自动驾驶汽车和机器人女仆。相反,我们看到了人工智能系统的兴起,这些系统可以在国际象棋中击败我们,分析大量文本并创作十四行诗。这是现代社会的一大惊喜:对人类来说很容易的体力任务对机器人来说却非常困难,而算法越来越能够模仿我们的智力。

长期以来一直困扰研究人员的另一个惊喜是这些算法对自己奇怪的创造力的诀窍。

扩散模型是 DALL·E、Imagen 和 Stable Diffusion 等图像生成工具的支柱,旨在生成它们经过训练的图像的复印件。然而,在实践中,它们似乎是即兴创作,在图像中混合元素以创造新的东西——不仅仅是无意义的色点,而是具有语义意义的连贯图像。这就是扩散模型背后的“悖论”,他说朱利奥·比罗利(打开新标签页),巴黎高等师范学院的人工智能研究员和物理学家说:“如果它们工作得完美,它们应该只是记住,”他说。“但他们没有——它们实际上能够产生新的样本。”

为了生成图像,扩散模型使用一种称为去噪的过程。它们将图像转换为数字噪声(不连贯的像素集合),然后重新组合。这就像反复将一幅画放入碎纸机,直到你只剩下一堆细小的灰尘,然后将这些碎片重新拼凑在一起。多年来,研究人员一直在想:如果模型只是重新组装,那么新奇感是如何进入画面的?这就像将你被撕碎的画重新组装成一件全新的艺术品。

现在,两位物理学家提出了一个惊人的主张:正是去噪过程本身的技术缺陷导致了扩散模型的创造力。在纸(打开新标签页)该模型将在 2025 年机器学习国际会议上发表,这对搭档开发了一个经过训练的扩散模型的数学模型,以表明他们所谓的创造力实际上是一个确定性过程——这是他们架构的直接、不可避免的结果。

通过阐明扩散模型的黑匣子,这项新研究可能对未来的人工智能研究产生重大影响,甚至可能对我们对人类创造力的理解产生重大影响。“这篇论文的真正优势在于,它对一些非常重要的事情做出了非常准确的预测,”他说卢卡·安布罗吉奥尼(打开新标签页),荷兰拉德堡德大学的计算机科学家。

自下而上

梅森·坎布(打开新标签页)他是斯坦福大学应用物理学专业的研究生,也是这篇新论文的主要作者,长期以来一直对形态发生着迷:生命系统自我组装的过程。

了解人类和其他动物胚胎发育的一种方法是通过所谓的图灵模式,该模式以 20 世纪数学家艾伦·图灵 (Alan Turing) 的名字命名。图灵模式解释了细胞群如何将自身组织成不同的器官和肢体。至关重要的是,这种协调都是在地方层面进行的。没有 CEO 监督数万亿个细胞,以确保它们都符合最终的身体计划。换句话说,单个单元没有一些已完成的身体蓝图作为他们工作的基础。他们只是根据邻居的信号采取行动和进行纠正。这种自下而上的系统通常运行平稳,但偶尔会出错——例如,产生带有额外手指的手。

AI 时代的科学、承诺和危险

人工智能AI 时代的科学、承诺和危险

4月 30, 2025

当第一批 AI 生成的图像开始在网上出现时,许多看起来像超现实主义绘画,描绘了拥有额外手指的人类。这些立即让 Kamb 想到了形态发生:“它闻起来像你期望的 [自下而上的] 系统会失败,”他说。

AI 研究人员知道(打开新标签页)到那时,扩散模型在生成图像时需要走几个技术捷径。第一种称为局部性:它们一次只关注一组像素或“块状”像素。第二个是它们在生成图像时遵守严格的规则:例如,如果您仅将输入图像向任何方向移动几个像素,系统将自动调整以对其生成的图像进行相同的更改。这个特征称为平移等方差,是模型保持连贯结构的方式;没有它,创建逼真的图像要困难得多。

部分由于这些特征,扩散模型不会注意特定色块在最终图像中的位置。他们只专注于一次生成一个补丁,然后使用称为评分函数的数学模型自动将它们拟合到位,该模型可以被认为是数字图灵模式。

长期以来,研究人员将局部性和等方差视为去噪过程的局限性,这些技术怪癖阻止了扩散模型创建完美的图像复制品。他们没有将它们与创造力联系起来,创造力被视为一种更高层次的现象。

他们又遇到了一个惊喜。

本地制造

Kamb 于 2022 年在苏里亚·甘古里(打开新标签页),斯坦福大学的物理学家,还担任神经生物学和电气工程方面的职务。OpenAI 于同年发布了 ChatGPT,引起了人们对现在被称为生成式 AI 的领域的兴趣激增。随着技术开发人员致力于构建越来越强大的模型,许多学者仍然专注于了解这些系统的内部工作原理。

使用本文

(打开新标签页)


通讯

将 Quanta Magazine 发送到您的收件箱

立即订阅

最近的时事通讯(打开新标签页)

Mason Kamb(左)和 Surya Ganguli 发现,扩散模型的创造力是他们架构的结果。

Charles Yang (左)

为此,Kamb 最终提出了一个假设,即局部性和等方差导致创造力。这提出了一个诱人的实验可能性:如果他可以设计一个系统,除了优化局部性和等方差之外什么都不做,那么它应该表现得像一个扩散模型。这个实验是他与 Ganguli 合著的新论文的核心。

Kamb 和 Ganguli 将他们的系统称为等变局部分数 (ELS) 机器。它不是一个经过训练的扩散模型,而是一组方程,可以仅根据局部性和等方差的机制来分析预测去噪图像的组成。然后,他们拍摄了一系列已转换为数字噪声的图像,并通过 ELS 机器和许多强大的扩散模型(包括 ResNets 和 UNet)运行它们。

这几乎就像神经科学家将一群人类艺术家放入 MRI 机器中,并发现了他们创造力背后的共同神经机制。

Ganguli 说,结果“令人震惊”:总体而言,ELS 机器能够以 90% 的平均准确率与经过训练的扩散模型的输出完全匹配,这一结果“在机器学习中是闻所未闻的”。

结果似乎支持 Kamb 的假设。“一旦你强加了地方性,[创造力]就自动地出现了;它完全自然而然地脱离了动力,“他说。他发现,在去噪过程中限制扩散模型注意力窗口的机制——迫使它们专注于单个补丁,而不管它们最终在最终产品中处于什么位置——正是实现它们创造力的机制。在扩散模型中看到的额外手指现象同样是模型在没有任何更广泛的上下文的情况下生成局部像素块的过度固定的直接副产品。

接受采访的专家普遍认为,尽管 Kamb 和 Ganguli 的论文阐明了扩散模型中创造力背后的机制,但很多事情仍然很神秘。例如,大型语言模型和其他 AI 系统似乎也展示了创造力,但它们没有利用局部性和等方差。

“我认为这是故事中非常重要的部分,”比罗利说,“[但]这并不是故事的全部。

创造创造力

研究人员首次展示了如何将扩散模型的创造力视为去噪过程本身的副产品,这种过程可以通过数学形式化并以前所未有的高度准确进行预测。这几乎就像神经科学家将一群人类艺术家放入 MRI 机器中,并在他们的创造力背后找到了一个共同的神经机制,可以写成一组方程式。

与神经科学的比较可能不仅仅是比喻:Kamb 和 Ganguli 的工作还可以提供对人类思想黑匣子的洞察。“人类和 AI 的创造力可能没有太大区别,”佐治亚理工学院 (Georgia Institute of Technology) 的机器学习研究员本·胡佛 (Ben Hoover) 说。研究(打开新标签页)扩散模型。“我们根据我们的经历、我们的梦想、我们看到的、听到的或渴望来组装事物。AI 也只是根据它所看到的和它被要求做的事情来组装构建块。根据这种观点,人类和人工的创造力都可能从根本上植根于对世界的不完整理解:我们都在尽最大努力填补我们知识中的空白,并且时不时地产生既新颖又有价值的东西。也许这就是我们所说的创造力

相关推荐
x