导读:
“想象力比知识更重要。”来自香港大学和美国西北大学凯洛格商学院的研究团队希望了解,到底人类与人工智能,谁的创造力更强。他们的研究显示,人工智能的创造力已达到人类平均水平,但难及人类“创意天花板”。
“我对人类创意和创造性更加乐观了。”该研究的第一作者、香港大学助理教授王大维告诉《赛先生》。
黄磊 | 撰文
陈晓雪 | 编辑
在AI绘画、写作、作曲和生成视频日益成熟的今天,一个根本性问题经常萦绕在人们心头:机器的“创造力”是真实的突破,还是一种高级的“鹦鹉学舌”?
近日,一项发表于《自然·人类行为》(Nature Human Behaviour)的大规模实证研究,通过一个名为“发散性联想任务”的心理学测试,对近万名人类和九款主流大语言模型进行了超过20万次“创造力”对决,发现最先进的AI在创造力平均水平上已与人类旗鼓相当,甚至略有超出;但在创造力的“天花板”——即顶尖水平的原创性和思维多样性上,人类依然拥有不可撼动的优势。
如何公平地度量“创造力”?
比较人类与机器的创造力,最大的难点在于建立一个客观、公平的度量标准。传统的创造力测试(如“为一瓶矿泉水想出尽可能多的新奇用途”)往往依赖人类评委的主观打分,容易受到个人偏好、文化背景等因素的影响,且难以大规模实施。
为此,该研究采用了心理学领域一个经过严格验证的工具——发散联想任务(Divergent Association Task,简称DAT)。DAT测试由麦吉尔大学、哈佛大学等机构的研究人员共同设计,其核心是测量“发散性思维”,即从一个点出发,产生多种不同、新颖联想的能力,这被公认为创造性潜能的关键指标。
DAT如何工作?
1.任务:参与者(人或 AI)被要求在短时间内想出10个语义上两两彼此差异尽可能大的英文名词。
2.评分:通过算法(如词嵌入模型)计算所有词对之间的平均语义距离。例如,“猫”和“哲学”的距离远大于“猫”和“狗”。
3.输出:得出一个DAT分数(通常在65-90分之间)。分数越高,代表思维越能跳出常规关联,发散性创造力越强。
这种方法优势显著:客观(算法评分)、高效(几分钟完成)、可大规模重复,完美契合了本次人机大规模比较的需求。
9个大语言模型 vs. 10000个人类的对比测试
为确保结论的普适性和可靠性,研究构建了极具代表性的样本池:
人类方:约 10,000名 参与者,覆盖不同国家、教育水平、文化背景,构成了一个多样化的“人类创造力光谱”。
AI 方:涵盖了 9款 主流大语言模型,包括:
OpenAI系列:GPT-3.5-Turbo,GPT-4, GPT-4o, GPT-4.0-Turbo
Anthropic系列:Claude-3-Haiku, Claude-3-Sonnet, Claude-3-Opus
其他:Meta 的 Llama-2-70b,百度的 Ernie-4.0-8k
最终,该研究累计完成近 20万次 DAT测试,产生了海量数据用于对比分析。
创意天才仍在人间
结果显示,人与AI的创意平均分接近,但人类得分的方差更大。
从第一层数据——平均分来看,人机似乎难分伯仲。人类的平均分在78.19到80.07之间(例如,香港大学学生平均80.07),而AI最佳表现:GPT-4.0-Turbo 平均分为 81.78,略高于人类均值。
统计分析显示,人类得分的方差显著大于所有 AI 模型(p<0.001)。这意味着人类群体的创造力表现更为参差不齐,分布更广。
研究者对人机得分的顶端进行对比:研究专门比较了前10%的顶尖个体。结果发现,人类中前10%的顶尖者,其DAT分数显著超越了所有AI模型中前10%的表现(p<0.001)。
统计显示,AI像一个产出稳定、且质量“良好”作品的优等生,但人类群体中则蕴藏着更多可能产出“惊世之作”的“天才”和“怪才”。人类在创意顶端的多样性和突破能力,是目前AI无法企及的。

图1. 人类和大语言模型的DAT打分对比
那么,AI 是如何得到这些分数的?研究通过精巧实验揭示了其背后的机制,这些机制与人类基于理解和经验的创造力有本质不同。
1. “创意模仿者”策略:当要求 AI “生成数据库中不常见(低频)的词汇”时,部分模型(如GPT系列)的DAT分数会提升。这表明,一些 AI 通过刻意调用生僻词来“显得”有创意。但如果模型训练数据不足,生僻词之间也可能存在隐性关联,此策略便会失效。
2. “温度”参数的副作用:随机性引发“幻觉”:大语言模型有一个关键参数叫“温度”,用于控制输出的随机性。研究发现,提高温度能普遍增加 AI 回答的多样性和 DAT 分数。例如,将GPT-4的温度调高后,其得分甚至能超过72%的人类参与者。但这样做的代价巨大:随着温度升高,AI 的“幻觉”问题急剧恶化——会自信地生成大量乱码或完全编造的词语(如“flump”、“zizz”等)。这证明,仅靠增加随机性无法获得真正的创造性突破,反而可能导致输出质量失控和不可靠。

图2. 各个大语言模型在不同温度(0.1到1.0)下的DAT打分对比,折线代表每个模型的平均DAT得分,阴影面积指的是95%的置信区间。
人们常希望通过巧妙的提示词来“激发”AI的创造力,但实验结果显示,当提示词要求AI来扮演历史创意天才反而限制了AI的创造力。例如,当提示语要求 AI “像达·芬奇、居里夫人或史蒂夫·乔布斯一样思考”时,其 DAT 分数普遍下降。AI 似乎将思维局限在了这些人物知名的领域,而非模仿其跨界的、发散的思维模式。
另外,当要求 AI 从特定人口视角(如“女性”、“黑人”、“老年人”)思考时,其创造力表现出现波动,甚至会嵌入社会偏见。值得注意的是,“黑人”视角的提示显著降低了AI 的 DAT 分数。这说明训练数据中存在的社会刻板印象,直接影响甚至限制了 AI 的“创造性”输出。

图3.对各个大语言模型输入不同提示符工程指令后的DAT打分比较,这些面板数据中柱状图代表所有大语言模型的平均DAT打分以及标准差。面板a研究了任意、想象力、创意等五种场景。面板b研究了艺术家(如达芬奇)、科学家(居里夫人和爱因斯坦)和企业家(如乔布斯)场景。面板c研究了6种不同人口学属性,分别是男性、女性、青年人、老年人、白人和黑人。
研究者还对生成词汇的进一步分析,发现人机思维模式存在深层不同。例如,人类更倾向于选择与具体、日常经验相关的名词,如“汽车”、“书”、“房子”。词汇分布非常分散,很少锚定在某个特定词上。而AI更频繁地使用抽象概念,如“幸福”、“自由”。同时表现出更高的“锚定效应”,即反复使用某些高频抽象词。
研究者认为,这印证了 AI 的创造力源于对海量文本统计模式的学习和重组,而非基于具身经验、情感和情境的理解。AI模型的本质决定了,在词汇选择方面AI更加抽象。
未来将是人类+ AI 的协作时代?
当然,这项研究并不是说 AI 在创意方面没有价值,而是想更清楚地看看它擅长什么、不擅长什么,并聊聊未来人和AI可以怎样一起工作。
简单来说,AI更像是一位“创意助手”,最拿手的是快速产生大量合格线以上的想法,帮你跨过一开始“毫无头绪”的难关。或者当你有一个初步构思时,它可以帮你生成许多不同的变化和拓展方向。在需要大量头脑风暴、快速出点子的阶段,AI 是个得力工具。而人类始终是最终决策者和灵魂人物。设定目标、融入情感与文化、做出道德判断,以及实现那些颠覆性的突破——这些关键任务依然离不开人。人类的直觉、跨领域的见识,以及那种基于深刻理解的“灵光一现”,是无可替代的。未来,人应该更像创意的“指挥家”和“最终定稿人”
比如未来人类和AI可以有这样一些经典合作场景。做广告策划时,由人提出核心创意,然后让AI快速生成几十句广告语或多种视觉设计方案,供人筛选和优化。设计新产品时,由人确定要解决什么问题、遵循什么设计理念,然后让AI生成几百张概念草图或不同功能组合的可能。学术研究时,由人提出科学假设,然后让AI帮忙整理文献、提供不同的实验思路,或者分析数据可能呈现的规律。
总之,AI不是来替代我们创意的,而是来帮我们打开思路、提高效率的伙伴。真正的方向和深度创新,还得靠我们自己。
论文第一作者:我对人类更乐观了
这项发表于《自然·人类行为》的研究通过DAT分析表明,当前最先进的 AI,其创造力在本质上仍是一种基于概率的“高级联想”,一种对创新的“模仿”。大语言模型的自回归设计使得它能够高效地重组已知元素,但在生成真正具有深层意义、文化共鸣和颠覆性概念的原创新知方面,仍力有不逮。
论文的第一作者,香港大学助理教授王大维,之前是学油画的艺术生,一直想研究AI能创新到什么程度,如何评估人和AI的创造力水平。因此王大维和前任香港大学研究助理教授黄棣芳、香港大学经管学院教授沈海鹏、西北大学凯洛格商学院教授Brian Uzzi合作这一研究。他们在2024年6月形成论文想法,仅仅4个多月时间就完成了数据收集与分析,其后半年与期刊编辑反复沟通、修改,最终成功发表。
那么,研究者作为人类本身,如何看待这一研究结果?
《赛先生》专程对论文第一作者和通讯作者王大维进行了采访,讨论了关于该研究的更多细节。
赛先生:关于DAT 选取 10 个单词进行语义距离评估,请问 10 这个数量,是科学上最优吗?或者说是否足够/太多?
王大维:我们做研究还是以学术界公认的方法和实验做基础,10个单词需要每两个进行对比,总体45对,在4分钟内完成,对人类而言有一定难度,也有足够的区分度,如果再多,就会因为太难而不够有效。同时对机器来说就会更有优势。
赛先生:单一DAT测试,是否足够反应人机的创意?
王大维:我们的数据集非常扎实且干净,但确实只是依赖于一种测试方法,不能代表创意的各个方面。未来也有很多工作要做,采用不同的方法来验证和评估艺术表达和解决问题的创意新颖性。
赛先生:10000 名人类参与者的构成是怎样?有多少港大学生,其他参与者的结果来自于其他研究?
王大维:最终有1000位港大的学生,其他来自世界各地。另外也有一个数据集有100万样本,但没有我们这个样本干净,不符合正态分布,所以也是我们这篇被录用的主要原因。
赛先生:为什么会比较 TOP 10%?而不是5%或者20%,这个比例有没有特别的意义?
王大维:一般顶级的创意家比如作家、演员、艺术家在人类社会都只占比5-10%,但由于我们人类样本量有限,如果只是5%,统计意义上不太够,因此就选取了10%。
赛先生:如果一个人的表述或者叙事,包含了很多抽象概念,那是不是更容易被判定为 AI,即使这个人真的是人?
王大维:这是一个很关键的问题,这篇文章我们只是做了洞察和结论陈述,但还没有涉及背后的动机和逻辑。我们正在投稿的另外一篇文章有讲到,其中提到“age of acquisition”(知识获取年龄)概念,会进一步解答这个问题。
赛先生:王教授作为曾经的艺术生,对这一结果如何评判,对人类创造性是更乐观吗?未来平庸的艺术家会不存在了吗?艺术的本质和意义是什么?为何而存在?
王大维:我对人类创意和创造性更加乐观了,同时不存在所谓“平庸”艺术家,各行各业都需要在工作中展现创意,而且不能由AI替代,尤其在人与人沟通方面。比如你负责数字营销,客户对广告效果不满意,那你的下属肯定要思考多种方法解决问题,或者进行客户安抚沟通。近期某新能源汽车公司的客服回答千篇一律,太像机器人,已经在互联网媒体变成一个梗,这就是AI最大的问题。
艺术的本质还是情感和兴趣、热情,而非执行层面的日常工作技能。我个人从艺术生转型到心理学再到生成式AI研究,都是基于兴趣和情感方面。你看我们这篇论文,我还专门画了一幅画,里面有达芬奇、老子、居里夫人、乔布斯等等,这些名人之间的植物和藤蔓,类似人工智能的神经网络。未来一定是人机协同,机器做更多具体的体力工作,人类做更有创意和想法的精神领域工作。而不是现在这样的相反,现在AI的一些做法不完全是正确的。
作者简介:
黄磊,《赛先生》科学写作小组成员,香港大学管理学博士,同济大学自动控制硕士,目前在互联网企业从事数字营销相关业务管理工作。
参考文献:
1.Wang, D., Huang, D., Shen, H.et al. A large-scale comparison of divergent creativity in humans and large language models.Nat Hum Behav(2025). https://doi.org/10.1038/s41562-025-02331-1
2.N. Jia, X. Luo, Z. Fang, C. Liao, When and how artificial intelligence augments employee creativity. Acad Manage J 67, 5–32 (2024).
3.J. A. Olson, J. Nahas, D. Chmoulevitch, S. J. Cropper, M. E. Webb, Naming unrelated words predicts creativity. Proc. Natl. Acad. Sci. U.S.A. 118, e2022340118 (2021).
0
推荐


京公网安备 11010502034662号 