施普林格·自然旗下開放獲取學術期刊《科學報告》最新發表一篇人工智能(AI)研究論文指出,大型語言模型(LLM)AI對話機器人在創造性思維任務上或能超越大部分的一般人類,該任務要求受試者想出日常用品的替代用途(發散性思維的一個例子)。不過,該研究也顯示,得分最高的人類受試者依然能超過對話機器人的最佳答案。
該論文指出,發散性思維通常是指與創造性相關的一類思維過程,需要為特定任務想出各種不同創意或對策。發散性思維一般通過替代用途任務(Alternate Uses Task,AUT)進行評估,受試者被要求在短時間內想出某個日常用品的其他用途,越多越好。受試者的回答從四個類別進行打分:流利度、靈活性、原創性和精細度。
論文第一作者、芬蘭圖爾庫大學Mika Koivisto和通訊作者、挪威卑爾根大學與斯塔萬格大學Simone Grassini兩人合作,利用人工智能大模型ChatGPT3、ChatGPT4和Copy.Ai完成繩子、盒子、鉛筆、蠟燭4個物品的AUT,并對其答案進行比較。他們通過語義距離(回答與物品原始用途的相關度)和創造性給回答的原創性打分,并用一個計算方法在0-2的范圍里量化語義距離,同時讓不知道作答者身份的人類打分者在1-5的范圍里客觀評價創造性。
該研究結果顯示,平均而言,對話機器人的回答在語義距離(0.95相對于0.91)和創造性(2.91相對于2.47)的得分上顯著高于人類的回答。人類回答在這兩項的得分差距更大——最低分遠低于AI的回答,但最高分普遍比AI高。最佳人類回答在8個評分項中的7項都超過了所有對話機器人的最佳回答。
論文作者總結認為,這項研究結果表明,當前AI對話機器人想創意的能力至少已與一般人類相當。他們也指出,本次研究只評價了涉及創造性評估的單項任務的表現,今后的研究或能探索如何將AI融入創造性過程來提升人類表現。(完)







