大型語言模型能推理嗎

(這篇文章原本是用英文撰寫的。身為一位美國人,我在以中文討論技術議題方面的訓練並不多。若遇到任何語意存疑或敘事不夠清楚的地方,建議參考英文版本為準。)
我這幾年持續在教學與訓練大型語言模型(LLM)。「LLM 是否真的能推理?」這個問題經常被提出。我的答案至今仍然是一樣:不能 —— 但要保留一點空間。
幾年前我的立場很單純。LLM 本質上是一個巨大的機率模型,目的只是去預測最可能的下一個詞彙,之後再透過強化學習做調整。但這並不等同於真正的推理。
不過,隨著 Chain-of-Thought(逐步推理提示)等新方法的出現,討論開始有了不同角度。這種方法能引導模型一步一步地拆解問題,產生更準確的答案。這算是真正的推理嗎?嚴格來說,仍然不是 —— 因為它依然是基於機率。但 Chain-of-Thought 的確能幫助模型透過中間步驟逐步導引,降低出錯率。這些中間步驟再回饋進自回歸過程,使得整體結果更精確。
所以,答案依舊是「沒有推理」嗎?或許是。只是這裡要保留一點彈性:人類在推理時,其實也常常透過「說出來」來幫助自己思考。從這個角度來看,Chain-of-Thought 與人類的推理方式有些相似。也因此,我的答案裡,會保留一點保留態度。