AI到底擅不擅長數學,還得具體問題具體分析。
如果問計算機擅長什么,在所有的答案里,數學必須榜上有名。在經歷了漫長的研究之后,頂尖學者們在研究計算機關于數學計算方面的發展,取得了令人驚訝的成績。
就拿去年來說,來自加州大學伯克利分校、OpenAI和Google的研究人員在語言模型方面取得了長足的進步,GPT-3、DALL·E 2等被開發出來。然而,直到現在,語言模型還無法解決一些簡單的、用語言描述的數學問題,例如「Alice比Bob多五個球,Bob在給Charlie四個球后有兩個球。問Alice有幾個球?」這對語言模型來說,想要給出正確答案,可能就有點「吃力」了。

「當我們說計算機非常擅長數學時,意思是它們非常擅長特定的、具體的事情,」來自谷歌的機器學習專家Guy Gur-Ari表示。計算機擅長算術是不假,但在特定的模式之外,計算機就無能為力了,簡單的文字描述題都回答不了。
谷歌研究員Ethan Dyer曾經表示:做數學研究的人有一套僵化的推理系統,對于他們熟知的和不了解的內容,這兩者之間有著明顯的鴻溝。
解決文字問題或定量推理問題很棘手,因為不同于其他問題,這兩者需要魯棒性和嚴謹性。如果過程中的任何一步出現錯誤,將會導致錯誤的答案。DALL·E在繪畫方面令人印象深刻,盡管它生成的圖像有時會很奇怪,可能遺漏人的手指、眼睛長得奇怪……這些我們都能接受,但是它在數學方面出現了錯誤,我們的容忍度就會非常小。來自OpenAI的機器學習專家Vineet Kosaraju也曾表達過這種想法,「我們對語言模型所犯的數學錯誤(比如將10誤解為1和0,而不是10)容忍性還是比較小的。」
「我們研究數學僅僅是因為我們發現它獨立且非常有趣,」OpenAI機器學習專家Karl Cobbe說。
隨著機器學習模型在更大的數據樣本上訓練而成,它們的魯棒性更好、出錯也更少。但擴大模型規模似乎只能通過定量推理進行。研究人員意識到,對于語言模型所犯的錯誤似乎需要更有針對性的方法來解決。
去年,加州大學伯克利分校和OpenAI的兩個研究團隊分別發布了數據集MATH和GSM8K,這兩個數據集包含幾何、代數、初等數學等數千個數學問題。「我們想看看這是否是數據集的問題,」從事數學工作的AI安全中心研究員Steven Basart說。眾所周知,語言模型不擅長單詞問題,在這個問題上它們表現的有多糟糕,是否可以通過引入格式更好、更大的數據集來解決?
在MATH數據集上,頂級語言模型的準確率為7%,而人類研究生的準確率為40%,奧林匹克冠軍的準確率為90%。在GSM8K數據集上(小學級別的問題),模型達到了20%的準確率。實驗中OpenAI使用了微調和驗證這兩種技術,結果表明模型可以看到很多自身錯誤的例子,這一發現很有價值。
當時,OpenAI的模型需要在100倍以上的數據上進行訓練,才能在GSM8K上達到80%的準確率。但在今年6月,谷歌發布了Minerva,達到78%的準確率。這一結果超出了預期,研究者表示,比預想的時間來的更快。
論文地址:https://arxiv.org/pdf/2206.14858.pdf
Minerva基于谷歌自研的Pathways語言模型(PaLM),具有更多的數學數據集,包含arXiv、LaTeX等數學格式。Minerva還采用了其他策略,在思維鏈提示(chain-of-thought prompting)中,Minerva將更大的問題分解成小塊。此外,Minerva還使用多數投票(majority voting),不是要求模型給出一個答案,而是要求它提出100種答案。在這些答案中,Minerva選擇最常見的一種答案。
這些新策略的收益是巨大的,Minerva在MATH上的準確率高達50%,在GSM8K以及MMLU(包括化學和生物學在內的一組更通用的STEM問題)上的準確率接近80%。當Minerva被要求重做稍微調整過的問題時,它的表現同樣很好,這表明它的能力不僅僅是來自記憶。
Minerva可能有奇怪、混亂的推理,但仍然得出正確的答案。盡管像Minerva這樣的模型可能會得出與人類相同的答案,但它們所遵循的實際過程可能大不相同。
谷歌機器學習專家Ethan Dyer表示,「我認為存在這樣一種觀念,即數學相關人士有一些嚴格的推理系統,了解某事和不了解某事之間存在明顯的區別。」但人們給出的答案不一致,會犯錯誤,也無法應用核心概念。在機器學習前沿中,邊界是模糊的。
原文鏈接:https://spectrum.ieee.org/large-language-models-math







