<legend id="axlin"><track id="axlin"></track></legend>

        <cite id="axlin"><rp id="axlin"><pre id="axlin"></pre></rp></cite>
          精品无码久久久久久久久久,精品国产美女福到在线不卡,亚洲成人www,亚洲AV无码破坏版在线观看,国产精品综合一区二区三区,久久亚洲精品11p,风韵丰满妇啪啪区老老熟女杏吧,国产精品免费久久久免费
          熱搜: 佳士科技  irobot  工業機器人  機器人  ABB  機器人產業聯盟  發那科  機械手  機器人展覽  碼垛機器人 

          谷歌、OpenAI學者談AI:語言模型正在努力“攻克”數學

             日期:2022-11-02     來源:機器之心     評論:0    
          標簽: AI 語言 數學
            AI到底擅不擅長數學,還得具體問題具體分析。
           
            如果問計算機擅長什么,在所有的答案里,數學必須榜上有名。在經歷了漫長的研究之后,頂尖學者們在研究計算機關于數學計算方面的發展,取得了令人驚訝的成績。
           
            就拿去年來說,來自加州大學伯克利分校、OpenAI和Google的研究人員在語言模型方面取得了長足的進步,GPT-3、DALL·E 2等被開發出來。然而,直到現在,語言模型還無法解決一些簡單的、用語言描述的數學問題,例如「Alice比Bob多五個球,Bob在給Charlie四個球后有兩個球。問Alice有幾個球?」這對語言模型來說,想要給出正確答案,可能就有點「吃力」了。
          微信圖片_20221102092849
            「當我們說計算機非常擅長數學時,意思是它們非常擅長特定的、具體的事情,」來自谷歌的機器學習專家Guy Gur-Ari表示。計算機擅長算術是不假,但在特定的模式之外,計算機就無能為力了,簡單的文字描述題都回答不了。
           
            谷歌研究員Ethan Dyer曾經表示:做數學研究的人有一套僵化的推理系統,對于他們熟知的和不了解的內容,這兩者之間有著明顯的鴻溝。
           
            解決文字問題或定量推理問題很棘手,因為不同于其他問題,這兩者需要魯棒性和嚴謹性。如果過程中的任何一步出現錯誤,將會導致錯誤的答案。DALL·E在繪畫方面令人印象深刻,盡管它生成的圖像有時會很奇怪,可能遺漏人的手指、眼睛長得奇怪……這些我們都能接受,但是它在數學方面出現了錯誤,我們的容忍度就會非常小。來自OpenAI的機器學習專家Vineet Kosaraju也曾表達過這種想法,「我們對語言模型所犯的數學錯誤(比如將10誤解為1和0,而不是10)容忍性還是比較小的。」
           
            「我們研究數學僅僅是因為我們發現它獨立且非常有趣,」OpenAI機器學習專家Karl Cobbe說。
           
            隨著機器學習模型在更大的數據樣本上訓練而成,它們的魯棒性更好、出錯也更少。但擴大模型規模似乎只能通過定量推理進行。研究人員意識到,對于語言模型所犯的錯誤似乎需要更有針對性的方法來解決。
           
            去年,加州大學伯克利分校和OpenAI的兩個研究團隊分別發布了數據集MATH和GSM8K,這兩個數據集包含幾何、代數、初等數學等數千個數學問題。「我們想看看這是否是數據集的問題,」從事數學工作的AI安全中心研究員Steven Basart說。眾所周知,語言模型不擅長單詞問題,在這個問題上它們表現的有多糟糕,是否可以通過引入格式更好、更大的數據集來解決?
           
            在MATH數據集上,頂級語言模型的準確率為7%,而人類研究生的準確率為40%,奧林匹克冠軍的準確率為90%。在GSM8K數據集上(小學級別的問題),模型達到了20%的準確率。實驗中OpenAI使用了微調和驗證這兩種技術,結果表明模型可以看到很多自身錯誤的例子,這一發現很有價值。
           
            當時,OpenAI的模型需要在100倍以上的數據上進行訓練,才能在GSM8K上達到80%的準確率。但在今年6月,谷歌發布了Minerva,達到78%的準確率。這一結果超出了預期,研究者表示,比預想的時間來的更快。
           
            論文地址:https://arxiv.org/pdf/2206.14858.pdf
           
            Minerva基于谷歌自研的Pathways語言模型(PaLM),具有更多的數學數據集,包含arXiv、LaTeX等數學格式。Minerva還采用了其他策略,在思維鏈提示(chain-of-thought prompting)中,Minerva將更大的問題分解成小塊。此外,Minerva還使用多數投票(majority voting),不是要求模型給出一個答案,而是要求它提出100種答案。在這些答案中,Minerva選擇最常見的一種答案。
           
            這些新策略的收益是巨大的,Minerva在MATH上的準確率高達50%,在GSM8K以及MMLU(包括化學和生物學在內的一組更通用的STEM問題)上的準確率接近80%。當Minerva被要求重做稍微調整過的問題時,它的表現同樣很好,這表明它的能力不僅僅是來自記憶。
           
            Minerva可能有奇怪、混亂的推理,但仍然得出正確的答案。盡管像Minerva這樣的模型可能會得出與人類相同的答案,但它們所遵循的實際過程可能大不相同。
           
            谷歌機器學習專家Ethan Dyer表示,「我認為存在這樣一種觀念,即數學相關人士有一些嚴格的推理系統,了解某事和不了解某事之間存在明顯的區別。」但人們給出的答案不一致,會犯錯誤,也無法應用核心概念。在機器學習前沿中,邊界是模糊的。
           
            原文鏈接:https://spectrum.ieee.org/large-language-models-math
           
           
          聲明:凡資訊來源注明為其他媒體來源的信息,均為轉載自其他媒體,并不代表本網站贊同其觀點,也不代表本網站對其真實性負責。您若對該文章內容有任何疑問或質疑,請立即與中國機器人網(www.joyeartt.com.cn)聯系,本網站將迅速給您回應并做處理。
          電話:021-39553798-8007
          更多>相關資訊
          0相關評論

          推薦圖文
          推薦資訊
          點擊排行
          ?
          主站蜘蛛池模板: 视频一区视频二区视频三| 国产偷人妻精品一区二区在线| 97se亚洲综合自在线| 成人午夜大片免费看爽爽爽| 黄色三级亚洲男人的天堂| 国产成人高清亚洲综合| 精品无码成人久久久久久| 亚洲精品成人福利网站| 日本久久高清一区二区三区毛片| 久久国产精品不只是精品| 在线精品亚洲区一区二区| 亚洲大尺度无码无码专线| 欧美z0zo人禽交另类视频| 国产成人午夜精品影院| 真实国产熟睡乱子伦视频| 特黄特色的大片观看免费视频 | 特黄大片又粗又大又暴| 国产精品成人综合色在线| 久久精品国产九一九九九| 国产成人免费| 日本黄漫动漫在线观看视频| 成人毛片100免费观看| 国产高清亚洲一区亚洲二区| 熟女熟妇乱女乱妇综合网| 五月综合婷婷开心综合婷婷| 色九月亚洲综合网| 77se77亚洲欧美在线| 成人亚洲av免费在线| 鲁大师在线视频播放免费观看 | 精品无码久久久久国产电影| 国产欧美另类久久久精品不卡| 亚洲国产日韩一区三区| 人妻熟女欲求不满在线| 中文在线天堂中文在线天堂| 日韩中文字幕人妻精品| 亚洲加勒比久久88色综合| 精品久久久bbbb人妻| 国产女人喷潮视频免费| 台州市| 久久成人国产精品免费软件| 99精品国产一区二区电影|