欧美成人影院在线电影,国产精品免费全部免费观看,久久这里有精品视频

OpenAI煉出最強(qiáng)數(shù)學(xué)解題模型，擊碎AI瞎說(shuō)的臭毛病

發(fā)布時(shí)間：2023-07-14 14:30瀏覽次數(shù)：

6月1日?qǐng)?bào)道，今天凌晨，OpenAI官方博客發(fā)布新的研究進(jìn)展，在數(shù)學(xué)推理能力上，研究人員正在通過(guò)過(guò)程監(jiān)督的獎(jiǎng)勵(lì)模型揪出大型語(yǔ)言模型的邏輯錯(cuò)誤。

大型語(yǔ)言模型在執(zhí)行復(fù)雜多步推理能力上有了很大提高，但有時(shí)候仍會(huì)產(chǎn)生邏輯錯(cuò)誤，這種錯(cuò)誤通常被稱(chēng)為“幻覺(jué)”。這也是阻礙通用人工智能時(shí)代到來(lái)的關(guān)鍵一步。

而這種幻覺(jué)現(xiàn)在有望被結(jié)果監(jiān)督、過(guò)程監(jiān)督的獎(jiǎng)勵(lì)模型打破。具體方法是，研究人員使用模型思維鏈的最終結(jié)果對(duì)結(jié)果監(jiān)督的獎(jiǎng)勵(lì)模型（ORM）進(jìn)行訓(xùn)練，而過(guò)程監(jiān)督的獎(jiǎng)勵(lì)模型（PRM）會(huì)接收思維鏈中每一步的反饋訓(xùn)練。

過(guò)程監(jiān)督相比于結(jié)果監(jiān)督的優(yōu)勢(shì)在于，它會(huì)直接獎(jiǎng)勵(lì)遵循一致的思維鏈模型，并且因?yàn)檫^(guò)程中的每個(gè)步驟都受到了精確的監(jiān)督，能指出發(fā)生錯(cuò)誤的確切位置，其結(jié)果也更容易被人類(lèi)解讀，因此可以更直接地獎(jiǎng)勵(lì)大型語(yǔ)言模型遵循人類(lèi)認(rèn)可的思維鏈。

OpenAI的研究人員對(duì)結(jié)果監(jiān)督和過(guò)程監(jiān)督進(jìn)行了更詳細(xì)的比較，他們使用了更強(qiáng)大的基礎(chǔ)模型GPT-4、更多的人類(lèi)反饋，并在MATH數(shù)據(jù)集上進(jìn)行了訓(xùn)練和測(cè)試?；谏鲜鰲l件，研究人員證明了，過(guò)程監(jiān)督的獎(jiǎng)勵(lì)模型能解決MATH測(cè)試集代表性子集中78.2%的問(wèn)題。

一、訓(xùn)練1.2萬(wàn)道數(shù)學(xué)題，大模型監(jiān)督小模型訓(xùn)練

在測(cè)試過(guò)程中，結(jié)果監(jiān)督可以在沒(méi)有人為干預(yù)的情況下提供，因?yàn)镸ATH數(shù)據(jù)集中的所有問(wèn)題都有可自動(dòng)檢查的答案。但過(guò)程監(jiān)督需要依靠人工數(shù)據(jù)標(biāo)注器來(lái)標(biāo)注模型生成的解決方案中每個(gè)步驟的重要性。

研究人員就在大規(guī)模和小規(guī)模兩種情況下進(jìn)行實(shí)驗(yàn)，在大規(guī)模訓(xùn)練下，研究人員基于GPT-4進(jìn)行微調(diào)，但這一情況下，過(guò)程監(jiān)督和獎(jiǎng)勵(lì)監(jiān)督的訓(xùn)練集數(shù)據(jù)沒(méi)有完全重合，無(wú)法直接比較。因此，研究人員對(duì)模型進(jìn)行了小規(guī)模訓(xùn)練以進(jìn)行直接比較。為了降低人工反饋的成本，他們使用大型語(yǔ)言模型來(lái)監(jiān)督小型語(yǔ)言模型訓(xùn)練。

在每個(gè)模型上，研究人員使用一個(gè)固定的模型來(lái)生成所有的解決方案，這個(gè)固定模型就是生成器。為了收集過(guò)程監(jiān)督數(shù)據(jù)，研究人員向人類(lèi)數(shù)據(jù)標(biāo)注器提供了大規(guī)模生成器采樣的數(shù)學(xué)問(wèn)題的解決方案步驟。

人類(lèi)數(shù)據(jù)標(biāo)注器就會(huì)為每個(gè)步驟分配一個(gè)Positive、Negative、Neutral的標(biāo)簽，Positive代表該步驟正確、合理，Negative代表不正確、不合理，Neutral表示有歧義。

Positive：這個(gè)問(wèn)題中，GPT-4在第7、8步時(shí)執(zhí)行猜測(cè)，這也是大型語(yǔ)言模型容易產(chǎn)生幻覺(jué)的常見(jiàn)地方，即聲稱(chēng)某個(gè)猜測(cè)是正確的，但這里沒(méi)有發(fā)生錯(cuò)誤：

Negative：下面這個(gè)問(wèn)題中，第七個(gè)步驟，GPT-4進(jìn)行了錯(cuò)誤的簡(jiǎn)化表達(dá)，獎(jiǎng)勵(lì)模型指出了錯(cuò)誤：

Neutral：第13步中，GPT-4試圖通過(guò)組合相似的項(xiàng)來(lái)簡(jiǎn)化等式，它將“12x”正確移動(dòng)到了左邊，并進(jìn)行了組合，右邊的項(xiàng)沒(méi)有改變，獎(jiǎng)勵(lì)模型沒(méi)有辨認(rèn)出這個(gè)錯(cuò)誤：

研究人員將這一帶有標(biāo)簽的步驟數(shù)據(jù)集稱(chēng)為PRM800K，包含針對(duì)12000個(gè)問(wèn)題，75000個(gè)解決方案以及80萬(wàn)步驟的標(biāo)簽。其中包含4500道MATH數(shù)據(jù)集中的問(wèn)題。

二、過(guò)程監(jiān)督整體效果優(yōu)于結(jié)果監(jiān)督，解決方案更多效果更好

結(jié)果監(jiān)督的獎(jiǎng)勵(lì)模型中，研究人員從生成器中為每個(gè)問(wèn)題均勻采樣固定數(shù)量的答案，并訓(xùn)練獎(jiǎng)勵(lì)模型預(yù)測(cè)每個(gè)答案是正確或不正確。實(shí)際操作過(guò)程中，研究人員會(huì)通過(guò)自動(dòng)檢查最終答案來(lái)確定正確性。并使用獎(jiǎng)勵(lì)模型在最終token處的預(yù)測(cè)作為解決方案的總體得分。

但這種自動(dòng)評(píng)分機(jī)制并不完全可靠，該機(jī)制無(wú)法對(duì)通過(guò)錯(cuò)誤推理得出正確答案的解決方案作出合理判斷。

過(guò)程監(jiān)督的獎(jiǎng)勵(lì)模型會(huì)預(yù)測(cè)每個(gè)步驟中最后一個(gè)token的正確性。如下圖所示，過(guò)程監(jiān)督的獎(jiǎng)勵(lì)模型對(duì)同一問(wèn)題的兩個(gè)解決方案評(píng)分，左邊的解決方案正確，右邊不正確。綠色標(biāo)注是高分?jǐn)?shù)，紅色標(biāo)注是低分?jǐn)?shù)，獎(jiǎng)勵(lì)模型能正確識(shí)別右邊解決方案中的錯(cuò)誤位置。

研究人員使用來(lái)自MATH測(cè)試集的問(wèn)題來(lái)評(píng)估其過(guò)程監(jiān)督和結(jié)果監(jiān)督獎(jiǎng)勵(lì)模型，為每個(gè)問(wèn)題生成許多解決方案，然后選擇每個(gè)獎(jiǎng)勵(lì)模型排名最高的解決方案。

下圖顯示了最終達(dá)到正確答案的所選解決方案的百分比，過(guò)程監(jiān)督獎(jiǎng)勵(lì)模型整體表現(xiàn)更好，并且隨著研究人員對(duì)每個(gè)問(wèn)題的解決方案考慮范圍擴(kuò)大，其性能差距也會(huì)擴(kuò)大。因此，研究人員認(rèn)為，過(guò)程監(jiān)督獎(jiǎng)勵(lì)模型更加可靠。

三、數(shù)學(xué)外224道問(wèn)題評(píng)估，過(guò)程監(jiān)督效果更優(yōu)

研究人員還研究了主動(dòng)學(xué)習(xí)的影響，他們估計(jì)主動(dòng)學(xué)習(xí)可以使過(guò)程監(jiān)督的數(shù)據(jù)效率提高2.6倍。

此外，為了探究獎(jiǎng)勵(lì)模型的泛化性，研究人員還對(duì)224道STEM問(wèn)題進(jìn)行了大規(guī)模的過(guò)程監(jiān)督、結(jié)果監(jiān)督評(píng)估，包括AP物理、AP微積分、AP化學(xué)、AMC10和AMC12考試，其中，過(guò)程監(jiān)督的表現(xiàn)優(yōu)于結(jié)果監(jiān)督。

并且過(guò)程監(jiān)督更有可能產(chǎn)生可解釋的推理，因?yàn)樗鼤?huì)鼓勵(lì)大型語(yǔ)言模型遵循人類(lèi)確認(rèn)的邏輯思考過(guò)程。

在某些情況下，更安全的人工智能系統(tǒng)方法會(huì)導(dǎo)致其性能下降，會(huì)產(chǎn)生對(duì)齊稅（alignment tax）成本，也就是大型語(yǔ)言模型要和人類(lèi)的價(jià)值觀對(duì)齊，這在一定程度上會(huì)約束大型語(yǔ)言模型的想象力。

OpenAI研究人員的結(jié)果表明，在數(shù)學(xué)領(lǐng)域，過(guò)程監(jiān)督實(shí)際上會(huì)產(chǎn)生負(fù)對(duì)齊稅。

目前尚不清楚這些結(jié)果能否完全推廣到數(shù)學(xué)以外的領(lǐng)域，但研究人員認(rèn)為，如果這些結(jié)果具有普遍性，過(guò)程監(jiān)督就提供了一種比結(jié)果監(jiān)督更高效、更一致的方法。

結(jié)語(yǔ)：AI可解釋性研究亟需加速

上個(gè)月，OpenAI用GPT-4來(lái)自動(dòng)解釋GPT-2的行為的研究打開(kāi)了大模型思考黑盒，此次，在數(shù)學(xué)推理能力上，研究人員又通過(guò)過(guò)程獎(jiǎng)勵(lì)模型使得大模型的思考過(guò)程變得可追蹤、可糾錯(cuò)，這些研究都使得AI的可解釋性有了更大的進(jìn)步空間。

從結(jié)果來(lái)看，過(guò)程監(jiān)督獎(jiǎng)勵(lì)模型的效果目前只在數(shù)學(xué)推理領(lǐng)域得到有效印證，但正如OpenAI的研究人員所說(shuō)，目前的研究方向?qū)τ谶^(guò)程監(jiān)督在其他領(lǐng)域的影響以及未來(lái)的工作很重要。這些研究未來(lái)可以讓大模型在內(nèi)容生成、理解上展現(xiàn)出強(qiáng)大能力的同時(shí)，其“思考過(guò)程”也能被檢測(cè)出是否有偏見(jiàn)或錯(cuò)誤，從而讓大模型的黑盒變得更加透明。

上一篇：重磅！北京正式打響大模型地方戰(zhàn)第一槍

下一篇：就在今晚！蘋(píng)果MR頭顯八大謎題將解開(kāi)

行業(yè)動(dòng)態(tài)

新聞中心

行業(yè)動(dòng)態(tài)

行業(yè)動(dòng)態(tài)

新聞中心

行業(yè)動(dòng)態(tài)

微信號(hào)：15221830078微信二維碼