首頁>股票 > 正文

      GPT-3、ChatGPT和GPT-4,一起做腦筋急轉(zhuǎn)彎

      2023-06-28 06:14:58    出處:夕小瑤科技說?

      一個烙餅煎一面一分鐘,兩個烙餅煎兩面幾分鐘?

      讓你來回答,是不是一不小心就掉到溝里了?如果讓大語言模型來做這種腦筋急轉(zhuǎn)彎會怎樣呢?研究發(fā)現(xiàn),模型越大,回答就越可能掉到溝里,即使是擁有千億參數(shù)的大模型也不能幸免。但是ChatGPT卻能很好回答這些問題。讓我們一起來看看吧。


      (資料圖片)

      腦筋急轉(zhuǎn)彎

      作者采用了CRT數(shù)據(jù)作為腦筋急轉(zhuǎn)彎的測試數(shù)據(jù)。該數(shù)據(jù)在心理學領域,廣泛地被用于衡量人類的思維習慣,判斷是否習慣于直覺思維。

      腦筋急轉(zhuǎn)彎數(shù)據(jù)示例

      如上圖所示,作者探索了3種CRT數(shù)據(jù)和1種語言邏輯陷阱。例如:

      CRT-1:蘋果和梨花了1塊1,蘋果比梨貴1塊,問梨花了多少錢?直覺答案:0.1塊 = 1.1-1,正確答案:0.05塊。

      CRT-2:5個人種5棵樹花5分鐘,10個人種10棵樹花多少分鐘?直覺答案:10分鐘,正確答案:5分鐘。

      CRT-3:培養(yǎng)皿中的細菌每分鐘擴增一倍面積,48分鐘可以填滿,問填滿一半要多久?直覺答案:24分鐘,正確答案:47分鐘。

      語言邏輯陷阱:剛上小學的小紅去參加高考,她會考幾科?直覺答案6科,正確答案:小學生不參加高考。

      模型表現(xiàn)

      模型表現(xiàn)如下圖所示,可以看到模型較小時,隨著模型增大,模型回答正確答案和直覺答案的比例在提高,回答無關(guān)答案的比例在下降。

      但隨著模型進一步增大,無關(guān)答案比例進一步下降,直覺答案比例進一步上升,正確答案比例卻不升反降。包括BLOOM、LLAMA、GPT-3在內(nèi)的大語言模型明顯掉入腦筋急轉(zhuǎn)彎的陷阱。即使是經(jīng)過指令調(diào)整與RLHF的text davinci-002/003也未能幸免。

      不同模型表現(xiàn)對比

      而在上圖中,經(jīng)過指令調(diào)整的ChatGPT與GPT-4,一下子正確答案的比例就高了許多。究竟是什么魔法使得ChatGPT的腦筋會轉(zhuǎn)彎呢?我們不得而知。

      下圖具體對比了GPT-3、ChatGPT,GPT-4在幾類不同的腦筋急轉(zhuǎn)彎的表現(xiàn),可以更加凸顯上述現(xiàn)象。

      不同腦筋急轉(zhuǎn)彎類型上的模型表現(xiàn)對比

      如果改換輸入形式會怎樣?下圖上為問答的形式,和上面的實驗相同。下圖中、下分別為多選、續(xù)寫的形式。可以看到,修改提問形式之后,正確率略有上升,但整體差別不大。

      下圖顯示,通過少監(jiān)督展示學習,GPT-3的正確率會有所上升。但即使展示到40個左右的樣本,準確率和無監(jiān)督的ChatGPT相比仍有差距,更不用說GPT-4了。

      結(jié)論

      這篇論文針對很有意思的一類問題,發(fā)現(xiàn)了大語言模型的一個很有意思的現(xiàn)象。作者也嘗試了多種方法,但無論是改變提問形式還是增加監(jiān)督數(shù)據(jù),GPT-3在腦筋急轉(zhuǎn)彎上的表現(xiàn)仍然難以達到ChatGPT的水平。究竟ChatGPT使用了怎樣的魔法讓模型的腦筋會轉(zhuǎn)彎呢?

      關(guān)鍵詞:

      相關(guān)內(nèi)容

      消費
      產(chǎn)業(yè)
      建信財險董事羅晶任職資格批復 環(huán)球視訊 建信財產(chǎn)保險有限公司:你公司《建信財產(chǎn)保險有限公司關(guān)于羅晶任職資格
      理想離理想還很遠 銷量和聲勢并不意味著一切。
      魅族20 Pro手機獲推Flyme10.0.2.2A穩(wěn)定版更新,優(yōu)化系統(tǒng)和游戲 全球熱推薦 IT之家6月26日消息,魅族向魅族20Pro手機推送了Flyme10 0 2 2A穩(wěn)定版系
      鷹之航:十余載技術(shù)積淀 捍衛(wèi)航空安全保障體系 證券時報網(wǎng)訊,近日,深交所披露公告顯示,專注于航空機載設備制造和維
      基金
      在线观看亚洲精品专区| 国产亚洲AV无码AV男人的天堂| 99久久精品国产亚洲| 亚洲国产精品99久久久久久| 精品久久亚洲中文无码| 亚洲xxxxxx| 91嫩草亚洲精品| 亚洲成人免费网站| 亚洲欧洲尹人香蕉综合| 亚洲成a人片在线观看中文!!! | 欧洲亚洲国产清在高| 亚洲精品国产精品乱码不99| 日日噜噜噜噜夜夜爽亚洲精品 | 亚洲蜜芽在线精品一区| 精品亚洲成a人片在线观看| 久久精品国产亚洲| 亚洲国产女人aaa毛片在线| 亚洲免费视频在线观看| 亚洲色图综合网站| 亚洲成a人片在线网站| 亚洲AV无码成人专区| 亚洲中文字幕乱码一区| 亚洲暴爽av人人爽日日碰| 亚洲av无码专区国产不乱码| 全亚洲最新黄色特级网站| 亚洲免费日韩无码系列| 国产亚洲精品自在线观看| 亚洲欧洲∨国产一区二区三区| 亚洲国产精品一区第二页| 亚洲AV日韩精品久久久久久| 亚洲图片一区二区| 亚洲欧洲日韩综合| 中国china体内裑精亚洲日本| 亚洲AV综合永久无码精品天堂| 亚洲成A∨人片天堂网无码| 国产亚洲精aa成人网站| 久久亚洲精品中文字幕三区| 亚洲精品在线免费观看视频| 亚洲首页国产精品丝袜| 337p日本欧洲亚洲大胆人人| 久久亚洲国产精品123区|