首頁>理財 > 正文

      全球時訊:【花師小哲】當代煉金術(神經網絡)前沿(39)——人工人工智能?GPT-4背刺GPT-5?

      2023-06-23 19:10:27    出處:嗶哩嗶哩

      今天講下前不久小火的一篇論文:

      看標題就有點奇怪,人工智能怎么就套起娃來了?甚至有些文章根據這篇文章說明GPT-4有可能背刺GPT-5,這又是怎么回事呢?

      這篇專欄就不細講這篇論文了,而是展開說說一些事情。


      (資料圖片)

      1.眾包標注與黃金標準

      稍微熟悉機器學習的人應該都知道,監督學習是機器學習中非常重要的組成部分,監督學習所需要的數據集分為數據和標簽。

      其實很好理解,對于一張圖片,我們可以把它標注為“貓”或者“狗”,這樣,("貓的圖片","貓")就是可以在監督學習中使用的數據了。如果我們有了大量的這樣的數據對,我們就可以“教”我們的模型區分一張圖片是貓還是狗。

      但是這遇到了一個問題,即我們日常中的圖片不會自己就帶著一個標簽記錄著“貓”或者“狗”(至少在第一個貓狗分類器出現之前),于是我們就需要標注,就是讓人來給這些數據賦予一個標簽。

      一般來說,人類進行標注的標簽就成為黃金標準,AI就是要向黃金標準看齊。

      但是,強AI就需要更多標注數據,雖然現在很多無監督方法的應用使得AI發展迅速,誕生出ChatGPT這樣的東西,但ChatGPT在很多領域仍然比不過監督模型或微調小模型,畢竟全部能做也意味著很多方面都不能兼顧。這些標注數據可不是幾十上百個數據小打小鬧,往往都大的離譜,幾十萬往上都是常態。研究者自己一一標注往往是不現實的,找好友、志愿者也許可以,但在現在這種到處都需要標注數據的情況下也不好用。

      于是,就有了眾包標注,就是有專門的公司接受標注請求并讓旗下的一些外包標注員進行標注。

      但是,眾包標注的問題是,標注經常出現不準的情況。畢竟這些工作者也不是什么領域都懂,而數據則是千變萬化,甚至有專業論文提取摘要這樣的工作。但是一般來說問題也不算大,數據集存在一定噪聲是很正常的

      2.ChatGPT與GPT-4 VS 眾包標注者

      2022年11月底,那個模型它發布了,沒錯,就是ChatGPT,這個模型在很短的時間內就大范圍地改變了自然語言處理的游戲規則,關于ChatGPT的研究也迅速擴展到我們生活的方方面面。之后出現的GPT-4則更是強大,在很多測試中都碾壓ChatGPT(最近有消息說GPT-4可能是8*2200億參數,這個消息還沒坐實,大家就先吃瓜等)

      之前就有一篇論文經過對比發現,在一些情況下,GPT-4標注的準確率已經比眾包標注要高了。

      而且,GPT-4還有很多優勢,例如速度。畢竟我們調用GPT-4的API是可以開多線程的,計算也不需要在本地,就等著OpenAI那邊給反饋,可以標注的非???。

      3.人工人工人工智能

      但是,GPT-4畢竟頂多算是通用人工智能的曙光,很多時候還是比不過人類的,很多眾包標注的使用者還是希望能夠得到人工標注的數據集的。

      但是,眾包公司當然可以為了利潤而采用GPT-4進行標注而不使用人工(怎么說的跟黑作坊一樣,不過很多眾包標注者的待遇其實并不好,眾包標注本身就值得吐槽)。即使眾包公司不這樣做,眾包標注者也可能使用GPT-4來輔助自己標注或直接讓GPT-4做一部分標注。

      再加上現在我們依然沒有很好的方法來區分AI生產的文本和人類文本。

      沒錯,這篇論文就調查說在一些領域,可能33–46%的數據已經是AI標注了(具體細節就不說了)

      既然基于人類標注的數據訓練出來的模型是人工智能,那基于人工智能標注的數據訓練出來的模型就是人工人工智能了,然后就可以套娃了。

      人工人工人工智能存在的問題是,這樣的模型可能越來越偏離人類,畢竟很多研究都在表明AI的輸出分布和人類語言的分布是不一樣的,考慮到還有自蒸餾這樣的東西和蝴蝶效應等,套娃越多,模型越有可能走偏。

      4.GPT-4背刺GPT-5?

      不僅僅是標注數據,非標注數據也可能會受到影響。

      我們知道GPT的訓練數據只需要從網上扒文本就可以了,不需要標注。但是ChatGPT和GPT-4出現后,網上也開始充滿了AI生成的文本,例如知乎上就有人用GPT-4來自動回答問題(已經有封號的了),這甚至會誤導new bing。

      也就是說,如果我們不能有足夠的手段來區分人類文本和AI生成的文本,那么GPT-5的語料庫中將包含大量GPT-4生成的文本,這很有可能會影響GPT-5的性能。甚至通用人工智能將提前殺青,強行腰斬。

      5.總結

      也不知道該說些什么,就希望眾包工作者的待遇能好一些吧。

      關鍵詞:

      消費
      產業
      2023阿那亞戲劇節今日開幕,看阿那亞玩轉品牌合作新模式 6月15日,2023年阿那亞戲劇節開幕式在秦皇島北戴河新區阿那亞戲劇大本營舉行。為期11
      湯湯租賃app:加大了對數字化租賃行業探索力度 租賃公司與尖端數字技術能擦出什么樣的火花?事實上,近年來,租賃公司已將數字化作為
      FAENZA法恩莎榮獲“2023中國智能衛浴美學先鋒”獎 6月7日,以智凈美好 愜意空間 為主題的2023中國智能衛浴行業趨勢沙龍在上海舉行,來
      四川智慧八小時睡眠科技研究院祝賀美國貓牌(中國)開業 大家好!今天,我要和大家分享一個好消息——美國貓牌(中國)正式開業啦!作為一家致
      基金
      亚洲成年人电影在线观看| 精品国产亚洲一区二区三区 | 亚洲国产天堂久久综合网站| 久久精品亚洲乱码伦伦中文| 亚洲日本在线电影| 亚洲视频免费一区| 亚洲av日韩综合一区在线观看| 亚洲精品色午夜无码专区日韩| 国产精品亚洲专区一区| 风间由美在线亚洲一区| 亚洲色偷精品一区二区三区| 亚洲av极品无码专区在线观看| 亚洲第一成年网站大全亚洲| 亚洲福利视频网址| 亚洲狠狠狠一区二区三区| 亚洲综合激情视频| 亚洲精彩视频在线观看| 亚洲综合图片小说区热久久| 亚洲成av人片在线看片| 国产成人精品日本亚洲专一区| 亚洲色大成WWW亚洲女子| 亚洲av纯肉无码精品动漫| 国产成人va亚洲电影| 亚洲欧洲中文日韩av乱码| 成人午夜亚洲精品无码网站| 亚洲国产成人片在线观看| 亚洲天堂男人天堂| 久久精品国产亚洲AV无码偷窥| 亚洲国产高清在线| 亚洲图片激情小说| 亚洲va在线va天堂成人| 中文字幕无码精品亚洲资源网久久| 亚洲精品av无码喷奶水糖心| 欧洲亚洲综合一区二区三区| 亚洲精品人成无码中文毛片| 亚洲精品国产精品乱码不99| 久久精品国产亚洲av高清漫画 | 国产日韩成人亚洲丁香婷婷| 国产亚洲色婷婷久久99精品91| 国产AV无码专区亚洲AVJULIA| 亚洲视频一区二区在线观看|