GPT-4應用的新篇章:幻象還是現實?-APP開發-火鷹科技

火鷹視角

關註互聯網,關註技術開發,透析與分享移動互聯網行業最新動態
當前位置: 網站首頁 > > GPT-4應用的新篇章:幻象還是現實?

GPT-4應用的新篇章:幻象還是現實?

時間:時間: 2023-05-31 14:59:23   閱讀: 次 分類:APP開發
人們對AI的認知有著許多誤區和歧義,而像ChatGPT和GPT-4這樣的大型語言模型(LLM)卻在全球範圍內引起了極大的關註。

五月二十四日,人們對AI的認知有著許多誤區和歧義,而像ChatGPT和GPT-4這樣的大型語言模型(LLM)卻在全球範圍內引起了極大的關註。這些功能強大的AI系統展現出迷人的魅力,但是,研究人員發現,很多人對它們的了解還只是皮毛。斯坦福大學的研究人員最近進行了壹項研究,結果表明,大型語言模型(LLM)具備的壹些能力可能被人們誤解了。他們發現,在選擇正確的指標來評估LLM時,其所謂的“湧現能力”會消失。 這項研究揭開了大型語言模型(LLM)神秘面紗,同時質疑了“規模是創造更好的大型語言模型唯壹途徑”的觀點。事實上,已經有壹些研究測試了大型語言模型(LLM)的湧現能力,該能力被定義為“在較小的模型中不存在,但在較大的模型中存在的能力”。簡單來說,機器學習模型在某些任務上表現隨意,直到其大小達到壹定的閾值。然而,我們需要註意的是,只有在選擇正確的評估指標後,大型語言模型(LLM)才會表現出這種湧現能力;否則,它們只是壹個普通的AI系統。如果妳看圖1,將會發現LLM表現出的湧現能力,在壹定範圍內,性能突然躍升,這進壹步說明了該研究的重要性。


大型語言模型(LLM)的湧現能力壹直備受矚目,研究表明在模型大小達到壹定閾值之前,其完成任務的性能保持在隨機水平。然而,當模型規模變大時,它們的性能會躍升並開始提高。研究人員對LaMDA、GPT-3、Gopher、Chinchilla和PaLM等具有1000多億個參數的大型語言模型(LLM)的湧現能力進行了研究,並使用了多種測試來了解它們在處理復雜語言任務方面的局限性。這項新研究對大型語言模型(LLM)所謂的湧現能力提出了不同的看法,指出湧現能力的觀察可能是由於指標選擇引起的,而不是規模。他們發現,在衡量任務性能時,壹些指標可能顯示出大規模的湧現能力,而另壹些則顯示出持續的改進。實際上,LLM模型輸出的令牌逐漸接近正確的令牌,但由於最終答案與基本事實不同,它們都被歸類為不正確,直到它們達到所有標記都是正確的閾值。因此,如果對相同的輸出使用不同的指標,湧現能力就會消失,LLM模型的性能也會平衡提高。這項研究結果將進壹步打破大型語言模型(LLM)神秘光環,同時也引發了人們對於“規模是創造更好的大型語言模型唯壹途徑”的觀點的質疑。


研究人員最近發現,在某些情況下,大型語言模型(LLM)表現出的湧現能力可能是由於缺乏足夠的測試數據。他們通過創建更大的測試數據集來驗證這壹點,並發現隨著測試數據量的增加,LLM模型的性能不再呈現出不穩定性。此外,研究人員還試圖將湧現能力應用於其他類型的深度神經網絡,如卷積神經網絡(CNN),結果證明在使用非線性指標評估LLM模型性能時,同樣會觀察到湧現能力的出現。

這項研究得出的結論對於了解LLM性能至關重要,因為它們可以幫助我們更好地理解擴大LLM模型規模的影響。壹些研究者認為規模是創造更好的LLM的唯壹途徑,但這項研究表明,湧現能力可能是研究人員選擇的產物,而不是特定任務上模型的基本屬性。這個結論將有助於鼓勵研究人員探索創建更小的LLM的替代方案,並且還可以為實驗室投資訓練新LLM提供更好的技術衡量和預測改進,以更好地評估更大LLM模型的效益和風險。

盡管只有大型科技公司才能負擔得起訓練和測試大型LLM的成本,但規模較小的公司也可以對較小的模型進行研究。有了這些指標,他們將能夠更好地探索這些較小的LLM的功能,並找到新的研究方向來改進它們。總之,這項研究為我們提供了壹個更加清晰的視角,幫助我們更好地了解LLM的性能,並激發了尋找創造更優秀LLM模型的替代方案的動力。

火鷹科技-移動應用開發/app開發/小程序開發
客服咨詢
立即報價
熱線電話
掃描二維碼
返回頂部
GPT-4應用的新篇章:幻象還是現實?-APP開發-火鷹科技