加州大學(xué)伯克利分校、CMU、斯坦福大學(xué)和加州大學(xué)圣地亞哥分校的團(tuán)隊(duì)成員訓(xùn)練了一個(gè)新的開源離線版聊天機(jī)器人,稱之為Vicuna。
實(shí)在沒想到羊駝?dòng)心敲炊嘤H戚:vicu?a是南美的一種哺乳動(dòng)物,屬于駱駝科,包括美洲駝、羊駝和駱駝。它發(fā)現(xiàn)于秘魯、玻利維亞、智利和阿根廷的安第斯山脈。
vicu?a是一種小而優(yōu)雅的動(dòng)物,肩高約3英尺,體重約90磅。它的羊毛柔軟而細(xì)膩,質(zhì)量非常好,被認(rèn)為是世界上最好的天然纖維之一。vicu?a羊毛非常昂貴,經(jīng)常被用來制作高端奢侈服裝,如大衣、圍巾和披肩。
你可以直接從這里試用,當(dāng)然也可以自建:
https://chat.lmsys.org/
自建:https://github.com/lm-sys/FastChat
Vicuna英語原文地址:
https://vicuna.lmsys.org/
我們介紹了 Vicuna-13B,這是一種開源聊天機(jī)器人,通過微調(diào) LLaMA 對從 ShareGPT 收集的用戶共享對話進(jìn)行訓(xùn)練。使用 GPT-4 作為判斷的初步評估表明,Vicuna-13B 實(shí)現(xiàn)了 OpenAI ChatGPT 和 Google Bard 90% 以上的 * 質(zhì)量,同時(shí)在超過 90% * 的情況下優(yōu)于 LLaMA 和 Stanford Alpaca 等其他模型。培訓(xùn) Vicuna-13B 的費(fèi)用約為 300 美元。培訓(xùn)和服務(wù)代碼以及在線演示可公開用于非商業(yè)用途。
我們展示了羊駝和駱駝對基準(zhǔn)問題的回答示例。在使用 70K 用戶共享的 ChatGPT 對話對 Vicuna 進(jìn)行微調(diào)后,我們發(fā)現(xiàn)與 Alpaca 相比,Vicuna 能夠生成更詳細(xì)、結(jié)構(gòu)更合理的答案(參見下面的示例),并且質(zhì)量與 ChatGPT 相當(dāng)。
然而,評估聊天機(jī)器人絕非易事。隨著 GPT-4 的最新進(jìn)展,我們很好奇它的能力是否已經(jīng)達(dá)到了類似人類的水平,從而可以實(shí)現(xiàn)用于基準(zhǔn)生成和性能評估的自動(dòng)化評估框架。我們的初步發(fā)現(xiàn)表明,在比較聊天機(jī)器人的答案時(shí),GPT-4 可以產(chǎn)生高度一致的排名和詳細(xì)的評估(參見上面的 GPT-4 判斷示例)?;?GPT-4 的初步評估(如圖 1 所示)表明,Vicuna 實(shí)現(xiàn)了 Bard/ChatGPT 的 90% * 能力。雖然這個(gè)提議的框架顯示了自動(dòng)化聊天機(jī)器人評估的潛力,但它還不是一個(gè)嚴(yán)格的方法。為聊天機(jī)器人建立評估系統(tǒng)仍然是一個(gè)懸而未決的問題,需要進(jìn)一步研究。評估部分提供了更多詳細(xì)信息。
演示:
大型語言模型 (LLM) 的快速發(fā)展徹底改變了聊天機(jī)器人系統(tǒng),從而實(shí)現(xiàn)了前所未有的智能水平,如 OpenAI 的 ChatGPT 所示。然而,盡管性能令人印象深刻,但 ChatGPT 的訓(xùn)練和架構(gòu)細(xì)節(jié)仍不清楚,阻礙了該領(lǐng)域的研究和開源創(chuàng)新。受 Meta LLaMA 和 Stanford Alpaca 項(xiàng)目的啟發(fā),我們推出了 Vicuna-13B,這是一個(gè)開源聊天機(jī)器人,由增強(qiáng)的數(shù)據(jù)集和易于使用、可擴(kuò)展的基礎(chǔ)設(shè)施支持。通過根據(jù)從 ShareGPT.com 收集的用戶共享對話微調(diào) LLaMA 基礎(chǔ)模型,Vicuna-13B 與 Stanford Alpaca 等其他開源模型相比展示了具有競爭力的性能。這篇博文對 Vicuna-13B 的性能進(jìn)行了初步評估,并描述了其訓(xùn)練和服務(wù)基礎(chǔ)設(shè)施。我們還邀請社區(qū)與我們的在線演示進(jìn)行互動(dòng),以測試該聊天機(jī)器人的功能。
上圖 概述了我們的工作。首先,我們從 ShareGPT.com 收集了大約 7 萬個(gè)對話,ShareGPT.com 是一個(gè)用戶可以分享他們的 ChatGPT 對話的網(wǎng)站。接下來,我們增強(qiáng)了 Alpaca 提供的訓(xùn)練腳本,以更好地處理多輪對話和長序列。訓(xùn)練是在一天內(nèi)在 8 個(gè) A100 GPU 上使用 PyTorch FSDP 完成的。為了提供演示服務(wù),我們實(shí)現(xiàn)了一個(gè)輕量級(jí)的分布式服務(wù)系統(tǒng)。我們通過創(chuàng)建一組 80 個(gè)不同的問題并利用 GPT-4 來判斷模型輸出,對模型質(zhì)量進(jìn)行了初步評估。為了比較兩個(gè)不同的模型,我們將每個(gè)模型的輸出組合成每個(gè)問題的單個(gè)提示。然后將提示發(fā)送到 GPT-4,GPT-4 評估哪個(gè)模型提供更好的響應(yīng)。 LLaMA、Alpaca、ChatGPT 和 Vicuna 的詳細(xì)比較如下表 1 所示。
Vicuna 是通過使用從 ShareGPT.com 使用公共 API 收集的大約 70K 用戶共享對話微調(diào) LLaMA 基礎(chǔ)模型創(chuàng)建的。為了確保數(shù)據(jù)質(zhì)量,我們將 HTML 轉(zhuǎn)換回 markdown 并過濾掉一些不合適或低質(zhì)量的樣本。此外,我們將冗長的對話分成更小的部分,以適應(yīng)模型的最大上下文長度。
我們的訓(xùn)練方法建立在斯坦福羊駝的基礎(chǔ)上,并進(jìn)行了以下改進(jìn)。
-內(nèi)存優(yōu)化:為了使 Vicuna 能夠理解長上下文,我們將最大上下文長度從羊駝中的 512 擴(kuò)展到 2048,這大大增加了 GPU 內(nèi)存需求。我們通過利用梯度檢查點(diǎn)和閃存注意力來解決內(nèi)存壓力。
-多輪對話:我們調(diào)整訓(xùn)練損失以考慮多輪對話,并僅根據(jù)聊天機(jī)器人的輸出計(jì)算微調(diào)損失。
-通過 Spot 實(shí)例降低成本:40 倍大的數(shù)據(jù)集和 4 倍的訓(xùn)練序列長度對訓(xùn)練費(fèi)用提出了相當(dāng)大的挑戰(zhàn)。我們使用 SkyPilot 托管點(diǎn)來降低成本,方法是利用更便宜的點(diǎn)實(shí)例以及自動(dòng)恢復(fù)搶占和自動(dòng)區(qū)域切換。該解決方案將 7B 模型的訓(xùn)練成本從 500 美元削減至 140 美元左右,將 13B 模型的訓(xùn)練成本從 1000 美元左右削減至 300 美元。
我們構(gòu)建了一個(gè)服務(wù)系統(tǒng),該系統(tǒng)能夠使用分布式工作人員為多個(gè)模型提供服務(wù)。它支持來自本地集群和云的 GPU worker 的靈活插件。通過利用 SkyPilot 中的容錯(cuò)控制器和托管點(diǎn)功能,該服務(wù)系統(tǒng)可以很好地與來自多個(gè)云的更便宜的點(diǎn)實(shí)例一起工作,以降低服務(wù)成本。它目前是一個(gè)輕量級(jí)的實(shí)現(xiàn),我們正在努力將更多的最新研究成果集成到其中。
評估 AI 聊天機(jī)器人是一項(xiàng)具有挑戰(zhàn)性的任務(wù),因?yàn)樗枰獧z查語言理解、推理和上下文感知。隨著 AI 聊天機(jī)器人變得越來越先進(jìn),當(dāng)前的開放基準(zhǔn)可能不再足夠。例如,斯坦福羊駝使用的評估數(shù)據(jù)集,self-instruct,可以通過 SOTA 聊天機(jī)器人有效地回答,使得人類很難辨別性能差異。更多限制包括訓(xùn)練/測試數(shù)據(jù)污染和創(chuàng)建新基準(zhǔn)的潛在高成本。為了解決這些問題,我們提出了一個(gè)基于 GPT-4 的評估框架來自動(dòng)評估聊天機(jī)器人的性能。
首先,我們設(shè)計(jì)了八個(gè)問題類別,例如費(fèi)米問題、角色扮演場景和編碼/數(shù)學(xué)任務(wù),以測試聊天機(jī)器人性能的各個(gè)方面。通過仔細(xì)的提示工程,GPT-4 能夠生成基線模型難以解決的多樣化、具有挑戰(zhàn)性的問題。我們?yōu)槊總€(gè)類別選擇十個(gè)問題,并從五個(gè)聊天機(jī)器人收集答案:LLaMA、Alpaca、ChatGPT、Bard 和 Vicuna。然后,我們要求 GPT-4 根據(jù)有用性、相關(guān)性、準(zhǔn)確性和細(xì)節(jié)來評估他們答案的質(zhì)量。我們發(fā)現(xiàn) GPT-4 不僅可以產(chǎn)生相對一致的分?jǐn)?shù),而且可以詳細(xì)解釋為什么給出這樣的分?jǐn)?shù)(詳細(xì)示例鏈接)。但是,我們也注意到 GPT-4 不太擅長判斷編碼/數(shù)學(xué)任務(wù)。
上圖顯示了所有基線和 Vicuna 之間的比較結(jié)果。在超過 90% 的問題中,GPT-4 更喜歡 Vicuna 而不是最先進(jìn)的開源模型(LLaMA、Alpaca),并且它實(shí)現(xiàn)了與專有模型(ChatGPT、Bard)競爭的性能。在 45% 的問題中,GPT-4 將 Vicuna 的回答評為優(yōu)于或等于 ChatGPT 的回答。由于 GPT-4 在 10 分的范圍內(nèi)為每個(gè)回答分配了一個(gè)定量分?jǐn)?shù),我們通過將每個(gè)模型在 80 個(gè)問題上獲得的分?jǐn)?shù)相加來計(jì)算每個(gè)(基線,Vicuna)比較對的總分。如表 2 所示,Vicuna 的總分是 ChatGPT 的 92%。盡管最近取得了進(jìn)步,但這些聊天機(jī)器人仍然面臨局限性,例如難以解決基本的數(shù)學(xué)問題或編碼能力有限。
雖然這個(gè)提議的評估框架展示了評估聊天機(jī)器人的潛力,但它還不是一個(gè)嚴(yán)格或成熟的方法,因?yàn)榇笮驼Z言模型容易產(chǎn)生幻覺。為聊天機(jī)器人開發(fā)一個(gè)全面、標(biāo)準(zhǔn)化的評估系統(tǒng)仍然是一個(gè)需要進(jìn)一步研究的懸而未決的問題。
我們注意到,與其他大型語言模型類似,Vicuna 有一定的局限性。例如,它不擅長涉及推理或數(shù)學(xué)的任務(wù),并且在準(zhǔn)確識(shí)別自己或確保其輸出的事實(shí)準(zhǔn)確性方面可能存在局限性。此外,它還沒有得到充分優(yōu)化以保證安全性或減輕潛在的毒性或偏見。為了解決安全問題,我們使用 OpenAI 審核 API 來過濾掉在線演示中不適當(dāng)?shù)挠脩糨斎?。盡管如此,我們預(yù)計(jì) Vicuna 可以作為未來研究解決這些限制的開放起點(diǎn)。
在我們的第一個(gè)版本中,我們將在 GitHub 存儲(chǔ)庫上共享訓(xùn)練、服務(wù)和評估代碼: https://github.com/lm-sys/FastChat 。我們還發(fā)布了 Vicuna-13B 模型權(quán)重,請?jiān)诖颂幷业秸f明。沒有發(fā)布數(shù)據(jù)集的計(jì)劃。加入我們的 Discord 服務(wù)器并關(guān)注我們的 Twitter 以獲取最新更新。
在線演示是僅供非商業(yè)用途的研究預(yù)覽,受 LLaMA 模型許可、OpenAI 生成數(shù)據(jù)的使用條款和 ShareGPT 隱私慣例的約束。如果您發(fā)現(xiàn)任何潛在的違規(guī)行為,請聯(lián)系我們。
這是與來自多個(gè)機(jī)構(gòu)的合作者的共同努力,包括加州大學(xué)伯克利分校、CMU、斯坦福大學(xué)、加州大學(xué)圣地亞哥分校和 MBZUAI。
Students (alphabetical order):
Wei-Lin Chiang, Zhuohan Li, Zi Lin, Ying Sheng, Zhanghao Wu, Hao Zhang, Lianmin Zheng, Siyuan Zhuang, Yonghao Zhuang
Advisors (alphabetical order):
Joseph E. Gonzalez, Ion Stoica, Eric P. Xing
我們要感謝來自 BAIR 的 Xinyang Geng、Hao Liu 和 Eric Wallace;來自斯坦福羊駝團(tuán)隊(duì)的 Xuecheng Li 和 Tianyi Zhang 進(jìn)行了富有洞察力的討論和反饋。 BAIR 很快將發(fā)布另一篇博客文章,介紹他們在聊天機(jī)器人 Koala 上的同步工作。
總結(jié):
該視頻討論了如何使用CPU或GPU在本地計(jì)算機(jī)上運(yùn)行Vicuna模型。Vicuna模型是一個(gè)開源的聊天機(jī)器人,通過使用從共享GPT收集的用戶共享對話對Llama模型進(jìn)行微調(diào)來訓(xùn)練。根據(jù)作者的說法,Vicuna模型達(dá)到了90%的Chat JVD質(zhì)量,這是非常了不起的。作者還表示,Vicuna模型在90%以上的情況下能夠超越Glamor和Stanford Alpaca等模型,使其優(yōu)于現(xiàn)有模型。
研究人員使用GPT-4評估了不同的聊天機(jī)器人,它幾乎具有人類水平的能力。他們還使用不同的問題類別,如費(fèi)米問題、角色扮演場景、編碼數(shù)學(xué)任務(wù)等等,來評估聊天機(jī)器人的表現(xiàn)。Vicuna模型也進(jìn)行了優(yōu)化,以理解較長的上下文和多輪對話,從而在與聊天機(jī)器人的對話中獲得更好的能力和質(zhì)量。
該視頻的主要收獲是
1. Vicuna模型是一個(gè)開源的聊天機(jī)器人,通過使用從共享GPT收集的用戶共享對話對Llama模型進(jìn)行微調(diào)來訓(xùn)練。
2. Vicuna模型達(dá)到90%的聊天JVD質(zhì)量,并在90%以上的情況下優(yōu)于Glamor和Stanford Alpaca等模型。
3. 研究人員使用GPT-4評估了不同的聊天機(jī)器人,它幾乎具有人類水平的能力。
4. Vicuna模型經(jīng)過優(yōu)化,可以理解更長的上下文,上下文長度為2048。
5. Vicuna模型為多輪對話進(jìn)行了優(yōu)化,導(dǎo)致了更好的質(zhì)量和能力。
6. GPT-4被用作聊天機(jī)器人的評估工具,因?yàn)樗鼛缀蹙哂腥祟愃降哪芰?,使其更容易評估不同的模型。
7. Vicuna模型可供使用,提供培訓(xùn)和服務(wù)代碼,以及在線演示。
聯(lián)系客服