美女视频的网址,男朋友看美女视频,打晕美女视频

斯坦福最新LLM排行榜發(fā)布！自家Alpaca墊底，華人團(tuán)隊(duì)WizardLM開源第一，GPT-4、Claude穩(wěn)居前二

天承辦公室 >《023新智元說》

2023.06.16 北京

關(guān)注

新智元報(bào)道

編輯：好困

【新智元導(dǎo)讀】最近，來自斯坦福的研究人員提出一個(gè)基于大語言模型的全新自動(dòng)評估系統(tǒng)——AlpacaEval。不僅速度快、成本低，而且還經(jīng)過了2萬個(gè)人類標(biāo)注的驗(yàn)證。

前段時(shí)間，UC伯克利主導(dǎo)的「LLM排位賽」備受圈內(nèi)關(guān)注。

除了各類開源模型外，還有GPT-4、PaLM 2等眾多「閉源」模型，甚至還開設(shè)了一個(gè)「準(zhǔn)中文」排行榜。

最近，來自斯坦福的團(tuán)隊(duì)，也發(fā)布了一款LLM自動(dòng)評測系統(tǒng)——AlpacaEval，以及對應(yīng)的AlpacaEval Leaderboard。

在斯坦福的這個(gè)排行榜中，GPT-4依然以絕對領(lǐng)先的優(yōu)勢奪得第一，勝率超過了95%。

緊隨其后的是，勝率都在80%以上的Claude和ChatGPT。其中，Claude以不到3%的優(yōu)勢拿下第二，而ChatGPT則位列第三。

此次獲得第四名的，則是一位排位賽新人——微軟華人團(tuán)隊(duì)發(fā)布的WizardLM。

UC伯克利的Vicuna發(fā)揮依然穩(wěn)定，憑借著超過70%的勝率排在第六。

相比之下，斯坦福自己的Alpaca卻只排到了第16……

其實(shí)，團(tuán)隊(duì)自從原始的Alpaca推出以來，已經(jīng)做了不小的改進(jìn)——?jiǎng)俾蕪?6%提升到了44%，但依然距離領(lǐng)獎(jiǎng)臺很遠(yuǎn)。

對此，其中一位作者有些無奈地表示：「是不是我們哪里做的不對？」

AlpacaEval：易使用、速度快、成本低、經(jīng)過人類標(biāo)注驗(yàn)證

AlpacaEval把AlpacaFarm和Aviary進(jìn)行了結(jié)合。

一方面使用與AlpacaFarm相同的代碼（緩存/隨機(jī)排列/超參數(shù)），另一方面則使用類似于Aviary的排序提示。

與此同時(shí)，還對Aviary的提示進(jìn)行了修改，從而減少對較長輸出的偏見。

團(tuán)隊(duì)表示，AlpacaEval有著拔群的效果：

與人類多數(shù)票的一致性，高于單個(gè)人類標(biāo)注者
勝率與人類標(biāo)注高度相關(guān)（0.94）
相比于lmsys評測器，有顯著提升（從63%提高到69%）

勝率

模型的輸出在每個(gè)指令上優(yōu)于text-davinci-003（即參考文本）的比例。

具體而言，首先從AlpacaEval數(shù)據(jù)集中收集了期望模型在每個(gè)指令上的輸出對，并將每個(gè)輸出與相同指令下的參考模型（text-davinci-003）的輸出進(jìn)行配對。

隨后，把這些輸出同時(shí)喂給自動(dòng)評測器，讓它去判斷哪一個(gè)更好（也就是評測器的偏好）。

最后，將數(shù)據(jù)集中所有指令的偏好進(jìn)行平均，從而得到模型相對于text-davinci-003的勝率。如果兩個(gè)模型打平，那么就算半個(gè)偏好。

論文地址：https://arxiv.org/pdf/2305.14387.pdf

標(biāo)準(zhǔn)誤差

勝率的標(biāo)準(zhǔn)誤差（通過N-1進(jìn)行歸一化），即不同指令上的平均偏好。

不同評測器的對比

團(tuán)隊(duì)通過與收集的2.5K個(gè)人工標(biāo)注（每個(gè)指令平均包含4個(gè)人工標(biāo)注）進(jìn)行比較，評測了AlpacaEval數(shù)據(jù)集上的不同自動(dòng)標(biāo)注程序。

下面就是斯坦福的評測器（alpaca_eval_gpt4）、之前的自動(dòng)評測器（alpaca_farm_greedy_gpt4、aviary_gpt4、lmsys_gpt4）、人類（humans）以及不同基準(zhǔn)模型（gpt4、claude、text_davinci_003、guanaco_33b、chatgpt）的測試結(jié)果。

人類一致性：標(biāo)注者與交叉標(biāo)注集中人類多數(shù)票之間的一致性

為了估計(jì)單個(gè)人類標(biāo)注者（表格中的humans行）與多數(shù)人類之間的一致性，首先需要選取一個(gè)標(biāo)注，并計(jì)算其在預(yù)測其他3個(gè)標(biāo)注的眾數(shù)時(shí)的準(zhǔn)確率。

然后，將所有4個(gè)標(biāo)注和650個(gè)指令上的準(zhǔn)確率求平均，得到人類一致性，即計(jì)算預(yù)期的（對于人類和樣本）留一法一致性。如果眾數(shù)不唯一，我們隨機(jī)選擇其中一個(gè)眾數(shù)。

對于自動(dòng)標(biāo)注器，我們進(jìn)行完全相同的計(jì)算，以便最終的結(jié)果可以進(jìn)行比較。

價(jià)格：每1000個(gè)標(biāo)注的平均價(jià)格

對于人類來說，這是支付眾包工人進(jìn)行這些標(biāo)注的價(jià)格（每小時(shí)18美元）。如果價(jià)格取決于用于計(jì)算標(biāo)注的機(jī)器（例如Guanaco），則將其留空。

時(shí)間：計(jì)算1000個(gè)標(biāo)注所需的平均時(shí)間

對于人類來說，這是每個(gè)眾包工人標(biāo)注1000個(gè)示例所需時(shí)間的中位數(shù)。

對于自動(dòng)標(biāo)注器，這是運(yùn)行標(biāo)注所需的平均時(shí)間。值得注意的是，這可能取決于不同用戶的API限制以及集群正在處理的請求數(shù)量。

最后，為了進(jìn)一步改善自動(dòng)評測流程，團(tuán)隊(duì)發(fā)布了：

一個(gè)易于定制的流程
模型和自動(dòng)評測器的排行榜
分析自動(dòng)評測器的工具包
18K人類標(biāo)注
2K人類交叉標(biāo)注

局限性

雖然AlpacaEval提供了一個(gè)有用的比較模型，但它并不是一個(gè)全面的的模型能力評測系統(tǒng)，其局限性可以概括為以下三點(diǎn)：

指令比較簡單
評分時(shí)可能更偏向于風(fēng)格而非事實(shí)
沒有衡量模型可能造成的危害

參考資料：

https://tatsu-lab.github.io/alpaca_eval/

本站僅提供存儲服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊舉報(bào)。

打開APP，閱讀全文并永久保存查看更多類似文章

代碼大戰(zhàn)白熱化：WizardCoder挑落Bard及Claude，性能直追ChatGPT

萬字長文：LLM - 大語言模型發(fā)展簡史

LLMs之Vicuna：《Vicuna: An Open-Source Chatbot Impressing GPT-4 with 90%* ChatGPT Quality》翻譯與解讀

開源大型語言模型(llm)總結(jié)

微軟首次使用GPT-4進(jìn)行指令微調(diào)，新任務(wù)零樣本性能再提升

如何利用人工智能幫你做事：工具選擇指南

更多類似文章 >>

中文字幕理论片,69视频免费在线观看,亚洲成人app,国产1级毛片,刘涛最大尺度戏视频,欧美亚洲美女视频,2021韩国美女仙女屋vip视频

新智元報(bào)道

【新智元導(dǎo)讀】最近，來自斯坦福的研究人員提出一個(gè)基于大語言模型的全新自動(dòng)評估系統(tǒng)——AlpacaEval。不僅速度快、成本低，而且還經(jīng)過了2萬個(gè)人類標(biāo)注的驗(yàn)證。

AlpacaEval把AlpacaFarm和Aviary進(jìn)行了結(jié)合。

不同評測器的對比

【新智元導(dǎo)讀】最近，來自斯坦福的研究人員提出一個(gè)基于大語言模型的全新自動(dòng)評估系統(tǒng)——AlpacaEval。不僅速度快、成本低，而且還經(jīng)過了2萬個(gè)人類標(biāo)注的驗(yàn)證。

AlpacaEval把AlpacaFarm和Aviary進(jìn)行了結(jié)合。