性感美女香蕉视频,美女跳舞性感的视频,欧洲美女视频一级

開源大型語言模型(llm)總結

醫(yī)學abeycd >《人工智能》

2023.09.05 湖北

關注

大型語言模型（LLM）是人工智能領域中的一個重要研究方向，在ChatGPT之后，它經歷了快速的發(fā)展。這些發(fā)展主要涉及以下幾個方面：

模型規(guī)模的增長：LLM的規(guī)模越來越大，參數(shù)數(shù)量顯著增加。這種擴展使得模型能夠處理更復雜、更長的輸入序列，并生成更準確、更具連貫性的輸出。同時，更大規(guī)模的模型還能夠涵蓋更廣泛的知識和語言上下文，提供更全面的回答和解決方案。
領域專精化：LLM在不同領域的專精化得到了進一步的發(fā)展。研究人員通過對特定領域的訓練數(shù)據(jù)進行更多的優(yōu)化，使得模型在特定領域的問答、文本生成等任務中表現(xiàn)更出色。這使得LLM能夠為特定行業(yè)或專業(yè)領域提供更精準的支持和咨詢。
提升對語義理解和推理能力：研究人員致力于提高LLM對語義理解和推理的能力。通過引入更多的上下文信息、關聯(lián)知識和邏輯推理機制，LLM能夠更好地理解復雜問題，進行推理和分析，并給出更深入、準確的回答。
模型訓練的效率和速度提升：研究人員提出了一系列技術來提高LLM的訓練效率和推理速度。例如，采用分布式訓練方法，利用多臺計算機進行并行訓練，加快模型收斂速度。此外，還有一些壓縮和加速技術，可以在保持性能的同時減少模型的計算資源消耗。
理解和應對偏見：LLM的發(fā)展也關注了如何更好地理解和應對模型中的偏見。研究人員努力解決模型在生成結果時可能存在的性別、種族、文化等偏見問題，以確保模型的輸出更加公正和中立。

本文將總結目前能見到的所有開源的大語言模型。

Falcon-40B-Instruct

Falcon-40B- instruct是TII基于Falcon-40B構建的40B參數(shù)因果解碼器模型，在Baize上進行微調。

位于阿布扎比的技術創(chuàng)新研究所(TII)宣布了其開源大型語言模型(LLM)——Falcon-40B。Falcon-40B擁有400億個參數(shù)，是阿聯(lián)酋首個大型人工智能模型，表明了該國在人工智能領域的雄心以及推動創(chuàng)新和研究的承諾。

與大多數(shù)llm(通常只向非商業(yè)用戶提供訪問)不同，F(xiàn)alcon-40B對研究和商業(yè)用途都開放。TII還將模型的權重包含在開源包中，這將增強模型的功能并允許更有效的微調。

自2023年3月亮相以來，F(xiàn)alcon-40B的表現(xiàn)令人印象深刻。當使用斯坦福大學的HELM工具進行基準測試時，與OpenAI的GPT-3、DeepMind的Chinchilla AI和谷歌的PaLM-62B等其他知名模型相比，它使用的訓練計算能力更少。

Vicuna

Vicuna是一個開源聊天機器人，通過從ShareGPT收集的用戶共享對話進行訓練。使用GPT-4作為評判的初步評估顯示，Vicuna-13B的質量達到了OpenAI ChatGPT和Google Bard的90%以上，訓練Vicuna-13B的費用約為300美元。代碼和權重以及在線演示都是公開的，可供非商業(yè)用途。

在對Vicuna與70K用戶共享的ChatGPT對話進行微調后，我們發(fā)現(xiàn)與Alpaca相比，Vicuna能夠生成更詳細和結構良好的答案，質量與ChatGPT相當。

Vicuna是通過微調LLaMA基礎模型創(chuàng)建的，該模型使用了從ShareGPT收集的大約70K用戶共享對話和公共api。

訓練也有以下改進。

內存優(yōu)化:將最大上下文長度從512擴展到2048，通過利用梯度檢查點和flash attention解決內存壓力。

多輪對話:調整訓練損失以考慮多輪對話，并僅根據(jù)聊天機器人的輸出計算微調損失。

通過Spot實例降低成本:使用SkyPilot管理的spot來降低成本，利用更便宜的spot實例來自動恢復搶占和自動區(qū)域切換。這個解決方案將訓練7B模型的成本從500美元削減到140美元左右，將訓練13B模型的成本從1000美元左右削減到300美元左右。

Alpaca

Alpaca，在Meta的LLaMA 7B模型上進行了微調。使用text-davinci-003以自指導的方式生成52K指令跟隨LLaMA 模型。在評估集上，Alpaca表現(xiàn)出許多與OpenAI的text- davincic -003相似的行為，但但是他卻非常的小，且易于地復制。

下圖說明了Alpaca是如何訓練的。

使用HuggingFace的訓練框架對LLaMA模型進行了微調，利用了完全分片數(shù)據(jù)并行和混合精確訓練等技術。在8臺80GB的a100上微調7B LLaMA模型花了3個小時，在大多數(shù)云計算提供商那里，a100的成本不到100美元。

LLaMA

LLaMA(Large Language Model Meta AI)，一個最先進的基礎大型語言模型，旨在幫助研究人員推進他們在人工智能這一子領域的工作。

與其他大型語言模型一樣，LLaMA的工作方式是將單詞序列作為輸入，并預測下一個單詞以遞歸地生成文本。從使用人數(shù)最多的20種語言中選擇了文本，重點關注那些帶有拉丁和西里爾字母的語言

在大多數(shù)基準測試中，LLaMA- 13b優(yōu)于GPT-3(175B)，而LLaMA- 13b優(yōu)于GPT-3(175B)，而65B與Chinchilla-70B和PaLM-540B類似。

GPT J

gpt - j6b是使用Ben Wang的Mesh Transformer JAX訓練的Transformer 模型?！癎PT-J”表示模型的類別，“6B”表示可訓練參數(shù)的個數(shù)。模型共28層，模型維數(shù)為4096，前饋維數(shù)為16384。模型維度被分成16個頭，每個頭的維度為256。該模型使用50257的標記化詞匯表進行訓練，使用與GPT-2/GPT-3相同的bp集。該模型由EleutherAI發(fā)布。GPT-J的核心功能是獲取一串文本并預測下一個令牌。

GPT-J是在Pile上訓練的，這是一個已知包含褻瀆、猥褻和其他粗暴語言的數(shù)據(jù)集。所以GPT-J可能會產生社會上不可接受的文本。

Dolly

Databricks的Dolly-V2-12B，一個在Databricks機器學習平臺上訓練的大型語言模型?；赑ythia-12B, Dolly接受了約15k條指令/響應調優(yōu)記錄，這些記錄是由Databricks員工在基于InstructGPT論文領域中生成的，包括頭腦風暴、分類、封閉QA、生成、信息提取、開放QA和總結。

總結

大型語言模型在ChatGPT以后經歷了快速的發(fā)展。這些發(fā)展包括模型規(guī)模的增加、領域專精化、語義理解和推理能力的提升、訓練效率和速度的提高，以及對偏見的理解和應對等方面。除了以上6個比較好的開源大語言模型外，還有各種不同版本，所以HuggingFace創(chuàng)建了一個排行榜（leaderboard）

有興趣的可以看看：

https://avoid.overfit.cn/post/a4da1098db9d4bf4b00365b28c201db9

作者：Varun Mathur

本站僅提供存儲服務，所有內容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權內容，請點擊舉報。

打開APP，閱讀全文并永久保存查看更多類似文章

萬字長文：LLM - 大語言模型發(fā)展簡史

LLMs之Vicuna：《Vicuna: An Open-Source Chatbot Impressing GPT-4 with 90%* ChatGPT Quality》翻譯與解讀

微軟首次使用GPT-4進行指令微調，新任務零樣本性能再提升

一文解決所有「語言模型」疑問：能不能訓多個epoch？怎么微調效率高？需要多少條數(shù)據(jù)？

UC頭條：低成本開源聊天機器人Vicuna：可達到ChatGPT/Bard 90%以上水平

實現(xiàn)92%的GPT4能力的離線版ChatGPT——Vicuña（駱馬？）大部分由中國人貢獻

更多類似文章 >>