动漫美女不穿衣服视频,杨幂醉酒视遭强视频在线,操清纯美女视频

重磅！OpenAI被“Open”！GPT-4可復(fù)制！

e_shannon >《待分類》

2023.07.17 上海

關(guān)注

“OpenAI并沒有魔法，他們所構(gòu)建的東西是可復(fù)制的。”

——先問大模型技術(shù)團(tuán)隊(duì)

就在今日，被人們吐槽“不夠open”的OpenAI，被業(yè)內(nèi)大神扒了個(gè)底兒掉！

大神此次公開的信息包括GPT-4的架構(gòu)、訓(xùn)練和推理的基礎(chǔ)設(shè)施、參數(shù)量、訓(xùn)練數(shù)據(jù)集、token數(shù)量、運(yùn)維成本、以及使用的混合專家模型（Mixture of Experts，MoE）等非常具體的參數(shù)與細(xì)節(jié)。

在這些信息中，我們可以看到OpenAI在面對(duì)不同工程背后如何進(jìn)行權(quán)衡，以及在巨型模型推理時(shí)，如何跨越其中最大的瓶頸。

而這些細(xì)節(jié)的公開，無疑是給了業(yè)界一個(gè)研究和學(xué)習(xí)OpenAI技術(shù)的機(jī)會(huì)。

01

是誰在揭開GPT的秘密？

那么，這些重磅的信息是從何而來的呢？

爆料的來源是SemiAnalysis的兩位名叫Dylan Patel和Gerald Wong的撰稿人。他們?cè)谖恼轮性敿?xì)介紹了這些關(guān)于GPT-4的具體信息。

值得一提的是，身為Semi Analysis首席分析師的Dylan Patel，并不是第一次引發(fā)業(yè)界軒然大波。他此前還曾經(jīng)參與了谷歌內(nèi)部文件的泄漏事件。那份文件中提到，“我們沒有護(hù)城河，OpenAI也沒有”，引發(fā)了業(yè)界對(duì)于大公司競(jìng)爭(zhēng)和AI安全的熱烈討論。

Semi Analysis首席分析師Dylan Patel

這次的泄露事件得到了DeepMind的首席執(zhí)行官Hassabis的確認(rèn)，他在接受The Verge的采訪時(shí)，確認(rèn)了這份由谷歌工程師泄露的文件的真實(shí)性。

這也證明了Dylan Patel具有一些特殊的信息獲取渠道，這使得我們有理由相信這次關(guān)于GPT-4的爆料同樣具有相當(dāng)?shù)恼鎸?shí)性。

總的來說，這次的信息給了我們一次深入了解OpenAI最新技術(shù)的機(jī)會(huì)。我們期待看到這些信息將如何影響AI領(lǐng)域的發(fā)展和變革。

02

GPT-4的模型參數(shù)達(dá)1.8萬億

GPT-4，OpenAI的最新大規(guī)模語言模型，顯示出一系列引人注目的特性。首先，它的規(guī)模令人震驚，模型參數(shù)達(dá)到1.8萬億，分布在120層中，相比其前任GPT-3增長(zhǎng)了十倍以上。

先前外界猜測(cè)的GPT-4參數(shù)量

在模型構(gòu)建過程中，OpenAI采用了混合專家（MoE）模型以保持成本在合理范圍內(nèi)。GPT-4使用了16個(gè)專家模型，每個(gè)專家模型的MLP大約有1110億個(gè)參數(shù)。

其路由算法簡(jiǎn)潔高效，能將每個(gè)標(biāo)記路由到專家模型的決策依據(jù)，并不復(fù)雜，有大約550億個(gè)共享參數(shù)用于注意力。值得注意的是，在執(zhí)行每次向前傳播推斷時(shí)，GPT-4只使用大約2,800億個(gè)參數(shù)，這相比純密集模型的1.8萬億參數(shù)更為經(jīng)濟(jì)。

03

數(shù)據(jù)及訓(xùn)練方式

在數(shù)據(jù)方面，GPT-4的訓(xùn)練數(shù)據(jù)達(dá)到了13萬億個(gè)token，包括文本和代碼數(shù)據(jù)，以及來自ScaleAI和OpenAI內(nèi)部的大量微調(diào)數(shù)據(jù)。在預(yù)訓(xùn)練階段，token設(shè)為8,000，之后在微調(diào)階段將token增加到32,000。

訓(xùn)練過程中，OpenAI使用了批處理的方式。批處理大小在早期逐步增大，最后達(dá)到了6,000萬，這對(duì)于GPU資源的利用極具效率。

04

并行處理技術(shù)與訓(xùn)練成本

為了在所有的A100 GPU上實(shí)現(xiàn)并行，GPT-4使用了8路張量并行和15路管線并行，這都是并行處理技術(shù)的極限。這種并行策略可能涉及了ZeRo階段1和塊級(jí)FSDP技術(shù)。

訓(xùn)練成本是評(píng)估模型效率的重要指標(biāo)，OpenAI的GPT-4的訓(xùn)練FLOPS大約2.15e25。模型在大約25000個(gè)A100上運(yùn)行了90到100天，使用率大約為32%到36% 。由于大量的失敗需要從檢查點(diǎn)重新開始，使用率將變得極低。

如果按照每個(gè)A100每小時(shí)1美元來計(jì)算，訓(xùn)練成本將是6300萬美元左右。

05

規(guī)模與性能的難題

盡管GPT-4在規(guī)模和性能上取得了顯著的突破，但其依然面臨著一些挑戰(zhàn)。

例如，專家模型在推理中非常難以處理，因?yàn)椴⒎窃诿總€(gè)token生成時(shí)都使用模型的每一部分。這意味著當(dāng)其他部分被使用時(shí)，剩余部分可能處于休眠狀態(tài)。當(dāng)為用戶提供服務(wù)時(shí)，這會(huì)嚴(yán)重影響利用率。

同時(shí)，由于更多的專家模型在許多任務(wù)上難以泛化，且更難以達(dá)到收斂，所以O(shè)penAI選擇了較少的專家模型。

因?yàn)镚PT-4需要更大的集群，所以它的推理成本是其前代產(chǎn)品175B參數(shù)Davinchi的3倍，實(shí)際上使用效率更低。

06

GPT-4的視覺能力：

交叉注意力與微調(diào)

在視覺能力方面，GPT-4采用了與文本編碼器分開的視覺編碼器，具有交叉注意力。這種架構(gòu)與Flamingo相似，增加了更多的參數(shù)，并進(jìn)行了約2萬億個(gè)token的微調(diào)。

OpenAI希望從頭開始訓(xùn)練視覺模型，但由于技術(shù)不夠成熟，因此決定先從文本開始，降低風(fēng)險(xiǎn)。

總結(jié)來說，GPT-4在規(guī)模、性能和復(fù)雜性方面都做出了重大的突破，但同時(shí)也帶來了更大的挑戰(zhàn)和更高的成本。這無疑將開啟人工智能發(fā)展的新篇章，我們有理由對(duì)此充滿期待。

（全文編譯請(qǐng)看今日清元宇宙二條）

07

“先問”點(diǎn)評(píng)

清博先問大模型技術(shù)團(tuán)隊(duì)表示，在這份報(bào)告前，黑客George Hotz就爆料過GPT-4是由8個(gè)MoE模型組成，這次相比之下更加具體詳細(xì)，也更具有指導(dǎo)和復(fù)現(xiàn)意義。

這份報(bào)告也是給了我們中國(guó)企業(yè)打了一劑強(qiáng)心針，OpenAI并沒有魔法，他們所構(gòu)建的東西是可復(fù)制的。

在報(bào)告中最吸引我的內(nèi)容是OpenAI在面臨大模型推理時(shí)遇到的問題和作出的抉擇。

眾所周知，大模型在推理時(shí)，延遲和推理成本是非常重要的權(quán)衡。我們總會(huì)希望能在延遲較低、吞吐量足夠的情況下，推理成本盡可能小，因此我們從這份報(bào)告中看到OpenAI的選擇，啟發(fā)我們團(tuán)隊(duì)后續(xù)的相關(guān)工作。

值得一提的是，其實(shí)萬億級(jí)別參數(shù)的MoE模型，GPT-4并不是第一個(gè)。谷歌在2021年發(fā)布的Switch Transformers，就是價(jià)值1.6萬億的MoE模型。所以O(shè)penAI利用MoE的做法，也是意料之中的。

對(duì)于大模型來說，最大的開銷不是訓(xùn)練，而是之后長(zhǎng)期的服務(wù)開銷：訓(xùn)練是一次性的，而服務(wù)對(duì)算力的要求是無窮無盡的。

模型serving的FLOPS要低于訓(xùn)練時(shí)的FLOPS，MoE就是一個(gè)很顯然的選擇，可以保證稀疏激活。

人類的大腦也有著類似的設(shè)計(jì)：功能分區(qū)，稀疏激活。我們?nèi)巳ソ鉀Q一個(gè)問題，也只會(huì)利用相關(guān)的知識(shí)，而不是把大腦中所有的知識(shí)都用上。

盡管MoE是一個(gè)簡(jiǎn)單明顯的選擇，但還有很多工作值得我們?nèi)プ?，改進(jìn)路由算法，降低通信和計(jì)算成本，提升訓(xùn)練的穩(wěn)定性等等。

未來，這些工作也都將是我們先問大模型努力的方向。

參考信息：

1、https://mem.ai/p/weHErOim3P2FNmTEvlMX

2、https://www.semianalysis.com/p/gpt-4-architecture-infrastructure

作者：先問大模型西瓜排版：駱偉玲

本站僅提供存儲(chǔ)服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊舉報(bào)。

打開APP，閱讀全文并永久保存查看更多類似文章

3.6萬億token、3400億參數(shù)，谷歌大模型PaLM 2細(xì)節(jié)遭曝光

僅480塊GPU搞出萬億參數(shù)大模型！★★★達(dá)摩院3個(gè)月打造，出手即商用

T5、RoBERTa、悟道·天鷹、紫東太初、CPM作者談基礎(chǔ)模型前沿技術(shù)丨大模型科研、創(chuàng)業(yè)避坑指南

莆田版GPT-3開源：同等復(fù)現(xiàn)預(yù)訓(xùn)練模型GPT Neo，可在Colab上完成微調(diào)

GPT

無需寫代碼能力，手搓最簡(jiǎn)單BabyGPT模型：前特斯拉AI總監(jiān)新作

更多類似文章 >>

中文字幕理论片,69视频免费在线观看,亚洲成人app,国产1级毛片,刘涛最大尺度戏视频,欧美亚洲美女视频,2021韩国美女仙女屋vip视频