席卷全球的新風口

OpenAI去年發(fā)布了聊天機器人模型ChatGPT，它能夠理解和生成人類語言，并在許多自然語言處理任務中表現(xiàn)非常出色。據(jù)統(tǒng)計，上線僅兩個月，ChatGPT活躍用戶已經(jīng)超億，打破了由TikTok創(chuàng)造的9個月實現(xiàn)億級用戶注冊的紀錄，引起了各行各業(yè)人們的強烈關注。就連埃隆·馬斯克也忍不住發(fā)推表示，ChatGPT厲害得嚇人，我們距離危險而強大的AI不遠了。當然，在一頓痛批ChatGPT之后，馬斯克也準備親自下場，成立研究實驗室，開發(fā)ChatGPT的競品。

類ChatGPT模型的開發(fā)與應用，在國內(nèi)也迅速成為資本市場關注、創(chuàng)業(yè)者紛紛入場的賽道。阿里、百度等互聯(lián)網(wǎng)大廠，科大訊飛等語音類AI企業(yè)，以及眾多創(chuàng)業(yè)者都希望乘著最新的風口迅速“起飛”。創(chuàng)業(yè)者大軍中不乏像前美團聯(lián)合創(chuàng)始人王慧文、出門問問CEO李志飛、搜狗前CEO王小川、前京東技術掌門人周伯文等行業(yè)大佬。開發(fā)出“中國的ChatGPT”儼然成了國內(nèi)科技圈“All in”的方向。

然而，我們真的能迅速見到一個“中國的ChatGPT”嗎？誰又能拔下頭籌，成為這個細分賽道的領頭羊呢？

這個眾多大佬都擠進來“淘金”的賽道，一定不是簡簡單單就能搞定的。

OpenAI的GPT“家族”

在深入了解開發(fā)出比肩ChatGPT的模型需要面臨哪些挑戰(zhàn)之前，讓我們先看下ChatGPT所屬的GPT模型家族都有哪些成員。

GPT-1發(fā)布于2018年6月，包含117M個參數(shù)。這是第一個采用基于Transformer的模型架構進行預訓練的模型。它在語言模型和單詞類比任務上表現(xiàn)出色。
GPT-2發(fā)布于2019年2月，包含1.5B個參數(shù)。這個模型在自然語言生成任務上表現(xiàn)出色，可以生成高質量的文章、新聞報道和詩歌等文本。
GPT-3發(fā)布于2020年6月，包含175B個參數(shù)。具有出色的通用性和創(chuàng)造性，可以在各種 NLP任務上表現(xiàn)出色，包括文本生成、問答、機器翻譯等任務。

到這就結束了？完全不是。

在GPT-3系列模型（注意，是一系列模型哦）發(fā)布之后，OpenAI繼續(xù)基于原始的GPT-3進行了不斷地完善。我們熟知的InstructGPT和ChatGPT實際的內(nèi)部代號是text-davinci-003 175B和
text-chat-davinci-002-20221122，是基于GPT-3.5的改良版。

圖：GPT-3模型家族，圖片來源：https://lifearchitect.ai/chatgpt/

在InstructGPT的訓練中，OpenAI的研究員引入了RLHF（Reinforcement Learning from Human Feedback，人類反饋強化學習）機制。這一訓練范式增強了人類對模型輸出結果的調(diào)節(jié)，并且對結果進行了更具理解性的排序。在此基礎上，ChatGPT還引入了“無害化”機制，防止模型生成不符合規(guī)范或倫理的答案。

圖：GPT-3、InstructGPT、ChatGPT的“進化路線”

圖片來源：https://lifearchitect.ai/chatgpt/

不難看出，ChatGPT的出圈，與OpenAI多年的技術積累是分不開的。國內(nèi)廠商想要開發(fā)出像ChatGPT一樣優(yōu)秀的模型，也絕不是簡單依靠拉一波投資，雇一批算法研究員就能馬上實現(xiàn)的。

“中國的ChatGPT”面臨的挑戰(zhàn)

首先，在資金投入方面，在當前的技術水平下，訓練一個與ChatGPT這樣的大型語言模型相當?shù)哪Ｐ托枰獢?shù)百萬美元的投入。在發(fā)布ChatGPT之前，OpenAI可查的融資額已超過20億美元，也是如此龐大的投資才使OpenAI擁有了多年技術積累。反觀絕大多數(shù)近期入局的國內(nèi)企業(yè)，即便擁有足夠的資金與人員，也大都很難在短期追上OpenAI的步伐。

我們不禁想問，如果要在國內(nèi)開發(fā)出一個類ChatGPT模型，到底會面臨哪些技術挑戰(zhàn)呢？

為了能了解到最最準確的答案，我們請教了ChatGPT“本人”

數(shù)據(jù)量：需要大量的數(shù)據(jù)集來進行訓練。這些數(shù)據(jù)集需要是大規(guī)模的、多樣化的、真實的，并且要涵蓋各種不同的語言和語境。這需要花費大量的時間和資源來收集、整理和標注。
計算能力：需要非常強大的計算資源。這些模型需要在大規(guī)模的數(shù)據(jù)集上進行訓練，并且需要進行大量的參數(shù)優(yōu)化和調(diào)整。這些計算需要高性能的計算機和高效的分布式計算框架。
算法優(yōu)化：需要對算法進行不斷的優(yōu)化和改進。這包括優(yōu)化網(wǎng)絡結構、調(diào)整超參數(shù)、使用更好的優(yōu)化算法等。這需要對深度學習算法有深入的了解和經(jīng)驗。

可以發(fā)現(xiàn)，這是一個涉及到多個領域和技術的復雜系統(tǒng)工程。只有同時在底層的基礎設施、針對性優(yōu)化和大模型技術積淀都達到一定水平的情況下，才能夠研發(fā)出高質量的模型，并應用于各種場景中。

讓我們詳細看看這三類技術挑戰(zhàn)具體都意味著什么。

數(shù)據(jù)量

我們經(jīng)常聽到“有多少數(shù)據(jù)，就有多少智能”，數(shù)據(jù)對于模型訓練的重要性不言而喻。類ChatGPT模型的訓練，更需要超大規(guī)模的，經(jīng)過清洗的數(shù)據(jù)。以GPT-3的訓練為例，需要300B tokens的數(shù)據(jù)。大家如果對這個數(shù)字不敏感的話，可以參考整個英文的維基百科的數(shù)據(jù)量，只有“相對可憐”的3B tokens，是訓練GPT-3所需的百分之一。并且，要訓練出類ChatGPT模型，勢必需要數(shù)倍于當年訓練GPT-3的數(shù)據(jù)量的中文語料數(shù)據(jù)，這對于大部分企業(yè)或科研機構來說都是難以翻越的大山。有效的中文數(shù)據(jù)量，一定程度上決定了模型性能的上限。

計算能力

類ChatGPT模型的訓練，除了需要非常多的訓練數(shù)據(jù)外，也離不開龐大的算力支撐。根據(jù)北京智源人工智能研究院公布的數(shù)據(jù)，使用300B tokens的數(shù)據(jù)訓練175B參數(shù)規(guī)模（與GPT-3規(guī)模相同）的模型，如果使用96臺通過200Gb IB網(wǎng)卡互聯(lián)的DGX-A100節(jié)點，需要約50天。要是使用更大規(guī)模的訓練數(shù)據(jù)集，訓練時長還會進一步增加。

對于計算集群來說，不僅需要能夠提供海量的算力資源，還需要具備高速網(wǎng)絡和高容量存儲，以便支持大規(guī)模的數(shù)據(jù)訪問和模型傳輸。整套基礎設施，連同軟件平臺，還需要結合集群的拓撲結構針對分布式訓練進行優(yōu)化，通過調(diào)整并行策略等方式，提升硬件利用率與通訊效率，縮短整體訓練時間。

算法優(yōu)化

算法優(yōu)化和模型的訓練效率和效果息息相關。每一個算法研究員，都希望模型在訓練過程中快速收斂，這恰恰也是算法研究人員經(jīng)驗與企業(yè)長年技術積累的體現(xiàn)。通常情況下，在訓練的過程中需要不斷調(diào)整學習率、批量大小、層數(shù)等超參數(shù)，或使用自動調(diào)參的技巧和經(jīng)驗，才能快速、穩(wěn)定的實現(xiàn)模型收斂。就像中餐大廚們用“少許、適量”的調(diào)料制作美味佳肴一樣，里面包含著的是大廚們幾十年的手藝，不是一朝一夕就能被批量復制的。

前途是光明的，道路是曲折的

想必，這是最適合送給現(xiàn)在想要開發(fā)出“中國的ChatGPT”的各路大佬們的一句話了。在美國去年對中國限制了高端GPU的銷售之后，為規(guī)避未來的技術風險，不少廠商、科研機構也開始探索在國產(chǎn)算力服務平臺上訓練的可行性。北京智源人工智能研究院作為國內(nèi)頂尖的人工智能領域研究機構，早早就探索了使用國產(chǎn)算力服務平臺的可能性。同樣是使用300B tokens的數(shù)據(jù)訓練175B參數(shù)規(guī)模的模型，通過曙光提供的算力服務，訓練周期只需29.10天，在節(jié)點規(guī)模接近的情況下，訓練效率是其他算力平臺的300%。

基于國產(chǎn)算力服務平臺進行訓練，不可避免的會帶來更多的移植與調(diào)優(yōu)工作。曙光智算強大的硬件與算法優(yōu)化團隊，在集群、并行策略、算子、工具包等方面的優(yōu)化上與智源開展了深入的合作。首先，為保證程序能夠正常運行，需要完成包括
DeepSpeed/Megatron/Colossal-AI/apex等必要組件的適配工作。其次，超大規(guī)模集群的順利調(diào)度通常也需要調(diào)整調(diào)整操作系統(tǒng)配置及tcp協(xié)議參數(shù)等。訓練的優(yōu)化工作則主要包含以下三個方面：

算子層面：使用算子融合/算子優(yōu)化等技術，深度挖掘硬件性能，提升硬件使用率；
策略層面：采用模型并行、數(shù)據(jù)并行、流水線并行、Zero等多級并行策略，實現(xiàn)超大規(guī)模訓練；
集群層面：針對硬件集群的拓撲結構，對分布式訓練通信、并行分組配比等進行定制優(yōu)化，提升訓練擴展比。

通過一系列的優(yōu)化方法，最終也證明了我們可以在國產(chǎn)算力服務平臺上，以能夠對標國際水平的效率實現(xiàn)大模型的開發(fā)工作，這無疑為“中國的ChatGPT”的開發(fā)工作喂了一顆定心丸。希望在不久的將來，我們可以看到真正在國產(chǎn)算力平臺上訓練的，能與ChatGPT比肩的中文模型。

前途一定是光明的。

— 完 —

本站僅提供存儲服務，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權內(nèi)容，請點擊舉報。

打開APP，閱讀全文并永久保存查看更多類似文章

ChatGPT實踐問題分析與應用展望

探尋ChatGPT底層模型誕生之路 —— 3篇OpenAI關鍵論文解讀

王慧文豪擲3.4億，眾人都想復制ChatGPT｜貳月大變局

從星火看大模型中場：祛魅與拷問

ChatGPT背后的創(chuàng)新支撐機制及對我國的啟示

ChatGPT是顛覆性突破？專家：它提供的答案在準確性等方面還有局限

更多類似文章 >>

中文字幕理论片,69视频免费在线观看,亚洲成人app,国产1级毛片,刘涛最大尺度戏视频,欧美亚洲美女视频,2021韩国美女仙女屋vip视频

席卷全球的新風口

OpenAI的GPT“家族”

“中國的ChatGPT”面臨的挑戰(zhàn)

前途是光明的，道路是曲折的

前途是光明的，道路是曲折的