近幾個月來,大型語言模型(LLMs)引起了很多人的熱議(見圖1)。這種需求導(dǎo)致了利用語言模型的網(wǎng)站和解決方案的不斷發(fā)展。ChatGPT在2023年1月創(chuàng)下了用戶群增長最快的記錄,證明了語言模型將繼續(xù)存在。谷歌對ChatGPT的回答B(yǎng)ard是在2023年2月推出的,這也說明了這一點。
圖1:”大型語言模型 “的搜索量
語言模型也為企業(yè)帶來了新的可能性,因為它們可以:
實現(xiàn)流程自動化
節(jié)省時間和金錢
推動個性化
提高任務(wù)的準(zhǔn)確性
然而,大型語言模型是計算機科學(xué)的一個新發(fā)展。正因為如此,許多人可能不了解這種模型的最新情況。我們寫這篇文章是為了讓好奇的人們了解大型語言模型:
定義
實例
使用案例
訓(xùn)練
效益
挑戰(zhàn)
圖2:基礎(chǔ)模型(來源: ArXiv)
大型語言模型(LLMs)是在自然語言處理(NLP)和自然語言生成(NLG)任務(wù)中利用深度學(xué)習(xí)的基礎(chǔ)模型。為了幫助它們學(xué)習(xí)語言的復(fù)雜性和聯(lián)系,大型語言模型在大量的數(shù)據(jù)上進行了預(yù)訓(xùn)練。使用的技術(shù),如:
微調(diào)
語境中學(xué)習(xí)
這些模型可以適用于下游(特定)任務(wù)(見圖2)。
LLM本質(zhì)上是一個基于Transformer的神經(jīng)網(wǎng)絡(luò),由谷歌工程師在2017年一篇題為 “Attention is All You Need “的文章中介紹。一個模型的先進性和性能可以通過它有多少個參數(shù)來判斷。一個模型的參數(shù)是它在生成輸出時考慮的因素數(shù)量。
有許多開源的語言模型可以在內(nèi)部或私有云中部署,這意味著快速的業(yè)務(wù)采用和強大的網(wǎng)絡(luò)安全。這類的一些大型語言模型有:
BLOOM
NeMO LLM
XLM-RoBERTa
XLNet
Cohere
GLM-130B
大多數(shù)領(lǐng)先的語言模型開發(fā)者都是美國人,但中國和歐洲也有成功的例子,因為他們正在努力追趕生成式人工智能。
你可以查看我們關(guān)于大型語言模型實例的文章,了解更多信息。
大型語言模型可以應(yīng)用于各種用例和行業(yè),包括醫(yī)療、零售、科技等等。以下是所有行業(yè)都存在的用例:
文本總結(jié)
情感分析
聊天機器人、虛擬助手和對話式人工智能
命名實體識別
語音識別和合成
圖像注解
文本到語音的合成
機器翻譯
推薦系統(tǒng)
欺詐行為檢測
代碼生成
大型語言模型是深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò),是人工智能和機器學(xué)習(xí)的一個子集。大型語言模型首先被預(yù)訓(xùn)練,以便它們學(xué)習(xí)基本的語言任務(wù)和功能。預(yù)訓(xùn)練是需要大量計算能力和尖端硬件的步驟。
圖2:預(yù)訓(xùn)練與微調(diào)
圖3:預(yù)訓(xùn)練與微調(diào)(來源: medium.com)
一旦模型經(jīng)過預(yù)訓(xùn)練,就可以用特定任務(wù)的新數(shù)據(jù)對其進行訓(xùn)練,為特定的使用案例進行微調(diào)。微調(diào)方法具有很高的計算效率,因為它需要更少的數(shù)據(jù)和功率,使其成為一種更便宜的方法(見圖3)。
更多信息,請查看我們的 “大型語言模型訓(xùn)練 “文章。
語言模型可用于實現(xiàn)許多過程的自動化,例如:
情感分析
顧客服務(wù)
內(nèi)容創(chuàng)作
欺詐檢測
預(yù)測和分類
這類任務(wù)的自動化導(dǎo)致了人工勞動和相關(guān)成本的減少。
許多客戶希望企業(yè)能夠全天候提供服務(wù),這可以通過利用語言模型的聊天機器人和虛擬助理來實現(xiàn)。通過自動化的內(nèi)容創(chuàng)建,語言模型可以通過處理大量的數(shù)據(jù)來了解客戶的行為和偏好,從而推動個性化的發(fā)展??蛻魸M意度和積極的品牌關(guān)系將隨著可用性和個性化的服務(wù)而增加。
語言模型系統(tǒng)可以使?fàn)I銷、銷售、人力資源和客戶服務(wù)的許多過程自動化。例如,語言模型可以幫助進行數(shù)據(jù)輸入、客戶服務(wù)和文件創(chuàng)建,使員工騰出時間從事需要人類專業(yè)知識的更重要的工作。
語言模型可以為企業(yè)節(jié)省時間的另一個領(lǐng)域是對大量數(shù)據(jù)的分析。有了處理大量信息的能力,企業(yè)可以迅速從復(fù)雜的數(shù)據(jù)集中提取洞察力,并做出明智的決定。這可以提高運營效率,更快地解決問題,并做出更明智的商業(yè)決策。
提高任務(wù)的準(zhǔn)確性
大型語言模型能夠處理大量的數(shù)據(jù),這導(dǎo)致預(yù)測和分類任務(wù)的準(zhǔn)確性提高。這些模型利用這些信息來學(xué)習(xí)模式和關(guān)系,這有助于它們做出更好的預(yù)測和分組。
例如,在情感分析中,大型語言模型可以分析數(shù)以千計的客戶評論,以了解每條評論背后的情感,從而提高確定客戶評論是正面的、負(fù)面的還是中性的準(zhǔn)確性。這種準(zhǔn)確性的提高在許多商業(yè)應(yīng)用中是至關(guān)重要的,因為小的錯誤會產(chǎn)生重大影響。
語言模型的能力受限于它們所訓(xùn)練的文本訓(xùn)練數(shù)據(jù),這意味著它們對世界的認(rèn)識是有限的。模型學(xué)習(xí)訓(xùn)練數(shù)據(jù)中的關(guān)系,而這些關(guān)系可能包括:
虛假信息
種族、性別和性的偏見
有毒的語言
當(dāng)訓(xùn)練數(shù)據(jù)沒有被檢查和標(biāo)記時,語言模型已經(jīng)被證明會做出種族主義或性別歧視的評論。
也有一些情況下,模型會呈現(xiàn)虛假信息。
每個大型語言模型只有一定的內(nèi)存,所以它只能接受一定數(shù)量的令牌作為輸入。例如,ChatGPT的限制是2048個令牌(大約1500個詞),這意味著ChatGPT無法對輸入進行理解,也無法為超過2048個令牌限制的輸入生成輸出。
開發(fā)大型語言模型需要大量投資,包括計算機系統(tǒng)、人力資本(工程師、研究人員、科學(xué)家等)和電力。由于是資源密集型,使得大型語言模型的開發(fā)只適用于擁有巨大資源的巨大企業(yè)。據(jù)估計,英偉達和微軟的Megatron-Turing,項目總成本接近1億美元。
Megatron-Turing是用數(shù)百臺NVIDIA DGX A100多GPU服務(wù)器開發(fā)的,每臺服務(wù)器的耗電量高達6.5千瓦。伴隨著大量的電力來冷卻這個巨大的框架,這些模型需要大量的電力,并留下了大量的碳足跡。
根據(jù)一項研究,在GPU上訓(xùn)練BERT(谷歌的LLM)大致相當(dāng)于一次跨美國的飛行。
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, L., & Polosukhin, I. (2017, December 6). “Attention is All You Need“. arXiv.org. Retrieved February 10, 2023, from https://arxiv.org/abs/1706.03762
Simon, J. (October 26, 2021). “Large Language Models: A New Moore’s Law?“. Hugging Face – The AI community building the future. Retrieved February 10, 2023, from https://huggingface.co/blog/large-language-models
Strubell, E., Ganesh, A., & McCallum, A. (2019, June 5). “Energy and Policy Considerations for Deep Learning in NLP“. arXiv.org. Retrieved February 10, 2023, from https://arxiv.org/abs/1906.02243
聯(lián)系客服