中文字幕理论片,69视频免费在线观看,亚洲成人app,国产1级毛片,刘涛最大尺度戏视频,欧美亚洲美女视频,2021韩国美女仙女屋vip视频

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
大型語言模型(LLMs)是什么及應(yīng)用、優(yōu)勢和挑戰(zhàn)

近幾個月來,大型語言模型(LLMs)引起了很多人的熱議(見圖1)。這種需求導(dǎo)致了利用語言模型的網(wǎng)站和解決方案的不斷發(fā)展。ChatGPT在2023年1月創(chuàng)下了用戶群增長最快的記錄,證明了語言模型將繼續(xù)存在。谷歌對ChatGPT的回答B(yǎng)ard是在2023年2月推出的,這也說明了這一點。

圖1:”大型語言模型 “的搜索量

語言模型也為企業(yè)帶來了新的可能性,因為它們可以:

  • 實現(xiàn)流程自動化

  • 節(jié)省時間和金錢

  • 推動個性化

  • 提高任務(wù)的準(zhǔn)確性

然而,大型語言模型是計算機科學(xué)的一個新發(fā)展。正因為如此,許多人可能不了解這種模型的最新情況。我們寫這篇文章是為了讓好奇的人們了解大型語言模型:

  • 定義

  • 實例

  • 使用案例

  • 訓(xùn)練

  • 效益

  • 挑戰(zhàn)

什么是大型語言模型?

圖2:基礎(chǔ)模型(來源: ArXiv

大型語言模型(LLMs)是在自然語言處理(NLP)自然語言生成(NLG)任務(wù)中利用深度學(xué)習(xí)基礎(chǔ)模型。為了幫助它們學(xué)習(xí)語言的復(fù)雜性和聯(lián)系,大型語言模型在大量的數(shù)據(jù)上進行了預(yù)訓(xùn)練。使用的技術(shù),如:

這些模型可以適用于下游(特定)任務(wù)(見圖2)。

LLM本質(zhì)上是一個基于Transformer的神經(jīng)網(wǎng)絡(luò),由谷歌工程師在2017年一篇題為 “Attention is All You Need “的文章中介紹。一個模型的先進性和性能可以通過它有多少個參數(shù)來判斷。一個模型的參數(shù)是它在生成輸出時考慮的因素數(shù)量。

大型語言模型實例

有許多開源的語言模型可以在內(nèi)部或私有云中部署,這意味著快速的業(yè)務(wù)采用和強大的網(wǎng)絡(luò)安全。這類的一些大型語言模型有:

  • BLOOM

  • NeMO LLM

  • XLM-RoBERTa

  • XLNet

  • Cohere

  • GLM-130B

大多數(shù)領(lǐng)先的語言模型開發(fā)者都是美國人,但中國和歐洲也有成功的例子,因為他們正在努力追趕生成式人工智能。

你可以查看我們關(guān)于大型語言模型實例的文章,了解更多信息。

語言模型的用例有哪些?

大型語言模型可以應(yīng)用于各種用例和行業(yè),包括醫(yī)療、零售、科技等等。以下是所有行業(yè)都存在的用例:

  • 文本總結(jié)

  • 文本生成

  • 情感分析

  • 內(nèi)容創(chuàng)作

  • 聊天機器人、虛擬助手和對話式人工智能

  • 命名實體識別

  • 語音識別和合成

  • 圖像注解

  • 文本到語音的合成

  • 拼寫糾正

  • 機器翻譯

  • 推薦系統(tǒng)

  • 欺詐行為檢測

  • 代碼生成

大型語言模型是如何訓(xùn)練的

大型語言模型是深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò),是人工智能和機器學(xué)習(xí)的一個子集。大型語言模型首先被預(yù)訓(xùn)練,以便它們學(xué)習(xí)基本的語言任務(wù)和功能。預(yù)訓(xùn)練是需要大量計算能力和尖端硬件的步驟。

圖2:預(yù)訓(xùn)練與微調(diào)

圖3:預(yù)訓(xùn)練與微調(diào)(來源: medium.com

一旦模型經(jīng)過預(yù)訓(xùn)練,就可以用特定任務(wù)的新數(shù)據(jù)對其進行訓(xùn)練,為特定的使用案例進行微調(diào)。微調(diào)方法具有很高的計算效率,因為它需要更少的數(shù)據(jù)和功率,使其成為一種更便宜的方法(見圖3)。

更多信息,請查看我們的 “大型語言模型訓(xùn)練 “文章。

大型語言模型的4個優(yōu)勢

1- 減少人工勞動和成本

語言模型可用于實現(xiàn)許多過程的自動化,例如:

  • 情感分析

  • 顧客服務(wù)

  • 內(nèi)容創(chuàng)作

  • 欺詐檢測

  • 預(yù)測和分類

這類任務(wù)的自動化導(dǎo)致了人工勞動和相關(guān)成本的減少。

2- 提高可用性、個性化和客戶滿意度

許多客戶希望企業(yè)能夠全天候提供服務(wù),這可以通過利用語言模型的聊天機器人和虛擬助理來實現(xiàn)。通過自動化的內(nèi)容創(chuàng)建,語言模型可以通過處理大量的數(shù)據(jù)來了解客戶的行為和偏好,從而推動個性化的發(fā)展??蛻魸M意度和積極的品牌關(guān)系將隨著可用性和個性化的服務(wù)而增加。

3- 節(jié)省時間

語言模型系統(tǒng)可以使?fàn)I銷、銷售、人力資源和客戶服務(wù)的許多過程自動化。例如,語言模型可以幫助進行數(shù)據(jù)輸入、客戶服務(wù)和文件創(chuàng)建,使員工騰出時間從事需要人類專業(yè)知識的更重要的工作。

語言模型可以為企業(yè)節(jié)省時間的另一個領(lǐng)域是對大量數(shù)據(jù)的分析。有了處理大量信息的能力,企業(yè)可以迅速從復(fù)雜的數(shù)據(jù)集中提取洞察力,并做出明智的決定。這可以提高運營效率,更快地解決問題,并做出更明智的商業(yè)決策。

提高任務(wù)的準(zhǔn)確性

大型語言模型能夠處理大量的數(shù)據(jù),這導(dǎo)致預(yù)測和分類任務(wù)的準(zhǔn)確性提高。這些模型利用這些信息來學(xué)習(xí)模式和關(guān)系,這有助于它們做出更好的預(yù)測和分組。

例如,在情感分析中,大型語言模型可以分析數(shù)以千計的客戶評論,以了解每條評論背后的情感,從而提高確定客戶評論是正面的、負(fù)面的還是中性的準(zhǔn)確性。這種準(zhǔn)確性的提高在許多商業(yè)應(yīng)用中是至關(guān)重要的,因為小的錯誤會產(chǎn)生重大影響。

語言模型的挑戰(zhàn)和限制

1- 可靠性和偏見

語言模型的能力受限于它們所訓(xùn)練的文本訓(xùn)練數(shù)據(jù),這意味著它們對世界的認(rèn)識是有限的。模型學(xué)習(xí)訓(xùn)練數(shù)據(jù)中的關(guān)系,而這些關(guān)系可能包括:

  • 虛假信息

  • 種族、性別和性的偏見

  • 有毒的語言

當(dāng)訓(xùn)練數(shù)據(jù)沒有被檢查和標(biāo)記時,語言模型已經(jīng)被證明會做出種族主義或性別歧視的評論。

也有一些情況下,模型會呈現(xiàn)虛假信息。

2- 語境窗口

每個大型語言模型只有一定的內(nèi)存,所以它只能接受一定數(shù)量的令牌作為輸入。例如,ChatGPT的限制是2048個令牌(大約1500個詞),這意味著ChatGPT無法對輸入進行理解,也無法為超過2048個令牌限制的輸入生成輸出。

3- 系統(tǒng)成本

開發(fā)大型語言模型需要大量投資,包括計算機系統(tǒng)、人力資本(工程師、研究人員、科學(xué)家等)和電力。由于是資源密集型,使得大型語言模型的開發(fā)只適用于擁有巨大資源的巨大企業(yè)。據(jù)估計,英偉達和微軟的Megatron-Turing,項目總成本接近1億美元。

4- 環(huán)境影響

Megatron-Turing是用數(shù)百臺NVIDIA DGX A100多GPU服務(wù)器開發(fā)的,每臺服務(wù)器的耗電量高達6.5千瓦。伴隨著大量的電力來冷卻這個巨大的框架,這些模型需要大量的電力,并留下了大量的碳足跡。

根據(jù)一項研究,在GPU上訓(xùn)練BERT(谷歌的LLM)大致相當(dāng)于一次跨美國的飛行。

  1. Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, L., & Polosukhin, I. (2017, December 6). “Attention is All You Need“. arXiv.org. Retrieved February 10, 2023, from https://arxiv.org/abs/1706.03762

  2. Simon, J. (October 26, 2021). Large Language Models: A New Moore’s Law?. Hugging Face – The AI community building the future. Retrieved February 10, 2023, from https://huggingface.co/blog/large-language-models

  3. Strubell, E., Ganesh, A., & McCallum, A. (2019, June 5). Energy and Policy Considerations for Deep Learning in NLP. arXiv.org. Retrieved February 10, 2023, from https://arxiv.org/abs/1906.02243

本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊舉報
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
ChatGPT懂常識嗎?中科院等最新《ChatGPT是一個有知識但沒有經(jīng)驗的求解器:大型語言模型常識問題的研究》論文解答
ChatGPT之后,下一代大型語言模型在哪里?
胡泳|“萬模大戰(zhàn)”下的冷思考:大型語言模型和人工智能的未來
大語言模型與數(shù)字化轉(zhuǎn)型有啥關(guān)系?對組織數(shù)字化經(jīng)營有哪些影響?一文看懂
4期封面論文|ChatGPT探析:AI大型語言模型下學(xué)術(shù)出版的機遇與挑戰(zhàn)
給表情包都能猜電影,ChatGPT的「涌現(xiàn)」能力是哪兒來的?
更多類似文章 >>
生活服務(wù)
熱點新聞
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點擊這里聯(lián)系客服!

聯(lián)系客服