由于當(dāng)前大語言模型在輸入長度和記憶上的限制,對(duì)于過長的輸入以及多輪對(duì)話(很多次的對(duì)話)來說都無法很好的支持。Embeddings作為一種可以保存語義的實(shí)值向量,可以有效地緩解大語言模型的諸多限制。甚至OpenAI在官方教程中也專門出了一期教大家如何用embedding來解決大模型長輸入的問題:https://www.datalearner.com/blog/1051681543488862 。
然而奇怪的是,相比較大量的大語言模型的開源數(shù)據(jù)集,業(yè)界并沒有很多embedding數(shù)據(jù)的開放。目前可能是最強(qiáng)的embedding抽取模型——OpenAI的embeddings(別奇怪,它的模型就叫這個(gè)名字)也是一個(gè)收費(fèi)的模型。今天,一位年僅20歲的小哥willdepue 開源了230萬arXiv論文的標(biāo)題和摘要的embedding向量數(shù)據(jù)集,完全開源。
此次開源的arXiv的標(biāo)題和摘要embeddings屬于Alexandria項(xiàng)目的一部分。這個(gè)項(xiàng)目的目標(biāo)是將互聯(lián)網(wǎng)的數(shù)據(jù)集變成embeddings。而arXiv論文標(biāo)題和摘要是第一部分。并表示未來將開源更多的數(shù)據(jù)集。
全球很多問題都可以歸納為搜索、聚類、推薦或者分類。而embeddings都可以在問題中發(fā)揮巨大的價(jià)值。在機(jī)器學(xué)習(xí)和自然語言處理中,embedding是指將高維度的數(shù)據(jù)(例如文字、圖片、音頻)映射到低維度空間的過程。embedding向量通常是一個(gè)由實(shí)數(shù)構(gòu)成的向量,它將輸入的數(shù)據(jù)表示成一個(gè)連續(xù)的數(shù)值空間中的點(diǎn)。
簡單來說,embedding就是一個(gè)N維的實(shí)值向量,它幾乎可以用來表示任何事情,如文本、音樂、視頻等。而embedding重要的原因在于它可以表示單詞或者語句的語義。實(shí)值向量的embedding可以表示單詞的語義,主要是因?yàn)檫@些embedding向量是根據(jù)單詞在語言上下文中的出現(xiàn)模式進(jìn)行學(xué)習(xí)的。
此外,embeddings也是一個(gè)一次性的成本投入,并且十分便宜。以O(shè)penAI的embeddings為例,text-embedding-ada-002
的價(jià)格是1美元250萬個(gè)tokens,約187.5萬個(gè)英文單詞!
盡管embeddings價(jià)值巨大且很便宜,但是開源的embeddings數(shù)據(jù)集卻幾乎沒有。因此,小哥做了這個(gè)項(xiàng)目。
此次開源的arXiv數(shù)據(jù)集包括2個(gè)部分,一個(gè)是論文標(biāo)題的embeddings,一個(gè)是論文摘要的embeddings,這個(gè)大概也是因?yàn)檫@兩個(gè)部分可能避免版權(quán)的問題。具體如下:
上述數(shù)據(jù)均使用Instructor XL模型抽取。這是基于Apache2.0開源的embedding模型:https://huggingface.co/hkunlp/instructor-xl
此外,小哥還透露下周將公開基于這個(gè)embedding數(shù)據(jù)集做的arXiv論文檢索。
這份arXiv的論文標(biāo)題和摘要的embeddings數(shù)據(jù)集的開源在twitter上引起了很大的關(guān)注。原文發(fā)布不到24小時(shí)已經(jīng)有80多萬次的查看。
小哥總結(jié)到,他覺得這個(gè)項(xiàng)目本身并不酷,但是也很容易語料會(huì)比較火?;谠紨?shù)據(jù)集做embeddings并不難,難得是如何一直更新。
小哥名叫Will DePue,也是一個(gè)神奇的人,看簡歷是00后,2003年出生。2021年以UCLA首屆Geffen Academy的第二名成績畢業(yè)。UCLA的Geffen Academy是一個(gè)為6-12年級(jí)學(xué)生服務(wù)的大學(xué)附屬學(xué)校。他現(xiàn)在在密歇根大學(xué)學(xué)習(xí)計(jì)算機(jī)科學(xué)(CS),并計(jì)劃在2025年畢業(yè),但現(xiàn)在暫時(shí)休學(xué)了。
他也是WebGPT的作者,這是一個(gè)3周前發(fā)布的可以基于WebGPU在瀏覽器中運(yùn)行GPT模型的開源項(xiàng)目。
聯(lián)系客服