在AI大模型時(shí)代,任何能推動(dòng)大模型發(fā)展的技術(shù)和產(chǎn)品都備受關(guān)注,向量數(shù)據(jù)庫便是其中之一。
今年3月,英偉達(dá)創(chuàng)始人兼CEO 黃仁勛首次提及向量數(shù)據(jù)庫,并強(qiáng)調(diào)對(duì)于構(gòu)建專有大型語言模型的組織而言,向量數(shù)據(jù)庫至關(guān)重要。而資本市場(chǎng)則用真金白銀表達(dá)了對(duì)向量數(shù)據(jù)庫的關(guān)注,近兩個(gè)月以來,Qdrant、Chroma、Weaviate、Pinecone等海外向量數(shù)據(jù)庫公司紛紛獲得融資,其中Pinecone在4月份完成了1億美元的B輪融資,估值達(dá)到億美元。
(資料圖)
東北證券預(yù)測(cè),到2030年,全球向量數(shù)據(jù)庫市場(chǎng)規(guī)模有望達(dá)到500億美元,國內(nèi)向量數(shù)據(jù)庫市場(chǎng)規(guī)模有望超過600億人民幣。
在此背景下,國內(nèi)企業(yè)也在加速對(duì)向量數(shù)據(jù)庫的布局。7月4日下午,騰訊云對(duì)外正式了發(fā)布AI 原生(AI Native)向量數(shù)據(jù)庫——Tencent Cloud VectorDB。據(jù)介紹,該數(shù)據(jù)庫是國內(nèi)首個(gè)從接入層、計(jì)算層、到存儲(chǔ)層提供全生命周期AI化的向量數(shù)據(jù)庫,將于8月份登陸騰訊云官網(wǎng)。
那么究竟什么是向量數(shù)據(jù)庫?在機(jī)器學(xué)習(xí)和數(shù)據(jù)科學(xué)中,向量通常表示為一組數(shù)字,它們構(gòu)成了一個(gè)多維的數(shù)值空間。向量的每個(gè)維度代表該空間的一個(gè)不同的特征或?qū)傩裕鐖D像中不同像素點(diǎn)的顏色值、文本中每個(gè)詞的出現(xiàn)頻率等。通過對(duì)向量進(jìn)行數(shù)學(xué)運(yùn)算,可以實(shí)現(xiàn)各種機(jī)器學(xué)習(xí)算法和數(shù)據(jù)分析技術(shù)。而向量數(shù)據(jù)庫是一種專門用于存儲(chǔ)和管理向量數(shù)據(jù)的數(shù)據(jù)庫。
在許多人工智能和機(jī)器學(xué)習(xí)任務(wù)中,數(shù)據(jù)都需要轉(zhuǎn)換為向量形式,以便模型能夠理解和處理。在自然語言處理任務(wù)中,文本數(shù)據(jù)可以通過詞嵌入(word embedding)等方法轉(zhuǎn)換為向量。目前,大語言模型(LLM)往往包含數(shù)十億個(gè)參數(shù),嵌入則已廣泛作用于這些模型的訓(xùn)練和微調(diào)過程,使其獲得執(zhí)行各種NLP任務(wù)的能力。
騰訊云數(shù)據(jù)庫副總經(jīng)理羅云表示,向量數(shù)據(jù)庫具有高效的查詢和相似性搜索能力,這使得大模型可以快速地從數(shù)據(jù)庫中檢索相關(guān)的知識(shí)和信息。例如,在問答系統(tǒng)中,大模型可以根據(jù)輸入問題的向量表示,在向量數(shù)據(jù)庫中查找與問題相關(guān)的答案或信息。
同時(shí),向量數(shù)據(jù)庫還可以作為大模型訓(xùn)練過程中的數(shù)據(jù)來源。在訓(xùn)練過程中,大模型需要從數(shù)據(jù)庫中抽取大量的向量數(shù)據(jù)進(jìn)行學(xué)習(xí)。向量數(shù)據(jù)庫的高效查詢能力可以加速訓(xùn)練過程,提高模型的學(xué)習(xí)效率。
統(tǒng)計(jì)顯示,將騰訊云向量數(shù)據(jù)庫用于大模型預(yù)訓(xùn)練數(shù)據(jù)的分類、去重和清洗相比傳統(tǒng)方式可以實(shí)現(xiàn)10倍效率的提升,如果將向量數(shù)據(jù)庫作為外部知識(shí)庫用于模型推理,則可以將成本降低2-4個(gè)數(shù)量級(jí)。在實(shí)際案例中,企業(yè)原先接入一個(gè)大模型需要花1個(gè)月左右時(shí)間,使用騰訊云向量數(shù)據(jù)庫后,3天即可完成。
值得關(guān)注的是,在正式發(fā)布之前,騰訊云向量數(shù)據(jù)庫已經(jīng)經(jīng)過騰訊內(nèi)部海量場(chǎng)景的實(shí)踐,并應(yīng)用在騰訊視頻、QQ瀏覽器、QQ音樂等30多款軟件中。數(shù)據(jù)顯示,使用騰訊云向量數(shù)據(jù)庫后,QQ音樂人均聽歌時(shí)長提升%、騰訊視頻有效曝光人均時(shí)長提升%、QQ瀏覽器成本降低%。
羅云提到,大模型的存儲(chǔ)空間有限,目前的大模型都是預(yù)訓(xùn)練模型,對(duì)于訓(xùn)練截止日之后發(fā)生的事情一無所知。向量數(shù)據(jù)庫可以通過存儲(chǔ)最新信息后給大模型訪問來彌補(bǔ)這點(diǎn)不足。此外,通過向量數(shù)據(jù)的本地存儲(chǔ),向量數(shù)據(jù)庫能夠協(xié)助解決目前企業(yè)界最擔(dān)憂的大模型泄露隱私的問題。
因此,當(dāng)算法和模型無法突破數(shù)據(jù)在時(shí)空緯度的限制時(shí),LLM+外部知識(shí)庫也成為一種必然的架構(gòu)。業(yè)內(nèi)也達(dá)成的共識(shí)是,在相似性檢索方案中,向量檢索是目前最成熟和有效的方案。
(文章來源:21世紀(jì)經(jīng)濟(jì)報(bào)道)
關(guān)鍵詞:
焦點(diǎn)簡(jiǎn)訊:洗發(fā)水哪個(gè)好用防脫發(fā)?【選擇正確洗發(fā)水】 你是否也在為每天早晨枕頭上的脫發(fā)感到苦惱?一款優(yōu)質(zhì)的防脫洗發(fā)水可能
每日速訊:喜臨門:
公司會(huì)在定期報(bào)告中披露截止報(bào)告期末的股東戶數(shù) 喜臨門(603008)07月05日在投資者關(guān)系平臺(tái)上答復(fù)了投資者關(guān)心的問題。
全球快播:買一送一 前國米門將科爾達(dá)茲接近加盟利雅得勝利 據(jù)意大利記者斯基拉的消息,國米門將科爾達(dá)茲接近離隊(duì),他將加盟利雅得
全球簡(jiǎn)訊:隨喜功德我該怎么說_隨喜功德圖片 1、他所做的也是您想做的。2、所以發(fā)自內(nèi)心的真誠向他祝賀并贊嘆。本文
中南大學(xué)郵箱登錄賬號(hào)(中南大學(xué)郵件系統(tǒng)) 你們好,最近小活發(fā)現(xiàn)有諸多的對(duì)于中南大學(xué)郵箱登錄賬號(hào),中南大學(xué)郵件
鴻利智匯(300219.SZ):股東李國平近期大宗交易減持1.93%股份-熱聞 格隆匯7月4日丨鴻利智匯(300219 SZ)公布,公司于近日收到持股5%以上股
片仔癀: 漳州片仔癀藥業(yè)股份有限公司2022年年度權(quán)益分派實(shí)施公告 片仔癀:漳州片仔癀藥業(yè)股份有限公司2022年年度權(quán)益分派實(shí)施公告