在AI大模型時代,任何能推動大模型發展的技術和產品都備受關注,向量數據庫便是其中之一。
(資料圖片)
今年3月,英偉達創始人兼CEO 黃仁勛首次提及向量數據庫,并強調對于構建專有大型語言模型的組織而言,向量數據庫至關重要。而資本市場則用真金白銀表達了對向量數據庫的關注,近兩個月以來,Qdrant、Chroma、Weaviate、Pinecone等海外向量數據庫公司紛紛獲得融資,其中Pinecone在4月份完成了1億美元的B輪融資,估值達到7.5億美元。
東北證券預測,到2030年,全球向量數據庫市場規模有望達到500億美元,國內向量數據庫市場規模有望超過600億人民幣。
在此背景下,國內企業也在加速對向量數據庫的布局。7月4日下午,騰訊云對外正式了發布AI 原生(AI Native)向量數據庫——Tencent Cloud VectorDB。據介紹,該數據庫是國內首個從接入層、計算層、到存儲層提供全生命周期AI化的向量數據庫,將于8月份登陸騰訊云官網。
那么究竟什么是向量數據庫?在機器學習和數據科學中,向量通常表示為一組數字,它們構成了一個多維的數值空間。向量的每個維度代表該空間的一個不同的特征或屬性,例如圖像中不同像素點的顏色值、文本中每個詞的出現頻率等。通過對向量進行數學運算,可以實現各種機器學習算法和數據分析技術。而向量數據庫是一種專門用于存儲和管理向量數據的數據庫。
在許多人工智能和機器學習任務中,數據都需要轉換為向量形式,以便模型能夠理解和處理。在自然語言處理任務中,文本數據可以通過詞嵌入(word embedding)等方法轉換為向量。目前,大語言模型(LLM)往往包含數十億個參數,嵌入則已廣泛作用于這些模型的訓練和微調過程,使其獲得執行各種NLP任務的能力。
騰訊云數據庫副總經理羅云表示,向量數據庫具有高效的查詢和相似性搜索能力,這使得大模型可以快速地從數據庫中檢索相關的知識和信息。例如,在問答系統中,大模型可以根據輸入問題的向量表示,在向量數據庫中查找與問題相關的答案或信息。
同時,向量數據庫還可以作為大模型訓練過程中的數據來源。在訓練過程中,大模型需要從數據庫中抽取大量的向量數據進行學習。向量數據庫的高效查詢能力可以加速訓練過程,提高模型的學習效率。
統計顯示,將騰訊云向量數據庫用于大模型預訓練數據的分類、去重和清洗相比傳統方式可以實現10倍效率的提升,如果將向量數據庫作為外部知識庫用于模型推理,則可以將成本降低2-4個數量級。在實際案例中,企業原先接入一個大模型需要花1個月左右時間,使用騰訊云向量數據庫后,3天即可完成。
值得關注的是,在正式發布之前,騰訊云向量數據庫已經經過騰訊內部海量場景的實踐,并應用在騰訊視頻、QQ瀏覽器、QQ音樂等30多款軟件中。數據顯示,使用騰訊云向量數據庫后,QQ音樂人均聽歌時長提升3.2%、騰訊視頻有效曝光人均時長提升1.74%、QQ瀏覽器成本降低37.9%。
羅云提到,大模型的存儲空間有限,目前的大模型都是預訓練模型,對于訓練截止日之后發生的事情一無所知。向量數據庫可以通過存儲最新信息后給大模型訪問來彌補這點不足。此外,通過向量數據的本地存儲,向量數據庫能夠協助解決目前企業界最擔憂的大模型泄露隱私的問題。
因此,當算法和模型無法突破數據在時空緯度的限制時,LLM+外部知識庫也成為一種必然的架構。業內也達成的共識是,在相似性檢索方案中,向量檢索是目前最成熟和有效的方案。
關鍵詞: