
數據庫基礎平臺Hubble?邏輯計劃融合Vector支撐大模型服務
從年初ChatGPT的火爆,到如今的百模大戰,盡管熱點還在大模型,但媒體和公眾似乎不再像幾個月前那般對大模型產品“上頭”,注意力開始關注到底層技術。目前大模型主要基于的語料數據主要是非結構化數據,各種類型的文檔、圖片、音視頻等訓練出來多模態模型,對于訓練模型本身,這些非結構化數據就需要預處理轉化為向量數據。此外,向量化數據的存儲,需要一個分布式向量數據庫進行支撐,這是非結構化數據大模型場景工程化落地必然路徑。
那么到底是做向量數據庫還是在現有數據庫中加上向量引擎?向量數據庫廠商Zilliz在自己的官方賬號中對向量數據庫的2023做了8 個預測,第3點便是:向量數據庫與傳統數據庫的進一步融合。當一家公司擁有強大的技術基礎和需要先進的向量搜索功能的大量工作負載時,他們真正需要的是一款特化的向量數據庫,所以行業媒體InfoQ發文:與其投資新的向量數據庫項目,還不如關注現有數據庫中哪些加上向量引擎可以變得更加強大。
事實上,很多數據庫都可以直接添加索引模塊來實現高效向量搜索。這個可以對標北美的向量數據庫創業公司Chroma,底層使用是實時分析數據庫?ClickHouse。“僅僅”是在著名實時分析數據庫 ClickHouse 上封裝了一層而已,?Chroma便一躍成為新晉向量數據庫。由此可見一斑,要想使現有數據庫支持向量搜索功能并非很難實現,而大量現有數據庫很有可能已經實現或在在不久的未來實現數據庫的向量搜索功能。
天云數據AI原生數據庫Hubble 有先發優勢,向量化Retrieve是天云Hubble 數據庫和Kaleido特征工程的一個組合,也就特征工程產品里的十幾種的向量方法,比如高斯距離、最短近鄰的算法,將這十幾種的向量方法封裝在Hubble數據庫的解析層,實現數據庫的向量化能力構建。
這也是Databricks用AI釋放數據潛力的方法。因為Databricks歷來都有自研的AI產品,具備技術能力發布大模型產品釋放數據價值。
天云數據AI Infra基礎平臺?提供完整的生態服務
以大模型為例,當大模型回歸理性,市場必然要經歷一場大浪淘沙。關乎技術,更關乎商業模式。
行業已關注到:目前幾乎所有的大模型預訓練都基于Transformer架構,雖是“百模大戰”,但各家大模型之間同質化嚴重,實質性的創新相對較少。同時,訓練大模型所耗費的計算資源非常龐大,需要超級算力的支撐,很多公司沒有過往的研究履歷,發布的產品多是“套殼”或者接入其他研發機構的模型,投機現象泛濫。
當下的大模型競爭早已超過了技術的范疇,更多是一種生態層面的比拼,如果沒有良好的可循環生態,那么無論在模型的持續迭代,抑或變現攤薄巨額研發成本方面,都會面臨可預見的重大困境,對于創業型公司來說更是如此。
很多AI技術因為LLM變得炙手可熱,但這些技術本身并不是新興事物。國內起家的自研技術廠商天云數據,一直堅持數據供給與數據消費雙輪驅動。大模型面向工程領域的落地,去除預訓練模型的同質化,遷移學習和強化學習缺一不可。預訓練模型依靠強大的數據工程完成,模型即數據,數據即模型。遷移學習和強化學習是AI Infra技術工程架構,依靠向量化數據庫實現私域數據的工程落地。強化學習需要繼承依賴有監督學習的模型訓練流水線,天云數據作為MLops廠商有強大優勢。?MaximAI-PaaS機器學習強化平臺穩居全球資訊機構Forrester魔力象限圖“認知層”第一象限公司,IDC技術圖譜“遞增型”、“變革型”產品提供商。此外,天云數據私域大模型Elips成為入圍中國信通院白名單,入選2023可信AI案例;作為新產品榮獲新2023全球數字經濟大會“產業創新成果”。
越是面對如大模型落地這種復雜的問題,就越是要回歸更本質的層面去思考,考驗的不僅是技術力,更重要的還是要落實在“服務”二字上,更高效、更便捷、更人性化將會是未來可持續探索的重要方向。