2023年度科技行業“競爭力”評選 ,多層次展現科技互聯行業在 2023 年內所取得的一系列精彩突破和超越,通過聚焦科技互聯行業在人工智能、電商、新零售、在線教育、企業社會責任等方面的動作,分享科技互聯行業企業、平臺、品牌在實現各種“遙遙領先”過程中的故事和經驗。北京晚報《科技》評:天云數據,國產數據庫走向自立自強。
國產數據庫的昨天以分布式為主,只能做單項突破,核心解決算力拓展問題,這個賽道以開源調度封裝為主。
國產數據庫的今天是混合負載的HTAP數據庫,核心面向互聯網的產銷合一邏輯,解決場景融合問題實現全場景覆蓋。這里面有兩個核心關鍵點:使用什么時間的數據?面向誰提供數據服務?
使用什么時間的數據?你在消費什么時間的數據?是在消費以天、小時級、分鐘級、秒級還是百毫秒級的數據?有一篇論文《我的HTAP系統有多好?》,談到的第一個技術指標就是Freshness(新鮮度)。
面向誰提供數據服務?傳統BI以報表、可視化更多是面向決策層。但互聯網帶來服務下沉,數據驅動業務推到了C端客戶。個性化的數據服務的核心技術指標就是高并發。
既能滿足新鮮度又能支撐高并發的必須是HTAP數據庫。信通院2023可信數據庫發展大會上,何寶宏所長指出:HTAP數據庫助力用戶降本增效。而天云數據是HTAP數據庫廠商代表,也是首批通過信通院“可信數據庫”-HTAP數據庫產品評測的三家單位之一。
數據庫的明天一定是AI原生,通過數據智能替代經驗和規則。目前數據庫與大模型的連接還處于第一階段,需要的是面向靜態常識性數據的向量數據庫。下一階段就是發揮更鮮活的實時數據的價值,就是通過大模型把寬泛的、動態的、模糊的數據與企業級高價值密度的數據庫鏈接。比如天云數據在某股份制商業銀行實現庫內在線反欺詐,每天千萬級交易數據數據實時并發入庫,接近100個復雜欺詐規則分析,毫秒返回分析結果;在某能源的“分布式光伏發電預測”,實現了在真實環境中對區域內發電用電情況的優化匹配,可為自發自用企業節省10%的電費;通過知化將數據變成可操作的檔案、可解讀的政策、可計算的情緒、可度量的運營等,實現了萬物皆可計算。
這也是Databricks用AI釋放數據潛力的方法。因為Databricks歷來都有自研的AI產品,具備技術能力發布大模型產品釋放數據價值。
科技競爭就像短道速滑,最后比拼的是誰速度更快、更能持續。因此必須摒棄拿來主義,要緊緊扭住技術創新這個戰略基點,掌握更多關鍵核心技術,創新中國堅定前行。產替代整體的推進進程注定不是一場分蛋糕的游戲,而是一場殘酷的淘汰賽。
正如習近平總書記關于企業社會責任的重要論述:“社會是企業家施展才華的舞臺。只有真誠回報社會、切實履行社會責任的企業家,才能真正得到社會認可,才是符合時代要求的企業家。”
北京晚報稱:值得一提的是,在這個并不平凡的2023年,人工智能、大模型、大數據等細分行業在銳意進取中不斷提升著各自的競爭力——讓我們有幸看到一個科技行業繁花似錦和“遙遙領先”的2023年。
秉持著多年來包容、開放的基本原則,北京晚報《科技》一如既往地以客觀公正的視角,全面系統的審視這并不平凡的一年。?天云數據以“信創”數據庫為標簽,和千億大廠一起躋身科技競爭力榜單!
天云數據自主研發的Hubble數據庫,從技術層面實現了去中心化的分布式架構可以更加高效、快速、靈活地處理大規模數據:基于Go語言實現,天然云原生支持、基于AI優化、面向連接的多源異構能力,面向物化視圖的虛擬緩存技術等,這些技術的應用使得系統在大規模數據處理方面具有獨特的核心競爭力。無論是在性能、可靠性還是靈活性方面,該系統都具備出色的表現,為用戶提供了高效、快速、穩定的數據處理服務。此外,天云數據就緒全棧AI的能力,其大模型多模態領域的NeRF技術,大大加速數字孿生空間的生成和構建,率先帶領行業開啟了數實融合的時代帷幕。成為新一代國貨之光的數字經濟基座。
國內能夠做原創測試的屈指可數。工信部開展源代碼自主度測試方案,在400W+開源項目、10000W+組件數、160TB源碼進行代碼以每10行檢測粒度進行一一比對。天云數據公司通過測試,系統自主研發率99.62%。
從年初ChatGPT的火爆,到如今的百模大戰,盡管熱點還在大模型,但媒體和公眾似乎不再像幾個月前那般對大模型產品“上頭”,注意力開始關注到底層技術。目前大模型主要基于的語料數據主要是非結構化數據,各種類型的文檔、圖片、音視頻等訓練出來多模態模型,對于訓練模型本身,這些非結構化數據就需要預處理轉化為向量數據。此外,向量化數據的存儲,需要一個分布式向量數據庫進行支撐,這是非結構化數據大模型場景工程化落地必然路徑。
那么到底是做向量數據庫還是在現有數據庫中加上向量引擎?向量數據庫廠商Zilliz在自己的官方賬號中對向量數據庫的2023做了8 個預測,第3點便是:向量數據庫與傳統數據庫的進一步融合。當一家公司擁有強大的技術基礎和需要先進的向量搜索功能的大量工作負載時,他們真正需要的是一款特化的向量數據庫,所以行業媒體InfoQ發文:與其投資新的向量數據庫項目,還不如關注現有數據庫中哪些加上向量引擎可以變得更加強大。
事實上,很多數據庫都可以直接添加索引模塊來實現高效向量搜索。這個可以對標北美的向量數據庫創業公司Chroma,底層使用是實時分析數據庫?ClickHouse。“僅僅”是在著名實時分析數據庫 ClickHouse 上封裝了一層而已,?Chroma便一躍成為新晉向量數據庫。由此可見一斑,要想使現有數據庫支持向量搜索功能并非很難實現,而大量現有數據庫很有可能已經實現或在在不久的未來實現數據庫的向量搜索功能。
天云數據AI原生數據庫Hubble 有先發優勢,向量化Retrieve是天云Hubble 數據庫和Kaleido特征工程的一個組合,也就特征工程產品里的十幾種的向量方法,比如高斯距離、最短近鄰的算法,將這十幾種的向量方法封裝在Hubble數據庫的解析層,實現數據庫的向量化能力構建。
這也是Databricks用AI釋放數據潛力的方法。因為Databricks歷來都有自研的AI產品,具備技術能力發布大模型產品釋放數據價值。
以大模型為例,當大模型回歸理性,市場必然要經歷一場大浪淘沙。關乎技術,更關乎商業模式。
行業已關注到:目前幾乎所有的大模型預訓練都基于Transformer架構,雖是“百模大戰”,但各家大模型之間同質化嚴重,實質性的創新相對較少。同時,訓練大模型所耗費的計算資源非常龐大,需要超級算力的支撐,很多公司沒有過往的研究履歷,發布的產品多是“套殼”或者接入其他研發機構的模型,投機現象泛濫。
當下的大模型競爭早已超過了技術的范疇,更多是一種生態層面的比拼,如果沒有良好的可循環生態,那么無論在模型的持續迭代,抑或變現攤薄巨額研發成本方面,都會面臨可預見的重大困境,對于創業型公司來說更是如此。
很多AI技術因為LLM變得炙手可熱,但這些技術本身并不是新興事物。國內起家的自研技術廠商天云數據,一直堅持數據供給與數據消費雙輪驅動。大模型面向工程領域的落地,去除預訓練模型的同質化,遷移學習和強化學習缺一不可。預訓練模型依靠強大的數據工程完成,模型即數據,數據即模型。遷移學習和強化學習是AI Infra技術工程架構,依靠向量化數據庫實現私域數據的工程落地。強化學習需要繼承依賴有監督學習的模型訓練流水線,天云數據作為MLops廠商有強大優勢。?MaximAI-PaaS機器學習強化平臺穩居全球資訊機構Forrester魔力象限圖“認知層”第一象限公司,IDC技術圖譜“遞增型”、“變革型”產品提供商。此外,天云數據私域大模型Elips成為入圍中國信通院白名單,入選2023可信AI案例;作為新產品榮獲新2023全球數字經濟大會“產業創新成果”。
越是面對如大模型落地這種復雜的問題,就越是要回歸更本質的層面去思考,考驗的不僅是技術力,更重要的還是要落實在“服務”二字上,更高效、更便捷、更人性化將會是未來可持續探索的重要方向。
]]>談到信創,任何資質和獎項都要先讓位國產自研技術。作為信息的聚集體,數據庫是計算機信息系統的核心部件,其安全性至關重要。如何有效地保證數據庫系統的安全,實現數據的保密性、完整性和有效性,這不僅關系到企業的興衰,更關乎國家的安全。天云數據,在沒有行業經驗可借鑒的情況下,潛心耕耘另辟蹊徑布局國產自研數據庫,輸出近四百萬行自研Go語言代碼。
2021年,工信部印發的《“十四五”軟件和信息技術服務業發展規劃》明確指出,要聚力攻堅基礎軟件,關鍵基礎軟件補短板,夯實開發環境、工具等產業鏈上游基礎軟件實力。在此背景下,工信部開展源代碼自主度測試方案,在400W+開源項目、10000W+組件數進行多維度自主度分析。天云數據公司自主研發的Hubble數據庫源代碼國產化率93%,系統自主研發率99.62%,是真正意義上信創數據庫。
信創,是基于改變中國信息產業“缺芯少魂”現狀、建立中國自主完整信息產業鏈、提升國內信息產業競爭力、保障國家信息安全的戰略考慮,逐漸發展演變出的創新產業。2006年,國務院發布《國家中長期科學和技術發展規劃綱要(2006-2020年)》,將“核高基”列入16個重大科技專項之一,被普遍認為信創的起點;2020年央行成立金融信創生態實驗室,第一批“金融信創解決方案”出現,被公認為信創產業的應用實踐元年。
樹高葉茂,系于根深。數據時代,作為各行各業的發展記錄和決策依據,數據庫的根基作用不容忽視。只有根扎得深咬得牢,才能汲取更多向上生長與向外延伸的力量。
現在的一些開源框架,通過工程化的手段能夠被市場接受了。把TP和AP做融合,成為湖倉一體的概念;然后把MPP數據庫與湖倉一體融合,成為新技術趨勢。實際上就是將MPP數據庫加Hadoop開源。
這種現象會帶來什么風險?MPP數據庫不能單獨支持湖倉一體,它需要 Hbase和ES來配合,本質還是屬于數據集。在某大型股份制銀行,為了支持手機銀行端的個性化數倉,實現手機端對大屏小屏化的趨勢,傳統MPP結構根本沒法滿足剛才說的這種服務價值,還要配套數百個節點,所以現在市場上湖倉一體的本質還是一個集成方案,需要在傳統MPP數據庫和開源Hadoop之間做大量的數據同步和一致性校驗。既然要有數據同步,就必然有時間窗口、數據的不及時性、不一致性。
所以第一個變化,就是數據新鮮度的變化。我們在使用什么時間的數據,是在消費以天、小時級、分鐘級、秒級還是百毫秒級的數據?HTAP現在作為一種主流的技術框架,已經開始進入到核心數據驅動業務的前端,支撐我們消費最新鮮的數據。我們怎么用數據,流的形式跟庫發生關系HTAP就是Hybrid Transaction and Analytical Process就是混合負載架構。
此外,我們在面前誰提供數據服務?這個問題是非常關鍵。
我們以前在數據消費的時候更多的都是在數據倉庫里完成。數據倉庫是OLAP分析型業務,通過侵占更多的資源來完成一個大IO操作。所以MPP數據庫有一個很大的挑戰就是它不能夠支持高并發,它的作業是排隊機制。當遇到個性化服務下沉時,它就碰到了一個瓶頸。
市場提出了一個新概念Lakehouse(湖倉一體),就是把數據倉庫處理結果再同步到一個大數據平臺,比較受歡迎的方式就是MPP再加上Hbase。我曾經看到一個國產化項目,真的把MPP數據庫給替代了。但是面向1億多用戶的小屏服務的時,它不得已還要同步到一個大規模的Hbase里頭,Hbase來支撐MPP數據庫的個性化的駕駛艙與提交,又變回開源且復雜的工程。就這個項目大概300多個節點Hbase、600多個運維開發人員,每年的運維費用、開發服務費用大概3個多億的人力成本。
所以用產品級基礎設施架構去替代開源工程和大規模人力外包服務是一個很典型的一個技術平臺趨勢。無疑又是HTAP混布型數據庫,可以支撐替代MPP加Hbase這個結構來實現服務下沉。
所以第二個變化,我們面向誰在提供數據服務?互聯網的數據產銷合一方式帶動了流程驅動向數據驅動的數據庫架構轉型,數據從服務決策者轉向服務一線人員,HTAP系統才能保障每個人都能實時看到同樣高質量的數據。
因此,新一代硬核基礎設施必須是HTAP數據庫。
很久以來,國產基礎軟件都停留在被“卡脖子”的印象里。軟件再好,但若是都使用美國的軟件開發工具開發,則意味著無法徹底擺脫美國的制裁風險。國內軟件廠商在核心技術被壟斷的情況下,想要實現彎道超車十分困難。但是,軟件行業為各行業全方位賦能的過程中,高速增長加快創新,逐步追趕、甚至局部超越國際一流水平。天云數據,在沒有行業經驗可借鑒的情況下,潛心耕耘另辟蹊徑布局國產自研數據庫,輸出近四百萬行自研Go語言代碼。自主研發的Hubble數據庫產品經過中國軟件測評中心評測源代碼系統自主研發率99.62%,面向基礎設施而生。
ChatGPT的火爆讓相關從業人員已經開始的擔心自己的工作崗位。一句話說得好:“AI will not repalce you. A person who’s using AI will replace you.”?試問,是不是我們沒有1500萬的GPU集群,無法有組織有序列地去收集全文本空間的數據,我們就不能夠做到OpenAI這樣?再問,那我們有什么樣的機制,我們能做到什么樣?三問,除了ChatGPT的意圖理解和文本生成以外,我們在還能學習什么?
我們必須客觀看待每一次科技進步,科技行業所有的機遇無外乎三個要素:第一個是技術。Transformer架構其實是公開論文上的,國內很多高校和產業的初創公司都可以去使用它;第二個是數據資源。中國有什么數據資源?中國有機器數據、傳感器、物聯網數據,明顯踩著第三波數字紅利,具有得天獨厚的優勢;第三個是算力。我想依靠國家的資源完全能將算力資源有效地組織起來。我們不要把能力構建在一個線上應用上,要把我們的能力應用在產業的原生動力上,正確看待科技進步。
一系列行業實踐和探索指明了答案:“AI大模型”建立一套通用的流水線提升企業AI開發效率,“知識計算”將AI知識與行業知識相結合,雙管齊下,解決AI在行業落地中的建模復雜、求解困難等問題,將AI真正融入行業的核心業務流程。
為鼓勵大模型技術落地應用,AIIA人工智能產業發展大會評選「?大模型研發應用和工具平臺優秀案例」,天云數據大模型的落地應用案例“金融文本信息要素抽取”作為標桿案例入選。天云數據大模型Elpis,基于私域數據,通過遷移學習和RLHF人類反饋強化學習對模型微調,將大模型能力應用在產業的原生動力上。
為鼓勵生成式AI技術落地應用,AIIA人工智能產業發展大會同樣評選了「?生成式人工智能技術和應用優秀案例」,天云數據“數字人視頻合成系統”作為標桿案例入選。
(天云數據生成式AIGC虛擬數字人系統)
此外,該平臺支持分布式模型訓練及部署方式,可以有效的提高模型訓練能力和保證產品的高可用性;算法組件方面可支持幾十種不同領域的優質算法,還支持多種目前主流的深度學習框架。
2023“蓉漂杯”吸引在蓉高校院所、企業、博士博士后代表,成都科創投、賽富高鵬等9家知名投資機構嘉賓等300余人參加活動,來自北京、西安等地60個優秀人才項目現場進行巔峰對決,天云數據榮獲2023“蓉漂杯”大賽一等獎。
基礎軟件的發展已不單單是一個行業的發展,更關乎著國家產業結構轉型,基礎軟件是支撐信息產業升級的“根技術”。
軟件是新一代信息技術的靈魂,是數字經濟發展的基礎,是制造強國、網絡強國、數字中國建設的關鍵支撐。2021年,工信部印發的《“十四五”軟件和信息技術服務業發展規劃》明確指出,要聚力攻堅基礎軟件,關鍵基礎軟件補短板,夯實開發環境、工具等產業鏈上游基礎軟件實力。
在此背景下,工信部開展源代碼自主度測試方案,在400W+開源項目、10000W+組件數進行多維度自主度分析。核心功能包括源代碼開源率分析、軟件成分分析、開源安全漏洞風險分析、開源許可證合規性風險分析。天云數據公司自主研發的Hubble數據庫源代碼國產化率93%,系統自主研發率99.62%,是真正意義上信創數據庫。
根據Slintel網站的統計數據,在全球關系型數據庫市場中,MySQL市場份額最高,達到43.04%,僅次于MySQL份額的便是PG。Hubble數據庫源代碼國產化率為93%,其開源率便是為了兼容這些開源產品而服務的。
談到信創,任何資質和獎項都要先讓位國產自研技術。Hubble數據庫走更貼近企業數據中心的Oracle路徑,實現數據庫的替代升級邏輯,可以規?;鎿Q。實踐中,在銀行A類核心系統國產化成功替換Oracle一體機。對比Oracle,單表3億記錄數量級下的用戶業務場景性能突破Oracle800并發瓶頸,1600并發下依然保持線性穩定服務。同等并發下,平均響應時間和最大響應時間均優于Oracle,具有穩定的線性橫向擴展能力。
在國有四大銀行之一中行就企業級架構相關項目組件入圍選型項目第二包:具備HTAP能力商用分布式數據庫進行采購,天云數據是第一名身份中標。在某股份制商業銀行數字化智能營銷營銷平臺項目,Hubble數據庫處于該銀行系統架構的最核心層—數據中臺層,負責給數據采集、加工、服務、治理,提供數據最安全、最健全的保障,支撐數字化智能營銷平臺月均觸客人次4億+。
我們知道,PC時代的產品語言是C/C++,C語言的理念是信任程序員,但應對大規模問題還是會捉襟見肘;互聯網時代換成了Java語言,雖然Java語言跨平臺異構的能力強,但因其編碼繁瑣,所以運行效率很低。
Hubble數據庫是基于最適合云原生的GO語言編寫,已通過邏輯計劃融合SQL、Graph、ML、3D 點云、NL2SQL等實現AI-Native數據庫,支持36種AI原生算法;支持158種量化分析函數;支持圖邏輯計劃;支持3D點云。
縱觀市場上,80%以上的產品語言是Java,能實現50%Go語言的也是鳳毛麟角。Hubble數據庫100%基于GO語言編寫,可編排、可調度、運維量小,適合云原生時代,彈性伸縮,按需分配。
簡單做一個運維量評估:C/C++ 100萬行代碼約等于Java60-70萬代碼,對應到Go語言大概也就是20~30萬行代碼,其運維量可見一斑。
天云數據Hubble數據庫通過Hubble-vector基于私域數據通過遷移學習和RLHF(人類反饋強化學習)對模型微調,完全可對標托管向量數據庫Pinecone。
Hubble-vector支撐大模型服務,使模型語境更適用于當前私域數據場景,并且做到答案可精確溯源,最后通過模型管理進行服務的發布供用戶使用。在生成時可以引用原有法條做準確嚴謹回答,對比通用大模型,更適合機構私有數據。
隨著云計算平臺的逐漸成熟,應用上云已經成為一個不可逆轉的趨勢了。云目前是朝著云原生架構的方向演進的,云原生架構中有具有統治力的云原生項目都是用Go來構建的。因此,Go是云計算時代的語言,它既適應于互聯網應用的極速開發,又能在高并發、高性能的開發場景中如魚得水。
]]>