精品无码一区二区三区,无码一区二区三区免费,国产精品9999久久久久,亚洲熟妇av一区二区三区宅男

近期,由數據猿攜手上海大數據聯盟共同推出《2024中國數智化轉型升級先鋒人物》榜單/獎項正式推出,天云數據CEO雷濤憑借“大模型連接數據庫 為數智化提供了高價值數據”觀點獲此殊榮。

該榜單今年已至第四屆。在歷經數月的時間里,由數據猿組建的初審小組、核心粉絲組成的公審團,以及外部行業專家成員組成的終審團,通過直接申報交流、訪談調研、外界咨詢評價、匿名訪問等交叉驗證的層層篩選推薦機制下,最終制作發布《2024中國數智化轉型升級先鋒人物》榜單/獎項。

近期,奧特曼講SQL數據庫和大模型結合起來會產生什么樣的化學變化引起行業關注。為什么大模型要接數據庫?

大模型訓練通常需要大量的數據。這些數據往往存儲在各種數據庫中。數據庫提供了結構化和非結構化的數據源,供大模型在訓練過程中使用。數據庫系統能夠高效地存儲、檢索和管理大量數據,使得大模型能夠從中獲取所需的信息。例如,訓練語言模型時,數據庫可以存儲大規模的文本數據,方便模型進行訪問和處理。

大模型連接價值密度最高邏輯性強、動態且鮮活的數據,這些數據都跟生產經營的交易相關,比如股票信息、金融賬戶、醫院里掛號信息,我們知道這些數據都不在靜態的文檔、文獻或報告里,而是在數據庫里。但是目前大模型所依賴的數據資源局限于靜態文獻中的知識,這在一定程度上限制了其對于高價值數據的全面獲取,尤其是那些存儲在客戶私域中的寶貴數據。目前普遍采用的RAG技術將信息檢索和生成兩個階段結合起來,通過檢索數據庫中的相關信息來輔助生成過程,解決大模型數據滯后帶來的幻覺問題,提高生成內容的質量。

此外,大模型每走一步都觀察人類反饋,朝著人類期望的方向迭代。通過條件概率找到最清晰的意圖,大幅提升了結果的準確性。因此大模型學習了人類的語言及說話方式以后,它還要了解人類的商業邏輯,對數據庫的數據做知識的封裝。

那么,大模型如何對數據庫里的數據做快速的服務和封裝?

大模型對數據庫里的數據做服務和封裝并不僅僅是一個NL2SQL自然語言轉換的問題,也不是直接從已經寫好的SQL里去檢索出答案。那我們如何面向動態的彈性的業務邏輯,從動態的生成類SQL邏輯從數據庫中拿到準確的結果。

要實現這個目標,需要應對幾個挑戰:

1、如何把模糊的意圖理解token語句轉變成精確的SQL?

很多人都嘗試使用各種國內外大模型編寫?SQL,但生成的SQL大多無法直接運行成功,所以市場上形成了大模型總在一本正經的胡說八道的認知。不少人放棄并恢復到手動編寫SQL的方式。我們用100個場景做了實驗,目前最好的大模型真正能夠直接生成可以運行且結果準確的SQL只有3%左右,得出的結論是目前大模型僅僅只能做分析師的副駕駛。

既然要盯到一個強邏輯的體系,光靠RAG肯定不夠,增加向量索引也只是把邏輯結果就已經做好SQL的表的結果反饋出來,但它不能夠動態地生成彈性的業務邏輯。那么怎么能夠動態地生成業務邏輯,天云數據進一步通過基于表的Schema、相關的實例SQL、業務邏輯上下文相關示例,通過上下文邏輯的方式進行優化準確率大幅提升。可以使模糊的意圖經過多個上下文的提醒做到了精準的SQL的轉換。

2、組織數據需要數據編織才能快速把基于意圖的數據在底層表達出來。

僅僅通過上下文邏輯實現精準SQL優化還不夠,還需要數據編織技術進一步加強。用傳統的主數據管理,強邏輯性的內容是不能夠適應動態的token意圖表達的,因此數據編織是一個非常核心的內容。多種不同類型的數據源共同編織到一起,在編織之上定義數據產品。數據產品是一組業務的表達,它是一個虛擬物化視圖,與傳統物化視圖不同,他們儲在緩存中,并能夠動態更新。在數據產品之上,我們通過算法可以動態為數據產品自行打標簽,這個標簽,是從數據結構和數據中提取的多個標簽,實時動態的標簽可以為大模型的提供更加實時、豐富的上下文,使意圖理解更加精確。數據編織使數據不局限于一個業務系統,也不用關心底層的存儲,無論Mysql、Oracle還是國產數據庫都可以納入一套SQL邏輯來管理。

3、大模型連接數據庫是強高并發任務底層HTAP數據庫是最佳選項

數據倉庫里的批處理操作演變成了高并發的交互性、實時性內容。所以這底層的數據庫不是一個簡單的NewSQL就能完成的而是需要HTAP這樣的同時擁有TP的高并發能力、AP的海量數據快速響應能力。

數據倉庫發展了這么多年,技術上大多以大規模并行處理(MPP)、內存計算、列式存儲為核心,也就是離線數倉互聯網化后的替代方案。但是比較大的實時表進來以后,數據倉庫無法支撐,必須得放到一個大的庫里來做實時。當然,另一種技術路線是,采用存算一體,或者可以像Facebook一樣,采用存算分離架構。以金融行業數據倉庫的優化為例,如果要對傳統數倉進行實時化升級,會分兩部分工作,那就是在數據入口和出口端分別做改造。以權益類服務為例,之前的用戶積分都是隔夜算,用戶可能幾個月后到商場拿積分去兌換一份商品,后端只需要做一次離線服務,就可以了。但是現在服務變了,用戶刷完卡,到底是給一張電影票,還是一個電動牙刷?這是個性化服務,必須實時計算,并且要嵌套在整個服務場景里。這時,入口端就可以采用類似于Flink這樣的架構,但是很快又發現,銀行的一個核心業務就有上千張表,很難用一個簡單的 Flink 架構支撐傳統的大型銀行系統,所以MPP +Hadoop這種奇葩的架構才會出現,而基于新興技術的HTAP,則對MPP +Hadoop這種架構徹底做了一個洗牌。對于銀行業務場景來說,一個用戶身份會涉及到卡片、賬戶、人三層結構,而核實一個用戶的建權和授權,就要通過三張這個幾千萬、上億記錄的表結構完成,很難通過單表的形式拉寬表來操作。而HTAP在銀行業務互聯網場景里,或者說在傳統信息化向產業互聯網升級過程中,就表現出獨特優勢,既滿足了MPP 的特性,又能覆蓋掉Hadoop能力。

要想實現大模型連接數據庫的連接,廠商必須同時要做數據庫和機器學習才能干這種事兒現在市場上出現了很多同時做數據庫和AI的公司,Databricks是其中的代表。Databricks基于Spark從批處理開始向下做湖倉一體向上延伸至AI。天云數據同時做數據庫和AI是因為10年前在云基地時,就發現了數據供給側和消費側最小閉環的存在。當時運營商的內容平臺項目需要做動漫、游戲、音樂小說的客戶畫像分解,傳統的Oracle數據庫無法支撐億級用戶帶來的海量上網日志,數據供給側升級,轉而用HBase等分布式開源組件處理。而數據消費側也不是SQL、可視化、報表、表盤等,而是升級為機器學習(ML)等新興的數據處理方法。當看到數據的供給和消費升級,我便帶著團隊從云基地出來創立天云數據完成最小級閉環時,自然而然會做供給側的數據庫和消費側的AI兩條產品線,我們是市場上最早同時做數據庫和機器學習賽道的。

為什么OpenAI要收購Rockset?近期,OpenAI花了5億美元(約36億人民幣)收購了企業搜索和分析初創公司Rockset。數據庫作為企業級數據價值密度最高的基礎設施,它是生成式智能繞不開的技術壁壘,所以OpenAI才會打破自己的收購記錄購買高并發的混合搜索產品。但是企業級數據庫的賽道并不僅僅要解決IO問題,更要解決數據編織的存算分離、物化視圖、虛擬數倉、聯邦計算等一系列業務邏輯的技術實踐才能夠支撐大語言模型更為Native的人機交互邏輯對數據的服務方法。這些都需要科創公司就緒全棧AI的能力,尤其是LLM之上的AI Infra,沒有所謂秘方和捷徑。

主站蜘蛛池模板: 张家川| 禹州市| 兴宁市| 霍林郭勒市| 九龙坡区| 霍邱县| 青海省| 娄烦县| 沾化县| 陇南市| 巴林右旗| 凤庆县| 芒康县| 青龙| 嘉定区| 林周县| 江安县| 宝鸡市| 安庆市| 平武县| 崇左市| 五寨县| 莎车县| 通化市| 崇阳县| 科技| 罗甸县| 大连市| 盐边县| 满洲里市| 连城县| 拉萨市| 莱阳市| 双桥区| 江油市| 明水县| 通州区| 资阳市| 车致| 松滋市| 定西市|