2024年10月18日,作為“全球資產管理中心 上海國際活動周2024”壓臺活動,“第五屆1024資管科技開發者大會”在上海·臨港中心圓滿舉行。在媒體采訪環節中,天云數據CEO雷濤針對財聯社、上海證券報、21世紀經濟報道等媒體提問,核心談了對大模型和數據的連接問題。
在過去一年您的機構的實踐中,大語言模型在哪些場景上落地取得了成功?
您問題的核心在大語言模型,其實在基模(基礎模型)上,市場已經在第二代視覺多模態大模型和第三代空間認知大模型上取得了非常大的成果和突破。
當然,大語言模型是知識的容器,在整個流水線中扮演非常關鍵的位置,可以有效地處理視覺和空間感知的多維信號擴展人類的融合認知。
咱們現場舉例,就今天的采訪視頻,我們要如何去編輯處理?還是傳統的定位到每一幀每一秒去剪輯?大語言模型在多模態在空間認知上取得了非常大的一個成果,已經可以基于語言模型抽象出每一個嘉賓的核心觀點,還可以基于內容選擇,所見、所選及所得,把勞動力從重復性的工作中解放出來,實現場景式理解視頻內容。
Agent、RAG、GraphRAG,新大模型生態鏈技術層出不窮,在未來發展中,您看好哪些新的發展方向?它們會如何在資管領域取得應用?
針對這個問題,我想先談一下大模型和數據的關系。因為我們天云數據本身就同時做數據供給側的混合負載數據庫和數據消費側的機器學習平臺。
那么,為什么我們要關注大模型和數據?
這個可以從存量和增量兩個方向上去看:存量是這兩年的主流,就是把已有的知識做知識封裝和知識移動,一種端到端的訓練方法;增量是用RAG、用向量數據庫外掛在模型之上,將增量的信息全部訓練進去,我們去年在ITL發布的證券法規助手就是這種方法。現在的企業數據,不僅僅只有文檔、手冊這些靜態的科技文獻內容,更多的是流動的、數據價值密度更高的信息,這些是存在數據庫里的。
針對存量的一個核心關鍵詞就是大模型to DB,也就是我們怎么對高價值密度的數據,在不用精密地組織語言的同時,還能作出準確數字類問題的回答,比如客服里的定價問題、價格交易等問題。
我們服務于券商的數字人,播報的內容是來自于實時交易系統的數據和研報文本內容的結合。針對這樣的場景,就需要把大模型的模糊意圖匹配和精確的SQL操作形成連接。這種連接不是一對一的,面涉及到非常復雜的工程技術。如何保證像ASR語音識別這些機器學習模型回答一個準確的答案?比如現在的銷量是多少,是產品的銷量還是區域的銷量。像這樣模糊的意圖匹配,怎么和數據庫里精確的字段完成匹配?在后臺,需要準備大量的密集計算操作。傳統的MPP數據庫是沒有并發能力的,可能只能支撐一句話十幾個token的內容。但高并發任務,成百上千個寬表的OLAP執行對數據基礎設施的要求非常高,只有HTAP數據庫能勝任這種大模型的高并發AP類業務的底座。
存量突出解決的場景就是針對密集計算的跟數據相關的大語言模型的交互。
第二個方向就是增量,這里面一個核心關鍵詞是合成數據。供給大模型的數據資源從哪里來?這里面涉及到非常多的場景,最早我們使用合同數據更多地是面向專業領域的大模型微調,需要有非常精準的且合適的數據才能提供準確的大模型服務。
Lora是一種常見的微調方法,它對輸入給模型的數據的要求也非常高。
我們如何獲取這種數據?比如做一個客服系統,每家企業都有各自的產品手冊、規章制度,但是客戶會提什么樣的問題呢?傳統的方法是用人工標注采集的方式去獲取這些Q&A,現在我們可以針對產品手冊的大模型來生成Q&A,這就是典型業務場景的合成數據。
那么lora的數據生成從哪里來?我們用不同版本的大模型去完成同樣問題的回答,他們的差異性就是權重分布,可以用來做精確的模型訓練數據生成。
合成數據已經開始從模型訓練數據的生成到直接場景數據生成,大模型進入到了數據飛輪效應,就像Robot讓我們看到的里程碑式技術是機器在供給自己,可以簡單類比理解一下,就是供給給機器訓練所需要的數據就像汽車要加的油一樣,開始變成是自己生產出來的。
客觀說針對駕駛而言,一些極端災害、路況交通事故是不可能通過大規模的路面采集獲取的。我們管它叫CoreData,CoreData是可以通過模型來生產的。現在我們在項目上就已經開始交付合成數據數據集。
總結一下大模型和數據之間的關系,一個是在存量上,一個是在增量上。關于存量,我們關注到的核心技術是大模型to DB,它來解決如何跟上萬張表的、高價值密度的企業數據庫里的數據發生關系的問題;第二個是增量,他來解決如何持續的供給大模型,大模型的真正的算力出口在哪里,是提供一個服務還是提供一種新興的生產資料,供給我們更多的數據資源,也就是合成數據的概念。