這是一個首創的集聚當今國內有影響力的通用大模型和資產管理垂直領域大模型開發應用的數智金融前沿技術發展大會,也是一個在上海國際金融中心城市集聚當今金融資管領域有影響力數智技術專家學者的大會,強烈吸引了業內外、海內外專業技術人士。全天大會歷時9個多小時,線上參會約230萬人次、現場參會近500人。
ITDC 2023現場檢驗大模型回答資管行業問題的能力
提問完,白院長也做了總結:定式回答是2家;但是比較新的回答是3家,還需要加上北交所;但是加上北交所就完事了嗎?還有港交所、臺交所,港臺也是中國的一部分。
天云數據專注私域大模型,支撐證監會全部法規(不含更新數據),針對證券行業問題回答正確且有完整溯源。

(天云數據的回答)
為什么天云數據大模型能精準回答且做到溯源?
Elpis已經從Training 步入Serving實現大模型2.0階段
私域模型不是小模型,不是通用模型版的裁剪版,從通用模型到私域模型,是從“造輪子”到“造車”的過程。天云數據大模型已經實現從1.0的造輪子(Training)到2.0的Serving(造車)階段,結合企業自己的私域數據、算力,保障行業數據的安全性,完成行業大模型實現大模型的新階段。
天云數據私域大模型Elpis基于遷移學習對大語言模型進行微調,使模型語境更適用于當前私域數據場景,并且做到答案可精確溯源,最后通過模型管理進行服務的發布供用戶使用。在生成時可以引用原有法條做準確嚴謹回答,對比通用大模型,更適合機構私有數據。
為什么大模型火爆之后資本將重點都轉向了向量數據庫?為什么云原生越來越重要?為什么OpenAI做大模型要外采Ray和Wandb,自動化機器學習對大模型有什么價值?通過一體機訓練的邏輯能不能走向大模型的未來?針對這一系列問題,天云數據CEO雷濤會上分享的《去除幻像的大模型落地路徑》給了我們答案。

那么到底是做向量數據庫還是在現有數據庫中加上向量引擎?北美的向量數據庫創業公司Chroma,底層使用是實時分析數據庫ClickHouse。“僅僅”是在著名實時分析數據庫ClickHouse上封裝了一層而已,Chroma便一躍成為新晉向量數據庫,由此可見一斑。與其投資新的向量數據庫項目,還不如關注現有數據庫中哪些加上向量引擎可以變得更加強大。
這也是Databricks用AI釋放數據潛力的方法。因為Databricks歷來都有自研的AI產品,具備技術能力發布大模型產品釋放數據價值。
天云數據在行業率先發布了私域數據大模型Elpis,其背后的技術支持框架是天云數據AI-PaaS平臺除了自身的機器學習平臺套件外,還兼容集成開源機器學習框架,Pytorch/TensorFlow/ Ray/Wandb/MXnet/Padddle等, 可以快速訓練及發布推理服務。強化學習完成大模型的有監督學習,實現大模型正確理解人類意圖。

能提供Agent服務一定會有一個前提,就是產業有完善的AI Infra。近期人工智能的熱點主要體現在生成式模型上,但無論是將私域數據遷移,還是需要一些向量化的數據庫支撐還是Generative Agents以及強化學習RLHF都需要借助傳統機器學習的方法和流水線來完成。甚至在BERT小模型階段還依賴于知識圖譜KG的嚴謹推理方式的工程組合,這些都需要科創公司就緒全棧AI的能力。
面向大模型的訓練和開發部署,一定是更強的Base Model和比SFT指令數據更進一步反饋的數據是突破瓶頸的方向。開源社區模型不具備真正智能,更好的小模型來自大模型的Scale Down。
在中國的市場,一個新事物落地要想完成最小級閉環很難通過生態的之間的合作來完成,因此需要一個全棧技術的持續投入,尤其是LLM之上的AI Infra,沒有所謂秘方和捷徑。