數(shù)據(jù)中臺(tái)概述
產(chǎn)生背景
數(shù)據(jù)中臺(tái)是商業(yè)模式從IT時(shí)代進(jìn)入DT時(shí)代的必然產(chǎn)物,是從流程驅(qū)動(dòng)轉(zhuǎn)向數(shù)據(jù)驅(qū)動(dòng)的必然結(jié)果。云計(jì)算的三種服務(wù)模式分別是SaaS:Software-as-a-Service(軟件即服務(wù)),PaaS:Platform-as-a-Service(平臺(tái)即服務(wù)), IaaS: Infrastructure-as-a-Service(基礎(chǔ)設(shè)施即服務(wù))。現(xiàn)在比較流行的數(shù)據(jù)中臺(tái),可以理解為PaaS,即數(shù)據(jù)平臺(tái)提供數(shù)據(jù)服務(wù)能力支撐。在過(guò)去的10多年里,像Google,微軟等知名企業(yè)研發(fā)了很多平臺(tái)框架,但是都沒(méi)有能以公共服務(wù)的方式發(fā)展成一個(gè)很強(qiáng)的中臺(tái)支撐業(yè)務(wù)應(yīng)用,主要原因是傳統(tǒng)IT業(yè)務(wù)系統(tǒng)是以流程驅(qū)動(dòng),以業(yè)務(wù)為核心,提供類似SOA的服務(wù)設(shè)計(jì)框架,實(shí)現(xiàn)的是服務(wù)復(fù)用,由于這些SOA服務(wù)框架,都是個(gè)性化業(yè)務(wù)需求,只能實(shí)現(xiàn)以組件模塊的形式做編寫復(fù)制,無(wú)法形成正在意義的PaaS平臺(tái)。
今天,隨著大數(shù)據(jù),人工智能新技術(shù)的發(fā)展,帶來(lái)的一個(gè)新的窗口機(jī)遇,主要幾個(gè)核心技術(shù)組件都發(fā)生根本性的變化。例如:第一傳統(tǒng)IOE體系架構(gòu)上的優(yōu)化,像虛擬化超融合等技術(shù),這些是延續(xù)性創(chuàng)新,是圍繞IOE體系架構(gòu)下各種協(xié)議標(biāo)準(zhǔn)做資源調(diào)度的優(yōu)化;第二IOE大架構(gòu)出現(xiàn)斷崖式遷移,出現(xiàn)了像分布式計(jì)算,容器化,機(jī)器學(xué)習(xí)人工智能等技術(shù)框架,這是當(dāng)前最主流的體系框架。這種變化使PaaS層開始出現(xiàn)以數(shù)據(jù)驅(qū)動(dòng)為核心,充分利用數(shù)據(jù)價(jià)值,提供服務(wù)應(yīng)用,最終形成數(shù)據(jù)中臺(tái)。
數(shù)據(jù)中臺(tái)作用
數(shù)據(jù)中臺(tái)幫忙用戶快速“找到”數(shù)據(jù),明確數(shù)據(jù)在哪里。通過(guò)數(shù)據(jù)中臺(tái)相關(guān)工具,自動(dòng)化抽取現(xiàn)在運(yùn)行數(shù)據(jù)庫(kù)的庫(kù)表定義,字段屬性和關(guān)聯(lián)關(guān)系,利用圖的高維展示技術(shù),實(shí)現(xiàn)快速數(shù)據(jù)位置定位。分析數(shù)據(jù)使用頻度和調(diào)用關(guān)系,挖掘數(shù)據(jù)血緣關(guān)系,構(gòu)建網(wǎng)絡(luò)圖譜,實(shí)現(xiàn)數(shù)據(jù)關(guān)系高維展示,分析系統(tǒng)搬遷上云,容災(zāi)備份和字段變更等影響范圍。
數(shù)據(jù)中臺(tái)幫忙用戶快速“應(yīng)用”數(shù)據(jù),明確數(shù)據(jù)如何用。通過(guò)數(shù)據(jù)中臺(tái)相關(guān)工具,可以實(shí)現(xiàn)一份數(shù)據(jù)同時(shí)支撐TP應(yīng)用和AP分析,不需要數(shù)據(jù)搬家,直接對(duì)數(shù)據(jù)進(jìn)行處理應(yīng)用,實(shí)現(xiàn)即席的數(shù)據(jù)分析服務(wù)應(yīng)用,異構(gòu)數(shù)據(jù)探查服務(wù),高并發(fā),低延時(shí)的數(shù)據(jù)服務(wù)應(yīng)用。
數(shù)據(jù)中臺(tái)幫忙用戶快速“用好”數(shù)據(jù),明確數(shù)據(jù)有價(jià)值。應(yīng)用數(shù)據(jù),發(fā)揮數(shù)據(jù)價(jià)值,不但采用傳統(tǒng)BI思路實(shí)現(xiàn)數(shù)據(jù)報(bào)告服務(wù),還有采用AI建模思路。更好的用好數(shù)據(jù)。采用智能算法配合規(guī)模化數(shù)據(jù),充分挖掘數(shù)據(jù),實(shí)現(xiàn)數(shù)據(jù)價(jià)值。以數(shù)據(jù)為驅(qū)動(dòng),形成數(shù)據(jù)閉環(huán),不斷優(yōu)化模型算法,動(dòng)態(tài)調(diào)整模型,提高模型效率和準(zhǔn)確度,更好挖掘數(shù)據(jù)價(jià)值。
數(shù)據(jù)中臺(tái)體系架構(gòu)和關(guān)鍵技術(shù)
數(shù)據(jù)中臺(tái)的總體框架體系
數(shù)據(jù)中臺(tái)體系架構(gòu)主要分三層,分別是數(shù)據(jù)融合層,技術(shù)支撐層和數(shù)據(jù)服務(wù)層。
數(shù)據(jù)融合層主要實(shí)現(xiàn)數(shù)據(jù)采集匯聚融合服務(wù),支撐異構(gòu)數(shù)據(jù)融合,數(shù)據(jù)管理,實(shí)時(shí)批量數(shù)據(jù)采集等功能。
技術(shù)支撐層主要是采用hadoop生態(tài)體系架構(gòu)組件和相關(guān)自主研發(fā)產(chǎn)品來(lái)支撐數(shù)據(jù)服務(wù)應(yīng)用,是數(shù)據(jù)統(tǒng)一管理,數(shù)據(jù)融合應(yīng)用和數(shù)據(jù)建模應(yīng)用。
數(shù)據(jù)服務(wù)層主要是采用微服務(wù)架構(gòu)實(shí)現(xiàn)數(shù)據(jù)BI服務(wù)應(yīng)用和模型智能服務(wù)應(yīng)用,用來(lái)支撐智能業(yè)務(wù)應(yīng)用。
數(shù)據(jù)中臺(tái)的關(guān)鍵技術(shù)實(shí)現(xiàn)
(一)Hilbert復(fù)雜網(wǎng)絡(luò)技術(shù):
Hilbert采用B/S結(jié)構(gòu)設(shè)計(jì)。在算法支持上,內(nèi)建多種圖計(jì)算算法;在使用上,提供了數(shù)據(jù)加載、處理、建模、計(jì)算、查詢以及展示等全方位的配套功能;在管理和開發(fā)上,具有完備的圖形化管理界面和主流語(yǔ)言的開發(fā)接口。因此,產(chǎn)品在方便業(yè)務(wù)和技術(shù)人員使用的同時(shí),能夠快速幫助用戶實(shí)現(xiàn)系統(tǒng)的就緒。
Hilbert總體上由三個(gè)核心部分組成,包括圖譜展現(xiàn)工具、圖計(jì)算引擎和圖數(shù)據(jù)。
? 圖譜展現(xiàn)工具:通過(guò)直觀、友好的圖譜展示技術(shù),展現(xiàn)復(fù)雜網(wǎng)絡(luò)分析計(jì)算后的結(jié)果數(shù)據(jù),便于用戶對(duì)數(shù)據(jù)的理解。
? 圖計(jì)算引擎:內(nèi)建有多種基于分布式技術(shù)的圖計(jì)算算法,支撐在海量數(shù)據(jù)下對(duì)網(wǎng)絡(luò)結(jié)構(gòu)數(shù)據(jù)進(jìn)行分析計(jì)算,快速反饋計(jì)算結(jié)果。
? 圖數(shù)據(jù)庫(kù):基于分布式存儲(chǔ)技術(shù)實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)結(jié)構(gòu)數(shù)據(jù)的建模和存儲(chǔ),支持對(duì)數(shù)據(jù)的增/刪/改/查等維護(hù)操作,并具備事務(wù)處理能力。
? 關(guān)聯(lián)性分析:研究分析網(wǎng)絡(luò)結(jié)構(gòu)數(shù)據(jù)中節(jié)點(diǎn)與節(jié)點(diǎn)之間的關(guān)系。可用于對(duì)朋友圈中關(guān)系的分析、最佳行程的規(guī)劃以及網(wǎng)絡(luò)的路由分析等分析場(chǎng)景。
? 相似性分析:通過(guò)分析節(jié)點(diǎn)在網(wǎng)絡(luò)結(jié)構(gòu)中的特征,發(fā)現(xiàn)并找出與其相似的節(jié)點(diǎn)。可用于客戶分群、相關(guān)產(chǎn)品推薦等分析場(chǎng)景。
? 節(jié)點(diǎn)重要性分析:根據(jù)網(wǎng)絡(luò)結(jié)構(gòu)特點(diǎn),分析評(píng)估節(jié)點(diǎn)或邊在網(wǎng)絡(luò)中的重要性,可用于產(chǎn)品傳播營(yíng)銷,網(wǎng)頁(yè)搜索結(jié)果排名等分析場(chǎng)景。
? 社團(tuán)分析:分析并挖掘龐大網(wǎng)絡(luò)體系中的關(guān)系密切的子網(wǎng)絡(luò)群。可用于供應(yīng)鏈的發(fā)現(xiàn)、朋友圈的發(fā)現(xiàn)等場(chǎng)景。
? 網(wǎng)絡(luò)特征評(píng)估:用于觀察并分析所研究網(wǎng)絡(luò)的整體特征,可作為其他復(fù)雜網(wǎng)絡(luò)分析的基礎(chǔ)。
(二)Hubble-HTAP數(shù)據(jù)庫(kù):
Hubble數(shù)據(jù)庫(kù)產(chǎn)品以Hadoop作為底層平臺(tái),采用分布式技術(shù),提供多種接口服務(wù)于企業(yè)中具有實(shí)時(shí)性查詢要求的系統(tǒng)應(yīng)用。為企業(yè)提供良好的海量數(shù)據(jù)實(shí)時(shí)查詢的解決方案,最大程度的保障了企業(yè)業(yè)務(wù)處理的流暢,促進(jìn)企業(yè)的高效運(yùn)作,它同時(shí)和數(shù)據(jù)湖泊(Data Lake)具有較好的天然融合性。
基于混合數(shù)據(jù)庫(kù)架構(gòu)的Hubble 數(shù)據(jù)庫(kù), 具有以下主要特性:
第一是支持實(shí)時(shí)、離線高速入庫(kù),滿足各種入庫(kù)需要,并支持實(shí)時(shí)入庫(kù),支持離線批量加載,并支持多節(jié)點(diǎn)的ACID
第二支持超高并發(fā),即支持大規(guī)模用戶訪問(wèn),支持上萬(wàn)用戶在線實(shí)時(shí)高并發(fā)修改和查詢
第三是支持全部標(biāo)準(zhǔn)SQL的語(yǔ)法,提供各種分類、匯總等統(tǒng)計(jì)公式,及OLAP分析。
(三)AI PaaS平臺(tái):
天云大數(shù)據(jù)在大數(shù)據(jù)領(lǐng)域深耕多年,對(duì)Hadoop生態(tài)系統(tǒng)有深入的了解和大量的項(xiàng)目經(jīng)驗(yàn)。因應(yīng)市場(chǎng)需求,結(jié)合公司為多個(gè)行業(yè)的客戶研發(fā)的機(jī)器學(xué)習(xí)應(yīng)用和解決方案,包括客戶行為分析、客戶興趣圖譜、資訊產(chǎn)品推薦、客戶流失分析、風(fēng)險(xiǎn)預(yù)警、信用評(píng)分等,整合項(xiàng)目涉及的核心算法,并加入深度學(xué)習(xí)等熱門模型,組成MaximAI分布式數(shù)據(jù)科學(xué)平臺(tái)。MaximAI平臺(tái)旨在突破Hadoop/Spark在部署使用上的瓶頸,節(jié)省在海量數(shù)據(jù)集運(yùn)行機(jī)器學(xué)習(xí)算法的成本,使更多企業(yè)能夠享受大數(shù)據(jù)算法預(yù)測(cè)模型帶來(lái)的無(wú)限價(jià)值。
功能特性
MaximAI平臺(tái)包含6個(gè)主要的功能模塊: 工程化管理平臺(tái)模塊、數(shù)據(jù)存儲(chǔ)和加載功能模塊、數(shù)據(jù)預(yù)處理和統(tǒng)計(jì)分析模塊、全量數(shù)據(jù)建模模塊、預(yù)測(cè)建模和模型評(píng)價(jià)模塊、自主編程以及特定場(chǎng)景開發(fā)模塊。
工程化管理平臺(tái)模塊
工程化管理平臺(tái)實(shí)現(xiàn)了對(duì)各數(shù)據(jù)建模整個(gè)生命周期的可視化和模塊化管理,并以友好的用戶界面和高級(jí)的技術(shù)特性,整合用戶管理、任務(wù)管理、數(shù)據(jù)管理和模型管理等業(yè)務(wù)級(jí)管理任務(wù)。
數(shù)據(jù)建模工程界面:友好且實(shí)用性極強(qiáng)的圖形用戶界面交互Free Coding模式
數(shù)據(jù)的工程化上傳、存儲(chǔ)、加載和管理
模型的工程化創(chuàng)建,調(diào)優(yōu),存儲(chǔ),加載和管理
展示性的MaximAI模型倉(cāng)庫(kù)
企業(yè)級(jí)管理任務(wù):用戶進(jìn)行自主管理和任務(wù)管理
企業(yè)級(jí)平臺(tái)系統(tǒng)管理:企業(yè)各部門、各員工的權(quán)限及角色管理,平臺(tái)樣式、日志及配置管理
企業(yè)級(jí)工程和任務(wù)管理:企業(yè)各角色的模型管理、任務(wù)管理和工程管理
數(shù)據(jù)的快速存儲(chǔ)和加載功能
MaximAI的數(shù)據(jù)存儲(chǔ)和加載功能模塊基于Hadoop/Spark集群,通過(guò)分布式文件系統(tǒng)HDFS的數(shù)據(jù)接口,提供數(shù)據(jù)整合和數(shù)據(jù)質(zhì)量管理等技術(shù),支持海量數(shù)據(jù)的快速存儲(chǔ)和加載。
海量數(shù)據(jù)的快速存儲(chǔ) : 基于分布式文件系統(tǒng)HDFS的集群分布式數(shù)據(jù)存儲(chǔ)和列表顯示,支持Hadoop/Spark的訪問(wèn)接口
海量數(shù)據(jù)的數(shù)據(jù)質(zhì)量加速器 : 交互式數(shù)據(jù)質(zhì)量管理操作,包括數(shù)據(jù)拆分和數(shù)據(jù)整合
海量數(shù)據(jù)的分布式加載、數(shù)據(jù)上傳和導(dǎo)入
數(shù)據(jù)預(yù)處理和統(tǒng)計(jì)分析
MaximAI平臺(tái)集合了眾多常用的數(shù)據(jù)處理和統(tǒng)計(jì)分析技術(shù),通過(guò)交互式和可視化的工具,實(shí)現(xiàn)數(shù)據(jù)處理、變量分析、和數(shù)據(jù)可視化等,支持對(duì)數(shù)據(jù)快速分析和整體把握。
數(shù)據(jù)處理
缺失值補(bǔ)充
數(shù)據(jù)類型轉(zhuǎn)換
特征選擇
海量數(shù)據(jù)的統(tǒng)計(jì)分析
數(shù)據(jù)的變量分析:數(shù)據(jù)特性統(tǒng)計(jì),密度估計(jì)
數(shù)據(jù)可視化
數(shù)據(jù)特征的密度分布
數(shù)據(jù)特征最大值、最小值、均值零值數(shù)量以及缺失情況等
全量數(shù)據(jù)的描述性建模
MaximAI平臺(tái)集合眾多主流的機(jī)器學(xué)習(xí)算法,結(jié)合Hadoop/Spark平臺(tái)的分布式能力,支持基于海量數(shù)據(jù)集的全量數(shù)據(jù)描述性建模,并且提供菜單式參數(shù)調(diào)優(yōu)界面,實(shí)現(xiàn)了企業(yè)級(jí)AI模型生產(chǎn)和分析。
主流的機(jī)器學(xué)習(xí)算法的描述性建模
分類:深度學(xué)習(xí)、隨機(jī)森林、樸素貝葉斯模型、廣義線性模型、梯度提升模型、支持向量機(jī)
聚類:K-means
回歸:深度學(xué)習(xí)、隨機(jī)森林、廣義線性模型、梯度提升模型
降維:主成分分析,廣義低階模型
探索性數(shù)據(jù)建模策略
建模數(shù)據(jù)的交叉驗(yàn)證 : N折交叉驗(yàn)證
菜單式參數(shù)調(diào)優(yōu)選擇 : 各模型各參數(shù)的提示性參數(shù)設(shè)置
描述性建模的模型評(píng)價(jià)
ROC曲線和AUC值
準(zhǔn)確率、精準(zhǔn)率、召回率、F1-measure
多種評(píng)判準(zhǔn)則下的預(yù)測(cè)數(shù)結(jié)果矩陣
預(yù)測(cè)性建模及模型評(píng)判
MaximAI平臺(tái)基于海量數(shù)據(jù)的描述性探究建模結(jié)果,通過(guò)對(duì)模型和數(shù)據(jù)的再處理,得到數(shù)據(jù)的獨(dú)立化預(yù)測(cè)性模型,實(shí)現(xiàn)了對(duì)測(cè)試數(shù)據(jù)的一鍵式預(yù)測(cè)。
預(yù)測(cè)性建模自動(dòng)化和獨(dú)立化
預(yù)測(cè)模型的訓(xùn)練數(shù)據(jù)處理和模型建立的程式化創(chuàng)建和存儲(chǔ)
訓(xùn)練數(shù)據(jù)所得的預(yù)測(cè)模型獨(dú)立分裝為分類器
模型結(jié)果的顯示化表達(dá)
測(cè)試數(shù)據(jù)和標(biāo)簽的顯示化展示
測(cè)試數(shù)據(jù)的各項(xiàng)結(jié)果和測(cè)試標(biāo)準(zhǔn)的展示
自主編程及特定場(chǎng)景開發(fā)
MaximAI集成了多種編程環(huán)境,支持用戶的自主開發(fā),以及特定場(chǎng)景的多環(huán)境編程,實(shí)現(xiàn)針對(duì)特定客戶的系列業(yè)務(wù)開發(fā)。
集成Scala/Python編程環(huán)境,用戶自主編程開發(fā)
特定場(chǎng)景開發(fā):特定場(chǎng)景的模型開發(fā)和模型倉(cāng)庫(kù)存儲(chǔ)
數(shù)據(jù)中臺(tái)的實(shí)現(xiàn)路徑
21世紀(jì)的成功企業(yè)都在處理大量的數(shù)據(jù),但他們會(huì)經(jīng)常面對(duì)未文檔化(沒(méi)有注釋)的數(shù)據(jù)源。事實(shí)上,有的數(shù)據(jù)庫(kù)都是很久以前創(chuàng)建的(通常是15 - 30年),從那時(shí)起,這些數(shù)據(jù)庫(kù)就一直在不斷增長(zhǎng)。而描述他們的文檔和任何有關(guān)資料不是沒(méi)有完成就是多年來(lái)丟失了。也就是說(shuō)企業(yè)的數(shù)據(jù)隨著企業(yè)的發(fā)展,并不是越來(lái)越齊整,而是變得越來(lái)越混亂。在此種情況下,天云的數(shù)據(jù)中臺(tái)正好是該企業(yè)用戶的一劑良藥。
但要實(shí)現(xiàn)前述數(shù)據(jù)中臺(tái)的各種功能,獲得數(shù)據(jù)中臺(tái)的智能化服務(wù),也不是那個(gè)一蹴而就的。在實(shí)踐中,天云建議用戶采用三階段的方式,以分階段分步走的方式逐步達(dá)成最終的數(shù)據(jù)中臺(tái)的建設(shè)成果。如下就是我們天云的數(shù)據(jù)中臺(tái)最佳實(shí)踐三部曲:
第一階段:自動(dòng)化的數(shù)據(jù)治理
面對(duì)紛繁復(fù)雜的數(shù)據(jù)系統(tǒng),企業(yè)就需要花費(fèi)更長(zhǎng)的時(shí)間來(lái)理解數(shù)據(jù)庫(kù)的復(fù)雜性,或者通過(guò)人工的數(shù)據(jù)治理方式來(lái)梳理出業(yè)務(wù)和數(shù)據(jù)的關(guān)系,但這要花費(fèi)大量的人力、物力和時(shí)間成本;而企業(yè)要為了實(shí)現(xiàn)利用所擁有的數(shù)據(jù)獲取智能化帶來(lái)的豐富價(jià)值,數(shù)據(jù)治理又是必須的。
所以,要實(shí)現(xiàn)智能化的數(shù)據(jù)服務(wù),我們建設(shè)數(shù)據(jù)中臺(tái)項(xiàng)目的第一步要做的就是自動(dòng)化的數(shù)據(jù)治理。通過(guò)自動(dòng)的方式,而不是手工的方式,發(fā)現(xiàn)、標(biāo)示和度量數(shù)據(jù)資產(chǎn),可以有效地理解現(xiàn)有數(shù)據(jù)的模式,而且可以節(jié)省大量的人力、物力和時(shí)間成本。
為此,天云推出了一種輕型的自動(dòng)化數(shù)據(jù)治理產(chǎn)品,可以在天云的復(fù)雜網(wǎng)絡(luò)大數(shù)據(jù)平臺(tái)Hilbert上利用人工智能技術(shù)自動(dòng)地發(fā)現(xiàn)企業(yè)各業(yè)務(wù)系統(tǒng)數(shù)據(jù)的架構(gòu)和數(shù)據(jù)主體,并直接發(fā)現(xiàn)跨數(shù)據(jù)庫(kù)的表和表、人財(cái)物各類數(shù)據(jù)間的關(guān)系,當(dāng)用戶需要做跨數(shù)據(jù)庫(kù)的復(fù)雜查詢時(shí),天云產(chǎn)品可以根據(jù)關(guān)系圖快速生成SQL語(yǔ)句,從而使得企業(yè)的技術(shù)人員快速?gòu)牟煌臄?shù)據(jù)庫(kù)中提取出所需要的數(shù)據(jù)。
也就是說(shuō)天云采用一種高維化手段,通過(guò)升維數(shù)據(jù)維度,使得企業(yè)可以更好地了解數(shù)據(jù)的全貌。與二維表相比,無(wú)論怎么跳,都在二維索引里面。就算有數(shù)據(jù)字典,還是用表解釋其他的表,比較有效的就是從高維視角看數(shù)據(jù)。把復(fù)雜網(wǎng)絡(luò)引入進(jìn)來(lái),用復(fù)雜網(wǎng)絡(luò)的工具來(lái)表達(dá)復(fù)雜的數(shù)據(jù)結(jié)構(gòu),用復(fù)雜網(wǎng)絡(luò)的方法來(lái)自動(dòng)獲取業(yè)務(wù)調(diào)用關(guān)系,我知道你這個(gè)部門和那個(gè)部門的關(guān)系,然后有哪些業(yè)務(wù)系統(tǒng),那些業(yè)務(wù)系統(tǒng)下有哪些表,然后他們之間的業(yè)務(wù)邏輯是怎樣的。
天云ADG采用自動(dòng)化的數(shù)字手段,采集屬性,表的主鍵、外鍵,SQL可以被解析,SQL解析和存儲(chǔ)過(guò)程可以自動(dòng)化地定義到你的業(yè)務(wù)的連接,這些方法就可以快速構(gòu)建高維的數(shù)據(jù)結(jié)構(gòu)。
此外天云采用機(jī)器學(xué)習(xí)的方法自動(dòng)發(fā)現(xiàn)數(shù)據(jù)關(guān)系,這對(duì)數(shù)據(jù)的文檔化、理解、管理和保護(hù)至關(guān)重要。更具體地說(shuō),ML可以幫助企業(yè)自動(dòng)發(fā)現(xiàn)整個(gè)組織架構(gòu)中的數(shù)據(jù)的位置、數(shù)據(jù)的移動(dòng)和流向。這種增強(qiáng)的數(shù)據(jù)發(fā)現(xiàn)可以更有效地揭示復(fù)雜的數(shù)據(jù)關(guān)系、改進(jìn)數(shù)據(jù)可視化和加速數(shù)據(jù)準(zhǔn)備過(guò)程成為可能。
天云的ADG應(yīng)用程序采用機(jī)器學(xué)習(xí)方法可以超越人類管理數(shù)據(jù)的能力,因?yàn)檫@些它能夠:
?? 檢測(cè)某些人類難以識(shí)別的特征類型
?? 快速分析大量數(shù)據(jù),即使是TB級(jí)的數(shù)據(jù)
?? 識(shí)別模糊匹配模式,即識(shí)別在特定數(shù)據(jù)集中具有的可能的隸屬關(guān)系,而不是由清晰數(shù)據(jù)集關(guān)聯(lián)定義的絕對(duì)隸屬關(guān)系
?? 容易識(shí)別數(shù)據(jù)中的錯(cuò)誤,從而避免錯(cuò)誤結(jié)論
實(shí)際上,天云的ADG產(chǎn)品遠(yuǎn)遠(yuǎn)超出了簡(jiǎn)單地理解數(shù)據(jù)目錄和業(yè)務(wù)術(shù)語(yǔ)表,它本質(zhì)上使數(shù)據(jù)能夠通過(guò)識(shí)別自然產(chǎn)生于數(shù)據(jù)的分類來(lái)為自己說(shuō)話。因此,這些解決方案將理解底層數(shù)據(jù)并實(shí)際定義所需的元數(shù)據(jù)類型,而不是試圖將數(shù)據(jù)分組到已建立的元數(shù)據(jù)分類中。
通過(guò)采用天云ADG產(chǎn)品實(shí)現(xiàn)的自動(dòng)化數(shù)據(jù)治理只需要幾周的時(shí)間,比傳統(tǒng)按年計(jì)的人工數(shù)據(jù)治理在時(shí)間上大大縮短。以油田交換油環(huán)節(jié)的一個(gè)實(shí)際項(xiàng)目為例,要在一周內(nèi)完成兩個(gè)業(yè)務(wù)系統(tǒng)8000多張表的數(shù)據(jù)導(dǎo)入和關(guān)系構(gòu)建,傳統(tǒng)的業(yè)務(wù)咨詢,大概要30個(gè)人要干1年的時(shí)間,而天云用了自下而上的自動(dòng)發(fā)現(xiàn)的方法和ADG產(chǎn)品,在2周內(nèi)就完成了。
3.2.第二階段:數(shù)據(jù)的融合和流動(dòng)
數(shù)據(jù)治理完成后,相當(dāng)于與企業(yè)知道了要在哪里取數(shù)據(jù),為前臺(tái)業(yè)務(wù)提供數(shù)據(jù)服務(wù),但如果還是采用每做一次服務(wù)都做一次數(shù)據(jù)的ETL,顯然會(huì)大大影響工作進(jìn)度,如果能夠不再移動(dòng)數(shù)據(jù),而是只需要讓各種各樣的新型業(yè)務(wù)圍繞著數(shù)據(jù)工作,就能夠更好地為用戶服務(wù)。也就是我們是移動(dòng)代碼還是移動(dòng)數(shù)據(jù)。
以某銀行的客戶積分為例,需要將客戶的積分分析進(jìn)行統(tǒng)計(jì)計(jì)算,首先要花1個(gè)半小時(shí)把數(shù)據(jù)移動(dòng)到數(shù)倉(cāng),再等待數(shù)倉(cāng)計(jì)算一個(gè)半小時(shí)之后,再將結(jié)果返回應(yīng)用系統(tǒng)提供聯(lián)機(jī)事務(wù)處理。這種時(shí)效性難以滿足即時(shí)反饋的客戶需求。
伴隨著用戶對(duì)數(shù)倉(cāng)消費(fèi)化的需求,數(shù)據(jù)的鮮活性與復(fù)雜性出現(xiàn)日益交錯(cuò)的矛盾,因此在技術(shù)上一款能夠同時(shí)支持OLTP(在線事務(wù)處理)與OLAP(在線分析處理)的數(shù)據(jù)庫(kù)應(yīng)運(yùn)而生,這即是Gartner提出的HTAP數(shù)據(jù)庫(kù),涵蓋大部分行業(yè)應(yīng)用的需求,一站解決數(shù)據(jù)鮮活性與復(fù)雜性的交錯(cuò)矛盾。而天云的HTAP分布式系統(tǒng)融合了TP聯(lián)機(jī)事務(wù)和AP的分析引擎,使得效率更優(yōu),架構(gòu)更優(yōu);融合之后完成和聯(lián)機(jī)、分析、建模一體功能。保持了數(shù)據(jù)鮮活性需求。
再以某商業(yè)銀行實(shí)時(shí)流水交易業(yè)務(wù)可視化展示項(xiàng)目為例,在該項(xiàng)目中使用了Kafka 和Spark Streaming流式處理框架,在該框架中成功地引入了天云大數(shù)據(jù)HTAP Hubble 數(shù)據(jù)庫(kù), 在大數(shù)據(jù)環(huán)境下通過(guò)和Kafka,SPARK Streaming 等組件的深度融合,成功地實(shí)現(xiàn)了對(duì)互聯(lián)網(wǎng)用戶交易報(bào)文數(shù)據(jù)的實(shí)時(shí)采集,經(jīng)過(guò)一系列的處理之后,最終有HTAP 數(shù)據(jù)庫(kù)提供數(shù)據(jù)可視化展示的支持, 達(dá)到了預(yù)期功能目標(biāo)。
通過(guò)使用HTAP數(shù)據(jù)庫(kù),首先,數(shù)據(jù)不必從運(yùn)營(yíng)數(shù)據(jù)庫(kù)轉(zhuǎn)移到數(shù)據(jù)倉(cāng)庫(kù)。其次,交易數(shù)據(jù)在創(chuàng)建時(shí)可用于分析。第三,從分析聚合中挖掘總是指向新的HTAP應(yīng)用程序數(shù)據(jù)。最后,您可以消除或至少減少對(duì)相同數(shù)據(jù)的多個(gè)副本的需求。從而達(dá)到了數(shù)據(jù)的融合和流動(dòng)。
3.3.第三階段:提供人工智能化服務(wù)
在解決了從哪里取數(shù)據(jù),如何更好地讀取數(shù)據(jù)的情況下,下一步就是如何能更好地利用好這些數(shù)據(jù)。答案就是將人工智能引入到數(shù)據(jù)分析中,就是用AI替代BI。
2017年,亞馬遜 CEO Jeff Bezos在致股東的公開信中,指出“人工智能已經(jīng)進(jìn)入到一個(gè)能夠準(zhǔn)確概括復(fù)雜商業(yè)實(shí)踐和流程的階段。”。機(jī)器的角色從自動(dòng)化執(zhí)行人類意識(shí)、人類的指令,已經(jīng)進(jìn)化到可以面向不確定性的過(guò)程,通過(guò)給定輸入和輸出,通過(guò)訓(xùn)練和學(xué)習(xí),幫助人類編出用于預(yù)測(cè)的程序——數(shù)學(xué)模型。
在AI中,包括聰明的AI和有學(xué)識(shí)的AI兩種。聰明的AI是具備計(jì)算推理能力的機(jī)器學(xué)習(xí),是無(wú)記憶載體的;有學(xué)識(shí)的AI就是具備表示學(xué)習(xí)能力的圖計(jì)算/知識(shí)圖譜和復(fù)雜網(wǎng)絡(luò),是有記憶載體的。
天云從2014年開始投入人力研發(fā)AI產(chǎn)品工具,打造了特征工程,模型孵化平臺(tái)和模型運(yùn)行平臺(tái)三款產(chǎn)品,實(shí)現(xiàn)模型自動(dòng)化流程線。即Kaleido——MaximAI——Gare。這些就是機(jī)器學(xué)習(xí)的平臺(tái)。
天云還從2016年開始投入研發(fā)了復(fù)雜網(wǎng)絡(luò)Hilbert產(chǎn)品。該產(chǎn)品是基于主流的Hadoop大數(shù)據(jù)技術(shù),并結(jié)合網(wǎng)絡(luò)科學(xué)技術(shù)應(yīng)用的需求,自主研發(fā)了的一套完整支持海量“網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)數(shù)據(jù)“存儲(chǔ)和管理的集群平臺(tái)系統(tǒng),底層采用分布式存儲(chǔ)和處理技術(shù),可以根據(jù)增加的數(shù)據(jù)集大小和用戶訪問(wèn)量彈性擴(kuò)展,支持圖數(shù)據(jù)的在線和離線分析和查詢。
這些AI技術(shù)融合入數(shù)據(jù)中臺(tái),就可以讓用戶獲得智能化服務(wù)的能力。非人工智能專業(yè)的行業(yè)專家,可以熟練使用天云開發(fā)的系列人工智能工具,不需要編寫一行代碼,就可以以托拉拽的方式,構(gòu)建自己的業(yè)務(wù)模型,開發(fā)基于真實(shí)數(shù)據(jù)的AI業(yè)務(wù)應(yīng)用。