近日,石油行業某集團某油田企業信息化技術服務中心發布《油田數據治理及數據湖建設項目》招標,項目內容包含集團油田板塊的數據資源梳理及數據湖建設,數據服務體系完善提升等,五季數據科技(北京)有限公司(以下簡稱 “五季”)中標。
五季專注運用人工智能技術致力于服務石油行業,用AI解決業務問題,高效開發應用模型,助力石油企業提高效率降低成本,開拓新思路解決實際問題。
五季數據湖方案解決企業數字化轉型的焦慮
企業現在普遍處于大數據的“焦慮期”:
一是數字化轉型需求與數據管理現狀的不匹配。例如高層對現場實時運行情況掌控不足,無法通過現有業務報表在關注的點去穿透,無法實時看到施工狀態和特點,無法進行科學決策和快速決策。
二是大數據和跨專業應用需求越來越強烈、服務要求越來越緊迫。在油藏勘探開發、生產運行、綜合研究等業務中,機器學習、圖形識別、自然語言處理等新技術應用已試點摸索并逐步轉向推廣普及,而這些新技術無一不要求跨單位、跨專業的數據匯聚融合。例如從石油勘探研究層面而言,跨專業、跨部門、跨單位的多維度數據分析挖掘需求日益增長,但目前用戶無法方便、低成本地收集和分析數據,比如一個區塊的管理人員可能只能看本區塊的數據,而通過對相似區塊的、相似設備的、相似底層特征的、相似工藝特征的、相似狀態的數據進行數據分析挖掘,可以獲得更科學、更合理的理論研究成果。
三是企業數據資源總量和數據類型快速增長和當前數據處理能力的不匹配。例如油田企業除結構化數據外,還有實時數據、圖形文檔數據、音視頻數據、GIS數據、專業格式體數據等多種類型數據;在數據量方面,近年來以設備實時數據、音視頻數據以及圖形文檔數據的總量增長速度較快,而以人工為主的傳統方式管理越來越難。
某集團油田企業日前發布的《油田數據治理及數據湖建設項目》招投標項目,也是意在打造了一個現代化、數字化的新型智能油田的數據基座
如何獲取、處理和使用數據來創造效益,借助數據探索引領企業發展?如何“管理數據”和“使用數據”,實現業務自驅動?
五季認為:非數字原生企業的要進行數字化轉型,必須實現“業務數據化”及“數據業務化”,這需要以規?;瘮祿椭悄芗夹g為核心的知識加工的數據智能直接驅動業務。
一方面,隨著更多企業數據將進入數據湖,來自傳統系統的數據和傳感器等新型數據資源不斷匯聚,“數據格式與存儲的孤島”將持續被打破。
另一方面,隨著大數據分析能力的不斷提高,人工智能的重要性被逐步提升。當今最先進的機器學習和人工智能系統正在超越傳統的基于規則的算法,創建出能夠理解、學習、預測、適應,甚至可以自助操作的系統。智能技術除了直接服務于業務系統外,還可以用于數據處理的過程,協助管理數據和跨專業、跨單位的數據融合,打破“數據的專業類型孤島”
數據湖開“湖”融“數”人工智能加速產業落地
Pentaho的CTO James Dixon在2011年提出了“數據湖”這個術語,核心定義為:把不同結構的數據統一存儲,使不同數據有一致的存儲方式,在使用時方便鏈接,真正決絕數據集成問題。
數據湖的核心思想是全部采集、隨處研究、靈活訪問。
某能源企業以現在的物聯網技術做過統計:2個足球場大小的油田平臺上安裝400余個智能攝像頭、26000多個數據自動采集點,24小時實時獲取生產數據,每秒鐘可采集10萬余條數據信息,每年將產生6TB的數據量。
如此大的數據體量,傳統數據庫無法橫向水平擴展技術瓶頸難以突破的問題。通用的數據湖技術可以保存長期沉淀下來的海量數據,而且能從多個數據源獲取原始數據,并且針對不同的業務,同一份原始數據還可能有多種滿足特定內部模型格式的數據副本。從而實現預警診斷、主動優化和輔助決策等智能化管理。
另一方面,在通用的數據湖技術基礎上,對于非原生數字企業而言,跨專業的數據融合處理是大數據挖掘和AI技術應用落地的瓶頸。五季基于大數據治理平臺及AI技術建立配套一系列工具,基于數據湖的形態,通過數據治理體系實現了數據的匯聚、融合,使得數據治理模式得以從“先治再用”向“邊用邊治、治用融合”轉變,形成“業務驅動+數據驅動”的雙輪驅動。創新性地通過復雜網絡技術處理數據關系,通過工具自動從數據源抽取、解析元數據及其關系,以人機交互方式對所有入湖數據源進行關聯分析和業務意義處理,實現多種類型數據的關系融合和數據融合,從而便于業務人員可以脫離IT技術掣肘、IT人員可以脫離業務知識掣肘進行數據組織和分析。數據入湖更加快速,分析更加智能,應用更加多樣,服務更加開放;一次梳理(知識沉淀),永久應用。
Gartner將數據湖定義為“作為企業級數據管理平臺進行營銷,用于以原生格式分析不同的數據源”。
Pentaho 的首席技術官 James Dixon 認為之所以將其稱為湖,是因為這種數據庫可以在自然狀態下存儲大量數據,就像一片未經過濾或包裝的水體。數據從多種來源流入湖中,然后以原始格式存儲。
毫無疑問,數字經濟時代,數據已成為企業的核心資產。數據湖(已經成為繼數據庫、數據倉庫之后敏捷處理數據、提升數據洞察力的又一標志性的技術。