首頁 > 人文

網際網路巨頭扎堆佈局“湖倉一體” 新一代資料管理架構如何破解金融行業資料孤島?

由 每日經濟新聞 發表于 人文2023-02-03

簡介網易數帆大資料產品線總經理餘利華也透過騰訊會議表示,金融企業希望融合實時資料湖與資料倉庫,打造實時資料中臺支撐其數字化業務創新,這本質上正是湖倉一體的思路

開放式體系架構怎麼弄

在亞馬遜、阿里雲、位元組跳動等網際網路巨頭扎堆在大資料領域佈局“湖倉一體”解決方案之時,《每日經濟新聞》記者注意到,8月11日,網易旗下網易數帆也宣佈聯合華泰證券推出企業級流式湖倉服務Arctic開源。

“湖倉一體”技術為何被各大網際網路企業、大資料公司競相看中?它能解決哪些痛點?背後反映了怎樣的技術趨勢?

流批割裂,金融行業數智中臺建設面臨挑戰

目前,企業對資料庫技術的需求不再侷限於結構化的OLTP資料交易,而是需要進一步擴充套件到對多樣化資料進行實時處理的場景。傳統的資料湖在事務一致性及實時處理方面有所欠缺,而資料倉庫也無法應對高併發、多資料型別的處理。

“湖倉一體”,被業內認為是新一代資料管理架構。賽迪顧問7月15日釋出的《湖倉一體技術研究報告》顯示,湖倉一體是一種新型的開放式架構,打通了資料倉庫和資料湖,將資料倉庫的高效能及管理能力與資料湖的靈活性融合了起來,底層支援多種資料型別並存,能實現資料間的相互共享,上層可以透過統一封裝的介面進行訪問,可同時支援實時查詢和分析,為企業進行資料治理帶來了更多的便利性。湖倉一體可在資料入湖後原地進行資料處理與分析,能有效避免資料冗餘及流動導致的算力、網路及成本開銷,可以作為超大型ODS儲存貼源資料,實現全量資料的實時處理。

以金融證券行業為例,近年來,券商在加大自研技術投入,不過,“流批割裂”成為部分券商數智中臺建設的挑戰之一。“‘實時’是數智中臺的核心訴求,流批割裂則是落地的一大挑戰。”華泰證券大資料流計算技術專家陳豐透過騰訊會議介紹,實時湖倉在華泰證券日內資料離線加工、實時關聯大量歷史資料、金融資料頻繁修正、統一埋點加工鏈路等方面具有極大的價值。

網際網路巨頭扎堆佈局“湖倉一體” 新一代資料管理架構如何破解金融行業資料孤島?

圖片來源:主辦方供圖

然而,當前數倉建設面臨流批鏈路分開建設、純實時業務邏輯複雜、資料儲存不統一、資料更新複雜以及演進難等五大問題。

網易數帆大資料產品線總經理餘利華也透過騰訊會議表示,金融企業希望融合實時資料湖與資料倉庫,打造實時資料中臺支撐其數字化業務創新,這本質上正是湖倉一體的思路。然而,餘利華也認識到,目前的主流資料湖技術等只解決了更新、大表訪問效能、流式消費等問題,仍然遺留小檔案導致效能損耗、相容性和流失更新等效能和易用性相關問題,而開源社群尚未出現對應的解決方案。

使資料中臺體系無縫擴充套件到實時場景

在接受《每日經濟新聞》記者採訪時,餘利華表示,亞馬遜、阿里雲等雲廠商推出的“湖倉一體”技術,更多是面向終端使用者的雲服務。而湖倉一體Arctic,其實不是雲服務,而是獨立的開源軟體。理論上來講,開源軟體是可以被整合到各家客戶自己的平臺裡,甚至包括雲廠商,網易數帆的目的是幫大家更快地去落地湖倉一體。

網際網路巨頭扎堆佈局“湖倉一體” 新一代資料管理架構如何破解金融行業資料孤島?

餘利華 圖片來源:主辦方供圖

餘利華表示,秉承開放式架構原則,Arctic立足開源資料湖,不繫結計算引擎,注重與傳統數倉Hive的相容,能做到100%相容Iceberg/Hive的表格式和語法。這是繼SQL統一入口之後,網易數帆大資料體系再次在儲存層面實現統一,這使得資料中臺體系可以無縫擴充套件到實時場景,金融資料價值的發揮將不再被孤島所困擾。

“我們也看到客戶有量化交易的需求,有風控方面的需求,這些對實時性的要求特別高。”對於網易數帆在金融大資料方面的發展佈局,餘利華表示,對數帆來說,金融行業是一個重點行業,目標是希望能成為金融行業領先的大資料技術軟體的提供商。

網易數帆的關注點則在於大資料的基礎軟體。“客戶會自己負責他的大資料業務,那麼我們主要是在基礎軟體這方面為客戶賦能。為此,首先我們一直在做信創和安全方面的工作,因為金融特別注重安全;第二個是要去建設面向金融行業的資料研發產品,也就是DataOps的產品。”餘利華說。

每日經濟新聞

Tags:湖倉資料餘利一體實時