今年上半年,Gartner發布2021年度數據管理領域的成熟度模型報告—Hype Cycle,湖倉一體(Lakehouse)作為近兩年的新興技術熱點,成為了首次進入成熟度模型的五個新軍之一,備受業界關注。本篇文章,我們將介紹什么是湖倉一體,湖倉一體架構的特點和技術優勢。
湖倉一體,其含義是指將數據湖的語義靈活性與數據倉庫的生產優化和交付相結合。它是一個融合的基礎設施環境,支持從原始數據到精煉數據的整個過程,并最終提供優化后的數據以供消費。
湖倉一體將使業務從簡化的交付流程、數據的快速訪問中受益,同時滿足了用戶對于性能和易用性的更高要求,降低了大數據分析的技術復雜度和成本,同時滿足了用戶對性能和易用性的更高要求。通過構建整合的數據管理平臺,服務于各種各樣的職能角色,包括專業的數據科學家、數據工程師和業務分析師等,甚至包括通過數據看板來使用數據的臨時用戶。湖倉一體本質上為數據科學的創新提供了定義明確、可落地的發展途徑。
湖倉一體作為企業未來數據平臺的重要基礎架構,需要一種強有力的分布式數據庫支撐其海量、多模、多態的數據。巨杉數據庫SequoiaDB基于100%自研的分布式數據庫內核,提供了湖倉一體萬億級數據服務平臺,適用于歷史數據平臺、全量數據平臺、實時數據中臺等需要將海量多模數據用于對客服務的場景。
巨杉數據庫基于湖倉一體的架構特性,構建數據基礎設施平臺,整合結構化、半結構化、非結構化數據的統一存儲與管理,為面向全量數據業務提供:SQL、NoSQL、Object等多種接口。此外,通過特有的跨引擎事務能力,可以有效簡化多團隊開發流程中對不同引擎、不同結構的數據管理,打通ACID事務支持,提升業務開發、數據處理、運維管理能力,釋放全量數據價值,提升企業數據處理的“人效”及“能效”。
基于SequoiaDB分布式數據庫的湖倉一體平臺,除了具備多模能力,兼容多種數據引擎以外,還提供包括流式計算、高性能列存分析引擎等能力,適用于需構建融合數據平臺及在保持事務一致性的基礎上,進行高性能實時分析的場景。通過SequoiaDB可打破數據湖與數據倉庫割裂的體系,為上層應用提供一數一源的數據基礎設施,助力客戶實現提升數據管理水平、降低成本、提升運營效率、提升用戶體驗等目標。
目前,巨杉數據庫已經在超過100家金融銀行客戶規模化上線使用,覆蓋國有銀行、股份制銀行、省級農信、城商行、保險、證券等金融客戶,已經正式生產上線的系統中最大運行集群,數據量達1.2萬億行,容量達3PB,規模超過400臺服務器,積累了豐富的最佳實踐及案例,幫助客戶構建起數據平臺最佳底座。
數據湖和數據倉庫,原本是大數據技術條件下構建分布式系統的兩種數據架構設計取向。而融合后的湖倉一體,為業界和用戶展現了一種湖與倉互相補充、協同工作的架構。未來,巨杉數據庫將不斷優化湖倉一體數據服務平臺,探索和嘗試更多湖倉一體解決方案,幫助企業釋放全量數據價值。
了解更多內容可關注微信公眾號:巨杉數據庫
免責聲明:市場有風險,選擇需謹慎!此文僅供參考,不作買賣依據。
關鍵詞: