在這個數(shù)據(jù)驅(qū)動的大模型時代,數(shù)據(jù)集成的作用和意義愈發(fā)重要。數(shù)據(jù)不僅僅是信息的載體,更是推動企業(yè)決策和創(chuàng)新的關(guān)鍵因素。作為全球最流行的批流一體數(shù)據(jù)集成工具,WhaleTunnel隨著WhaleStudio??2.6版本正式發(fā)布,帶來了多項功能增強和新特性,性能大幅提升,連接器和功能方面也有大量更新。
上周,關(guān)于數(shù)據(jù)調(diào)度平臺WhaleScheduler的更新狀況在《WhaleStudio 2.6重磅發(fā)布!調(diào)度模塊WhaleScheduler更新78項核心功能》中已有介紹,點擊鏈接了解詳情。
WhaleTunnel
WhaleTunnel是基于白鯨開源主導的Apache?? SeaTunnel之上精心打磨的商業(yè)級的數(shù)據(jù)集成工具,擁有數(shù)據(jù)傳輸速度快、準確率高、穩(wěn)定性強等技術(shù)特點,幫助企業(yè)完成內(nèi)部EtLT中數(shù)據(jù)集成EtL部分,支持百余種連接器類型,滿足用戶離線全量同步、離線增量同步、實時增量同步、變化數(shù)據(jù)捕捉(即CDC)、數(shù)據(jù)庫同步備份等需求??焖佼a(chǎn)品以代碼形式面向數(shù)據(jù)開發(fā)工程師以及任何需要數(shù)據(jù)集成服務(wù)的用戶,同時也提供可視化拖拽界面給數(shù)據(jù)科學家、數(shù)據(jù)分析師、產(chǎn)品經(jīng)理等業(yè)務(wù)用戶,支持全流程可視化的任務(wù)定義、調(diào)用、監(jiān)控和管理。
數(shù)據(jù)源更新(部分)
2.6版本新增了多種數(shù)據(jù)源,數(shù)據(jù)源支持數(shù)量已經(jīng)達到了188個,部分增加的數(shù)據(jù)源如下:
信創(chuàng)ARM CPU優(yōu)化
在WhaleTunnel 2.6版本當中,Zeta Engine針對以ARM內(nèi)核的CPU進行了引擎層面的深度優(yōu)化,性能提升數(shù)倍(相關(guān)性能POC報告后續(xù)發(fā)布)。
1.內(nèi)存映射文件和零拷貝技術(shù): 為了最大限度地減少I/O開銷,Zeta Engine采用了內(nèi)存映射(mmap)技術(shù)和零拷貝(zero-copy)技術(shù),直接在內(nèi)存中操作文件數(shù)據(jù)。這樣不僅加快了數(shù)據(jù)處理速度,還降低了系統(tǒng)資源的消耗。
2.內(nèi)存對齊:Zeta Engine確保數(shù)據(jù)結(jié)構(gòu)在內(nèi)存中的對齊性,有效減少了內(nèi)存訪問的開銷。內(nèi)存對齊優(yōu)化不僅提高了內(nèi)存訪問的效率,還提升了數(shù)據(jù)處理的整體性能。
3.高效算法: Zeta Engine使用了適合ARM架構(gòu)的高效算法,減少不必要的計算和數(shù)據(jù)移動。通過高效的排序和過濾算法,顯著提升數(shù)據(jù)轉(zhuǎn)換和處理的效率。Zeta Engine算法優(yōu)化確保了在數(shù)據(jù)密集型任務(wù)中,系統(tǒng)能夠保持卓越的性能。
4.多核架構(gòu)利用: Zeta Engine充分利用ARM CPU的多核架構(gòu),將ETL任務(wù)分解為更小的任務(wù),進行多線程或多進程并行執(zhí)行。通過并行化處理,顯著縮短了數(shù)據(jù)處理的時間,提升了系統(tǒng)的吞吐量。
數(shù)據(jù)模型及自動建表能力加強
1.自動建表、已有數(shù)據(jù)處理: 除了文件類型的數(shù)據(jù)源外,所有數(shù)據(jù)源現(xiàn)支持自動建表。無論是已有表結(jié)構(gòu)還是已有數(shù)據(jù)處理,WhaleTunnel都能輕松應(yīng)對。同時,目標端支持自定義表名策略。無需手動處理復雜的表結(jié)構(gòu),極大地減少了數(shù)據(jù)集成的時間和人工成本。
2.數(shù)據(jù)模型推演:?在任務(wù)保存時自動觸發(fā),自動檢查source、transform、sink中的配置是否合法;在任務(wù)重同步表發(fā)生表結(jié)構(gòu)變化時,檢查其變化可能導致的配置項非法問題。確保數(shù)據(jù)流的穩(wěn)定性和一致性,減少因配置錯誤導致的數(shù)據(jù)同步失敗。在運行數(shù)據(jù)集成任務(wù)之前,就可以自動識別潛在的問題并提前修復。
3.數(shù)據(jù)類型自動映射: 數(shù)據(jù)源到目標端的數(shù)據(jù)類型自動映射。自動適配不同的數(shù)據(jù)類型,減少手動調(diào)整的麻煩。從不同數(shù)據(jù)庫遷移數(shù)據(jù)時,無需擔心類型不匹配的問題。
與WhaleScheduler全面集成
1、增量同步和參數(shù)傳遞:?? WhaleTunnel與WhaleScheduler緊密集成,根據(jù)調(diào)度中的日歷、業(yè)務(wù)日期(牌)以及上下游參數(shù)進行增量同步或者參數(shù)傳遞來進行數(shù)據(jù)內(nèi)容控制,進一步提高數(shù)據(jù)同步的靈活性和準確性。例如,在券商監(jiān)管報表生成時,能夠自動獲取符合上報規(guī)則交易日期的數(shù)據(jù),確保數(shù)據(jù)的準確性。
2、獨立同步調(diào)度任務(wù)組件: WhaleTunnel擁有獨立的CDC實時調(diào)度組件和批量調(diào)度組件,可以在WhaleScheduler成為獨立任務(wù)組件被上下游進行觸發(fā)等工作,實現(xiàn)更靈活的任務(wù)調(diào)度和管理。在數(shù)據(jù)集成后,進行相關(guān)數(shù)據(jù)加工,或者自定義微批任務(wù),實現(xiàn)微批任務(wù)的串行等待等。
3.增量數(shù)據(jù)參數(shù)傳遞: 離線全量Source支持根據(jù)自定義where條件讀取,可以使用調(diào)度傳遞的參數(shù)變量實現(xiàn)增量數(shù)據(jù)參數(shù)傳遞,精準控制數(shù)據(jù)同步范圍,實現(xiàn)增量/批量/微批的多場景控制,提升整體數(shù)據(jù)批量和CDC實時處理能力。
加強可觀測性與監(jiān)控告警
1、離線同步新增支持失敗、超時告警, 提前預(yù)警潛在問題,減少數(shù)據(jù)同步失敗帶來的影響。舉例來說,在夜間批處理任務(wù)中,能夠及時發(fā)現(xiàn)并處理異常,確保數(shù)據(jù)同步的順利進行。
2、實時同步新增失敗告警、實時同步新增DDL變更事件告警:實時監(jiān)控數(shù)據(jù)同步狀態(tài),快速響應(yīng)和處理異常情況。例如,電商平臺可以及時發(fā)現(xiàn)和修正訂單數(shù)據(jù)同步中的問題,確保業(yè)務(wù)的連續(xù)性,可以讓用戶快速收到DDL變更情況,從而更早的手工干預(yù)。
通過虛擬表支持非結(jié)構(gòu)化數(shù)據(jù)可視化轉(zhuǎn)化
1.文件數(shù)據(jù)源: 新增支持 CSV文件類型以壓縮格式讀寫,支持讀取時跳過表頭和寫入時寫入表頭設(shè)置,支持新的文件格式:DBF, Debezium-Json, 更靈活地處理不同格式的文件數(shù)據(jù),提高數(shù)據(jù)導入導出的效率。
2.No-SQL數(shù)據(jù)源支持: 創(chuàng)建虛擬表時支持配置主鍵,且sink自動建表時使用該主鍵建表,提高數(shù)據(jù)一致性和查詢效率。例如,在處理NoSQL數(shù)據(jù)時,可以更好地管理和索引數(shù)據(jù)。
3.虛擬表支持設(shè)置索引
4.HTTP數(shù)據(jù)源虛擬表優(yōu)化: 優(yōu)化數(shù)據(jù)源和虛擬表配置,token、路徑、請求參數(shù)等支持填寫參數(shù)變量,更靈活地集成和管理HTTP數(shù)據(jù)源,提高數(shù)據(jù)獲取的靈活性和效率。
CDC同步增強功能
1.唯一索引表同步: CDC同步源表現(xiàn)支持擁有唯一索引的表同步,確保數(shù)據(jù)的唯一性和完整性。例如,在用戶信息同步時,可以確保用戶ID的唯一性,避免數(shù)據(jù)重復和沖突。
2.無主鍵表同步: CDC同步源表支持無主鍵表的同步,提供更廣泛的數(shù)據(jù)同步支持,適應(yīng)更多樣化的數(shù)據(jù)庫設(shè)計。例如,在某些歷史數(shù)據(jù)表中,可能沒有主鍵的設(shè)計,但仍然可以實現(xiàn)高效的數(shù)據(jù)同步。
小結(jié)
WhaleTunnel?? 2.6版本功能非常強大,涵蓋了從數(shù)據(jù)模型設(shè)計、自動化建表,到高效的數(shù)據(jù)同步和監(jiān)控告警,以及多樣化的數(shù)據(jù)源支持。無論您的數(shù)據(jù)集成需求是簡單的數(shù)據(jù)傳輸還是復雜的實時分析,WhaleTunnel都能為您提供定制化的解決方案,幫助您實現(xiàn)數(shù)據(jù)驅(qū)動的業(yè)務(wù)成功。
我們期待與您一同迎接數(shù)據(jù)集成的新時代!如果您對WhaleTunnel 2.6版本有任何疑問或想了解更多信息,請隨時聯(lián)系我們的客戶服務(wù)團隊。感謝您對WhaleTunnel的信任和支持!
白鯨開源
白鯨開源是一家開源原生的DataOps商業(yè)公司,是國家高新技術(shù)企業(yè),由多個Apache??Foundation Member成立,80%員工都是 Apache??Committer,運營2個全球Apache開源項目(DolphinScheduler,??SeaTunnel)。白鯨開源已根據(jù)全球最佳實踐發(fā)布商業(yè)版產(chǎn)品WhaleStudio(含白鯨數(shù)據(jù)調(diào)度平臺WhaleScheduler和白鯨數(shù)據(jù)集成平臺WhaleTunnel)。我們致力于打造下一代開源原生的DataOps?? 平臺,助力企業(yè)在大數(shù)據(jù)和云時代,智能化地完成多數(shù)據(jù)源、多云及信創(chuàng)環(huán)境的數(shù)據(jù)集成、調(diào)度開發(fā)和治理,以提高企業(yè)解決數(shù)據(jù)問題的效率,提升企業(yè)分析洞察能力和決策能力。
如果您希望深入了解我們的其他功能,或者討論如何將 WhaleStudio 與你的業(yè)務(wù)流程相結(jié)合,我們非常愿意為你提供幫助。歡迎您首先試用白鯨調(diào)度系統(tǒng)(WhaleScheduler),開始您的大數(shù)據(jù)之旅。
轉(zhuǎn)自:中國網(wǎng)
【版權(quán)及免責聲明】凡本網(wǎng)所屬版權(quán)作品,轉(zhuǎn)載時須獲得授權(quán)并注明來源“中國產(chǎn)業(yè)經(jīng)濟信息網(wǎng)”,違者本網(wǎng)將保留追究其相關(guān)法律責任的權(quán)力。凡轉(zhuǎn)載文章及企業(yè)宣傳資訊,僅代表作者個人觀點,不代表本網(wǎng)觀點和立場。版權(quán)事宜請聯(lián)系:010-65363056。
延伸閱讀