數據治理如何做?火山引擎DataLeap幫助這款產品3個月降低計算成本20%
本文講述字節跳動一款 App產品的數據治理故事。該產品隨著用戶體量和數據體量不斷增長,數倉的任務量、數據量也不斷攀升,運維難、成本貴、穩定性等問題在不斷凸顯。通過使用火山引擎DataLeap的數據治理能力,3個月時間將計算成本大幅縮減20%。
(相關資料圖)
該產品是一款近千萬級DAU的產品,疫情3年,催生了大量的線下需求轉型至線上,海量的數據雖然為產品創造了巨大的價值,但是也增高了計算成本和存儲成本。“成本治理專項”成為了這個產品的重要工作之一,為了解決數據治理的問題,產品接入了火山引擎自研的大數據開發套件——DataLeap,主要圍繞下述兩個場景進行成本治理:
1. 快速啟動并獲得收益
大數據場景下計算資源的重要價值和昂貴成本,需要每個任務都按需使用。而在實際的業務開發過程中,存在大量的異常計算任務,浪費了大量的計算資源。計算場景也因此成為該產品數倉團隊成本治理的關鍵切入點。
通過DataLeap,數倉團隊可以設置明確治理目標,并配置治理域,通過選定各種規則的任務治理,比如關閉/下線無效任務、優化高耗時并且占用資源 TopN 任務、優化資源申請不合理 TopN 任務、優化表產出小文件 TopN 任務等,由此對隊列阻塞情況進行改善,完成階段性進行縮容。
DataLeap 還支持對任務執行進行全鏈路監控,自動發現這些異常的計算任務,并在工作臺進行展示,讓數據研發人員可以查看相應任務,并采取治理措施。
2. 按季度持續治理
數據治理是一項長期性、系統性的工作,通過DataLeap平臺,該產品優先實現了數據按季度持續治理。
DataLeap 平臺提供一系列任務圈選規則,可以圈選出無效、高耗時、資源申請不合理、小文件異常、近7天內無更新、寫入數據、近90天無訪問表等規則,進行定期掃描,由此實現周期性成本治理。除此之外,DataLeap還提供通知、一鍵拉群等治理運營操作,支持查看治理效果,沉淀治理經驗,有效推動數倉團隊成本推動進展。
其次,為了能更直觀監測到數倉健康度、量化治理效果,產品團隊還引入了DataLeap「健康分」體系。一旦出現健康分不達標情況,會及時限制產品使用資源比例、資源申請等。DataLeap還支持繁忙和閑置時段隊列資源利用率的監測,可以幫助飛書數倉團隊優化任務調度措施。
最終,該產品的數倉團隊主要從YARN和HDFS切入,在引入DataLeap的三個月內,快速落地成本治理項目。在計算治理場景,實現YARN 隊列成本降低 20%;在存儲治理場景,已釋放 7PB 存儲空間。
隨著數據的不斷累積和業務的不斷發展,大數據的體量將會變得越來越大,而隨之而來的龐大成本,也成為了大數據建設中越來越無法忽視的問題。火山引擎DataLeap基于字節跳動業務場景和實踐經驗,沉淀有一套完整的數據質量、SLA治理、資源優化、告警優化的能力,可以為業務提供流暢順滑的數據治理體驗;在流程上,覆蓋規劃式、響應式的用戶數據治理雙路,同時與各業務密切配合,落地和沉淀多項治理規則。(作者:邵苗)
關鍵詞: 新聞資訊
2023-02-21 18:46:17
2023-02-21 18:43:40
2023-02-21 18:38:10
2023-02-21 18:37:39
2023-02-21 18:23:45
2023-02-21 17:57:45
2023-02-21 17:56:15
2023-02-21 17:39:07
2023-02-21 17:35:12
2023-02-21 16:49:14
2023-02-21 16:48:05
2023-02-21 16:47:52
2023-02-21 16:47:32
2023-02-21 16:37:50
2023-02-21 15:53:58
2023-02-21 15:50:18
2023-02-21 15:48:08
2023-02-21 15:47:55
2023-02-21 15:47:42
2023-02-21 15:46:50
2023-02-21 15:45:20
2023-02-21 15:44:07
2023-02-21 15:41:43
2023-02-21 15:38:57
2023-02-21 15:37:18
2023-02-21 15:35:41
2023-02-21 15:35:06
2023-02-21 15:34:47
2023-02-21 15:33:42
2023-02-21 15:32:06
2023-02-21 15:31:33
2023-02-21 15:29:27
2023-02-21 15:27:28
2023-02-21 15:25:49
2023-02-21 15:25:24
2023-02-21 15:00:05
2023-02-21 14:58:27
2023-02-21 14:54:58
2023-02-21 14:54:26
2023-02-21 14:49:57
2023-02-21 14:48:58
2023-02-21 14:48:55
2023-02-21 14:45:23
2023-02-21 13:41:57
2023-02-21 13:06:25
2023-02-21 13:04:23
2023-02-21 12:57:19
2023-02-21 12:55:12
2023-02-21 12:53:57
2023-02-21 12:45:26
2023-02-21 12:42:06
2023-02-21 12:41:28
2023-02-21 12:34:45
2023-02-21 11:56:43
2023-02-21 11:53:02
2023-02-21 11:42:54
2023-02-21 11:41:52
2023-02-21 11:33:36
2023-02-21 10:57:26
2023-02-21 10:49:44
2023-02-21 10:36:59
2023-02-21 10:35:54
2023-02-21 10:15:45
2023-02-21 09:51:39
2023-02-21 09:27:31
2023-02-21 09:26:58
2023-02-21 09:26:54
2023-02-21 09:26:38
2023-02-21 09:26:37
2023-02-21 09:25:48
2023-02-21 09:25:30
2023-02-21 09:24:27
2023-02-21 09:23:31
2023-02-21 09:21:58
2023-02-21 09:21:42
2023-02-21 09:20:51
2023-02-21 09:19:43
2023-02-21 09:19:15
2023-02-21 09:18:47
2023-02-21 09:18:42
2023-02-21 09:18:02
2023-02-21 09:16:21
2023-02-21 09:16:17
2023-02-21 09:16:08
2023-02-21 09:15:53
2023-02-21 09:14:08
2023-02-21 09:13:34
2023-02-21 09:11:43
2023-02-21 09:11:28
2023-02-21 09:10:16
2023-02-21 09:10:11
2023-02-21 09:06:39
2023-02-21 09:05:54
2023-02-21 09:04:49
2023-02-21 09:03:59
2023-02-21 08:57:44
2023-02-21 08:56:29
2023-02-21 08:55:07
2023-02-21 08:54:55
2023-02-21 08:50:36
相關新聞