圖計算的黃金時代 揭秘知識圖譜背后的數據價值
數據洪流正在席卷整個世界。研究機構Statista預計,至2025年全球數據創建量——即創建、捕獲、復制和使用的數據總量,將超過180ZB。面對指數級增長的數據規模和愈發復雜的數據類型,企業想要從中獲得商業洞察變得越來越難。究其原因,是業務人員難以從海量數據中發現其關聯性,缺乏行之有效的工具,無法找到真正有價值的信息來指導業務發展。此時,就不能不提大數據技術的演進。
從Hadoop誕生之日起,大數據的發展走過了十余年,期間像存儲、離線處理等基礎問題已經得到了解決。隨著深度學習、機器學習等AI技術的逐級深入,人們開始思考如何通過挖掘大數據的關聯性去探索“隱藏”在背后的商業價值,這種訴求也將一個18年前的技術再次推到了臺前——圖數據庫。與以往用表格處理數據相比,圖沒有表的概念的,就是數學上點和邊的關系,所有的數據可以匯集在一起。
對于傳統的關系型數據庫來說,雖然其具有靈活的特點,可以做各種復雜計算,但在大數據時代對于并行計算、多機版的支持是缺乏的,而文檔數據庫、關鍵字、內存數據庫,犧牲了業務的一些表達能力,得到的好處就是可擴充,但很多以前用關系型數據庫能表達的問題卻表達不了。從存儲角度來說,圖是存儲數據最自然的關聯模型。從計算角度來說,則適合數據和人工智能。由于早年間計算性能和架構的局限,使得圖數據庫這個在計算機科學領域較為高階的研究成果在近幾年才開始顯露威力。
在Neo4j高級產品市場總監Maya Natarajan博士看來,伴隨數據量猛增而帶來的則是數據更加復雜且高度關聯,關系型數據庫已無法滿足處理復雜關聯數據的需求,不能使客戶從數據中完全受益。相比之下,圖數據庫是專為存儲和分析高度關聯數據而生的,“隨著人工智能的發展和大數據時代的到來,并行計算類的處理需求增加,圖數據庫客戶反饋,圖在關聯模型方面具有更大的優勢,更具有前瞻性,可以更加充分地利用關聯數據并發掘他們的價值。”
Neo4j高級產品市場總監Maya Natarajan博士
事實上,近年來的數據庫領域正在經歷融合式的創新,文檔數據庫、圖數據庫、時序數據庫、NoSQL 逐漸成為主流。與此同時,數據庫也越來越多地融入了云計算、AI/ML等技術。擁有13年歷史的瑞典企業Neo4j是圖技術的開創者,也是原生圖數據庫市場的領導者。Neo4j的產品有社區版和企業版,服務著全球超過1000家企業客戶。過去十年,Neo4j從圖數據庫逐步演變成為圖數據平臺。與傳統的圖數據庫不同,圖數據平臺整合了數據科學、人工智能,機器學習,充實和擴大了解決方案的功能。
Gartner預測,2012年至2022年,全球圖處理及圖數據庫的應用將以每年100%的速度迅猛增長。DB Engines近七年數據庫流行趨勢也顯示,圖數據庫相較其他主流數據庫受歡迎程度遙遙領先。在圖數據庫高速發展的浪潮之中,知識圖譜的重要性不言而喻。根據IDC亞太數據和內容技術2022年預測報告,到2025年亞太地區2000家企業中約有30%將部署圖數據庫。到2023年,亞太地區20%的商業智能將整合知識圖譜。
另據Neo4j一項針對100名企業高管的相關調查顯示,88%的企業管理者已經認識到知識圖譜的價值,認為知識圖譜可以幫助跨越管理和數據治理的瓶頸,在彌合數據孤島,改進AI或者機器學習,以及協助開辟新收入來源等方面發揮重要作用。到2023年80%的數據和分析創新項目將使用圖數據庫來實現,而2021年只有10%的創新項目是使用圖數據庫。
阿蘭·圖靈研究所將知識圖譜定義為“對知識進行編碼以在開放、不斷發展、去中心化系統中大規模使用”的最佳方式。簡而言之,知識圖譜是具有豐富含義、相互關聯的數據集。企業可以針對基礎數據進行推理,并且自信地將其用于復雜的分析和決策中。
Maya Natarajan認為,知識圖譜有三方面價值:第一、知識圖譜可以將數據轉化為智能,使企業更好地管理人工智能和機器學習;第二,知識圖譜能幫助企業在不改變現有數據格局和基礎設施的前提下,進行數據編排和自動化,為管理者提供連續觀察層,優化數據管理、數據預測和數據創新,加速企業數字化轉型;第三,知識圖譜能夠幫助企業開創新的收入來源,提高業務效率,應用場景分布在金融、制造、零售、電信、互聯網等多個行業。
據了解,Neo4j知識圖譜包含數據、顯示動態內容的圖數據及語義在內的三大要素。與關系型數據庫的平面結構不同,當數據被抽取到Neo4j動態圖結構中存儲時,節點和節點之間的關系就被添加進來,為數據提供了動態的內容,即第一層上下文關系。而隨著信息不斷豐富,圖也會不斷增長。在圖中獲取數據并為它添加語義,就獲得一個知識圖。語義為圖添加了第二層上下文關系,圖譜就具備了深入動態的上下文關系。通過這個步驟將智能引入到數據當中,便于系統或者客戶從中推斷出不同的含義。
根據數據范圍,Neo4j知識圖譜的應用范疇劃分為數據管理和數據分析。數據管理包括匯集、校驗、治理和探索數據。而數據分析側重推理、預測判定。相對應的,Neo4j提供行為圖和決策圖兩種類型的知識圖譜,協助客戶從行為知識圖譜過渡到決策知識圖譜,實現數據分析到數據智能,完成數據創新。
Maya Natarajan介紹稱,行為知識圖譜是以數據管理為核心的知識圖譜,其主要目的是提供數據保障,并通過數據洞察來推動決策行動。其中,數據保障側重把不同數據源的數據聚合在一起,進行數據交叉驗證從而產生洞察,數據治理包括如何溯源數據目錄和結構,數據是否存在血緣關系以及是否合規,以甄別存在的風險。數據洞察專注于新知識的探索、演繹和推理,主要用例包括客戶360、產品360、供應鏈360,以及身份驗證、客戶計劃等。決策知識圖譜側重于數據分析、預測判定和基礎圖的機器學習,主要用例包括流失分析、欺詐分析、風險分析、假設分析和影響分析以及實體解析和知識圖譜補全和預測模型等,例如醫療行業的患者旅程分析、制造行業的數字孿生等。
Neo4j知識圖譜解決方案是一個知識圖譜平臺,建立在豐富的產品基礎上,包括負責數據存儲的Neo4j圖數據庫,幫助建模的知識圖譜工作臺,致力數據分析的圖數據科學(GDS)和數據可視化工具Neo4j Bloom。作為原生的圖數據平臺,Neo4j專注于處理高度復雜且具有高度關聯的數據,擁有超過60個圖數據算法,并且可以連接各類外部平臺,便于用戶更充分地進行數據分析。
美國國家航空航天局利用Neo4j處理了大量的工程項目和文檔資料數據,工程師可以通過學習項目知識來提高業務決策效率,數據的關聯性使得查詢搜索過程大幅加快;中國一家全球最大的通訊設備供應商擁有超過600個數據庫,將這些數據抽取到Neo4j數據平臺,數據量超過500億節點和800億關聯,將知識圖譜優化之后,客戶實現了全面的產品360視圖,大幅減少了查詢時間,使產品團隊得以進行更高級和深入的數據分析;中國某家大型銀行使用Neo4j知識圖譜進行配置管理,支持靈活建模,提高了客戶效率,讓配置管理更加自動化;全球知名PC供應商基于Neo4j圖數據庫,對營銷和銷售各關鍵要素的關系進行了深入挖掘,并支持了多場景的實踐,幫助業務實現效率與效果的提升。
類似的案例還發生在eBay、UBS、思科、Caterpillar、AstraZeneca等企業。Neo4j所有的圖數據科學項目都始于知識圖譜,其67%的客戶已經成功地實施了知識圖譜。除此之外,Neo4j的成功也離不開對開發者生態的建設。目前,Neo4j的社區在全球擁有25萬名成員,并且多數分布在中國。自2018年起,Neo4j就開始活躍在中國市場,業務足跡遍布北京、上海、廣州、深圳,并與業內合作伙伴建立了良好的關系。今年,Neo4j將在大中華區開展更多的推廣活動,提供更加本地化的資料,為社區成員提供更多的培訓,幫助其獲得Neo4j的免費認證。在產品研發上繼續加大投入,持續優化產品,使其更加便于使用。
去年6月,Neo4j在F輪風險投資中獲得3.25億美元的融資,創造了私營數據庫公司單筆最高融資紀錄,投后估值超過20億美元。除了繼續投資圖數據平臺和數據科學之外,Neo4j還會重點擴展中國市場,幫助越來越多的中國企業通過圖數據平臺來挖掘數據的價值。“Neo4j的企業愿景就是在不同的行業場景,幫助客戶深入分析高度關聯的復雜數據,使業務數據變為商業智能,提高數據的應用價值,加速企業數字化進程。”Maya Natarajan說。
戴爾易安信PowerEdge R340 機架式服務器(Xeon E-2224/16GB/4TB*2)
領券滿15000減511
進入購買
聯想ThinkSystem SR850(Xeon Gold 5218*2/32GB/1.2TB*4)
領券滿50000減1000贈
進入購買
浪潮NF2180M3(FT2000+/32GB*8/960GB*2+12TB*4/9361-8i)
進入購買
2022-03-22 08:56:01
2022-03-22 08:50:39
2022-03-22 08:46:09
2022-03-22 08:42:13
2022-03-22 08:38:30
2022-03-22 08:34:46
2022-03-22 08:31:10
2022-03-22 08:25:18
2022-03-22 08:21:46
2022-03-21 16:42:24
2022-03-21 14:15:12
相關新聞