AI 大數據

Dell PowerScale大數據儲存解決方案,釋放數據真正的價值

大數據是什麼?什麼是數據資產?

在網路盛行之前,傳統所了解的的資產,如公司規模大小,員工的數量,技術能力,有多少專利,或是軟硬設備,來評斷一家公司的市值。
但在數位轉型後,數據資料已經受到大家的關注,大數據 影響了整個企業應用,分析這些數據資料的價值,可能遠遠超出原本傳統價值,那如何利用這些海量的資料,做有效的分析,提取需要資料作利用,增加公司效率,提供政策方向,幫助公司獲利 成為最重要的目標。

大數據應用

非結構性資料

類似、影片、圖片、音樂、文字log、pdf、網頁等等,這些非結構性資料,很多時候是以檔案方式存放,且資料成長都非常大,不容易收容和集中管理,而每年捕獲175 ZB資料量其實有80%來至非結構資料,而這些非結構資料,必須要先結構化資料才能做數據分析,所以有效的收容後分析出有用的資料,成為現今重要的議題。
 

如何管理非結構或資料

其實要管理這些海量的非結構性資料,其實非常不容易,不同的需求都會有專屬的儲存設備,每種儲存設備管理不一、容量不一、效能不一、規格不一、用途也不一樣,資料無法互相流通與使用,變成一座座的資料孤島。當業務有新的需求,例如BIg Data 分析,需要透過很繁瑣的流程和採購新設備來增加效能和儲存空間做分析,不但需要花費很大的投資成本,也因為整個建置流程消耗大量時間,造成錯過了最好的時機,也無法創造新的營收。
當我們把數據收集後,本身資料是沒有價值的,它就只是數據而已。
有效把數據做萃取,分析,結構化,產出真正的價值,才能真正將數據轉化成資產

傳統大數據遇到的問題

在傳統的應用環境裡,可能有不同的應用需求

針對不同的應用需求,提供相對應的儲存設備和相對應的通訊協定,而這些不同的資料,因為介質不同,無法直接提供給大數據分析,所以需要將所有資料傳輸到針對大數據分析的儲存設備裡作計算分析,而計算分析後產出的資料,又需要再傳輸到不同設備裡去做儲存和可視化,甚至在備份到儲存設備裡,造成資料流非常複雜,且資料其實是同一份,卻因為資料分析,產生出非常多的重複資料,造成企業裡的空間浪費與有效利用。

大數據分析

PowerScale Data Lake 大數據儲存的一切問題

PowerScale 提供多種通訊協定 Multi Protocol,如CIFS(SMB)、 NFS、HTTP、FTP、NDMP、REST、HDFS、SWIFT,可以收容企業中各式各樣的檔案,存放在one file system的data lake裡,本身提供最多允許故障4 節點的容錯機制,也可橫向擴充到252個節點,達到PB等級的儲存空間,每個節點都是active可存取相同的檔案資料,並可針對節點做自動分層以及附載平衡,解決資料孤島,複雜資料流,資料重複的問題。

大數據分析

PowerScale Advanced Hadoop 架構

在原本DAS Standard Hadoop架構裡,需要一台Landing Zone Servers來負責收集企業中所需分析的資料,並轉換成HDFS格式存放到分散式Hadoop節點裡,並將資料複製共3份做資料保護,而每台Hadoop節點同時提供運算及儲存用途,外部資料存取時會透過一台name node做資料檢索

但若換成powerscale advanced hadoop架構,因本身就支援HDFS格式,所以完全不需要Landing Zone Servers做資料轉換,企業資料直接在地儲存在地分析,而原本Hadoop節點同時提供運算及儲存,advanced架構也將運算和儲存分開,當運算不夠時只需擴充hadoop運算節點,空間不夠時只需擴充powerscale空間節點,不須跟DAS架構一樣同時擴充運算和儲存,有效節省資源浪費 ; 而powerscale 每個節點同時都是named node,所以跟原本只有單name node 的架構比較,有效的提高外部存取效率,資料保護透過erasure coding (ec) 技術,資料只需1.25x的空間儲放,比原本的3副本存放方式,存放空間大大的減少,而整體的大數據分析,減少資料轉換持間,加快讀取效率,在地儲存在地分析,整體加快了4X以上的分析時間,也減少了資源和空間的浪費

大數據儲存

大數據應用

 

延伸閱讀
聯絡 我們