在傳統的應用環境裡,可能有不同的應用需求
針對不同的應用需求,提供相對應的儲存設備和相對應的通訊協定,而這些不同的資料,因為介質不同,無法直接提供給大數據分析,所以需要將所有資料傳輸到針對大數據分析的儲存設備裡作計算分析,而計算分析後產出的資料,又需要再傳輸到不同設備裡去做儲存和可視化,甚至在備份到儲存設備裡,造成資料流非常複雜,且資料其實是同一份,卻因為資料分析,產生出非常多的重複資料,造成企業裡的空間浪費與有效利用。
PowerScale 提供多種通訊協定 Multi Protocol,如CIFS(SMB)、 NFS、HTTP、FTP、NDMP、REST、HDFS、SWIFT,可以收容企業中各式各樣的檔案,存放在one file system的data lake裡,本身提供最多允許故障4 節點的容錯機制,也可橫向擴充到252個節點,達到PB等級的儲存空間,每個節點都是active可存取相同的檔案資料,並可針對節點做自動分層以及附載平衡,解決資料孤島,複雜資料流,資料重複的問題。
在原本DAS Standard Hadoop架構裡,需要一台Landing Zone Servers來負責收集企業中所需分析的資料,並轉換成HDFS格式存放到分散式Hadoop節點裡,並將資料複製共3份做資料保護,而每台Hadoop節點同時提供運算及儲存用途,外部資料存取時會透過一台name node做資料檢索。
但若換成powerscale advanced hadoop架構,因本身就支援HDFS格式,所以完全不需要Landing Zone Servers做資料轉換,企業資料直接在地儲存在地分析,而原本Hadoop節點同時提供運算及儲存,advanced架構也將運算和儲存分開,當運算不夠時只需擴充hadoop運算節點,空間不夠時只需擴充powerscale空間節點,不須跟DAS架構一樣同時擴充運算和儲存,有效節省資源浪費 ; 而powerscale 每個節點同時都是named node,所以跟原本只有單name node 的架構比較,有效的提高外部存取效率,資料保護透過erasure coding (ec) 技術,資料只需1.25x的空間儲放,比原本的3副本存放方式,存放空間大大的減少,而整體的大數據分析,減少資料轉換持間,加快讀取效率,在地儲存在地分析,整體加快了4X以上的分析時間,也減少了資源和空間的浪費。