技術專欄

Dell PowerScale In-Line Data Reduction 實時資料縮減技術

Dell Technologies 戴爾科技集團
2022/10/07

大多數企業IT人員都在努力應對資料爆炸式增長帶來的挑戰,這顯著提高了存儲環境的成本和複雜性。業務資料通常充滿大量可壓縮和重複性。資料壓縮和重複資料刪除是專門的data reduction技術,可以減少資料的物理大小。

In-Line Data Reduction 是 Dell PowerScale提高資料有效空間的一個里程碑,也是希望保持競爭優勢的關鍵要素。

 

PowerScale In-Line Data Reduction 特色:

 

OneFS In-Line Data Reduction結合了實時壓縮和重複資料刪除。壓縮使用無損算法在資料寫入磁盤時減小資料的物理大小,並在資料讀回時解壓縮資料。更具體地說,無損壓縮通過識別和減少或消除計算重複來減少每個文件中的數量。

無損壓縮不會遺失任何資料,並且可以輕鬆地將文件解壓縮為其原始形式。重複資料刪除與資料壓縮的不同之處在於它消除了重複資料的重複副本。壓縮技術識別單個文件中的多餘資料並更有效地編碼資料,而重複資料刪除檢查資料並識別相同的部分甚至整個文件,並用共享副本替換它們。

壓縮和重複資料刪除對於位於文件系統之上的所有應用程序都是通透的,包括基於協議的服務,如 NFS、SMB、HDFS 或 S3。 OneFS In-Line Data Reduction的主要目的是減少資料的存儲需求,從而減少存儲空間、降低電力和冷卻需求,並降低每 TB 的總體存儲成本。

此外,In-Line Data Reduction還有助於減少寫入存儲設備的物理資料總量。通過顯著降低SSD的磨損率,這對於具有有限寫入限制的固態驅動器 (SSD) 特別有幫助。

 

三個主要的存儲容量衡量標準:

PowerScale三個主要的存儲容量衡量標準

RAW

Protected physical:在任何設定保護之前存儲系統中所有磁碟的容量。

 

Usable

Preprotected physical:設定保護後可用於存儲資料的容量(磁盤保護、操作系統等)。

 

Effective Usable

Effective Logical data:透過資料縮減率計算後,預估可以存儲的資料量。

 

Data Reduction平台

In-line data reduction 支援Dell PowerScale F900 and F600-NVMe and F200 SSD nodes, PowerScale H700/7000 and A300/3000 node
支持具有以下群集或節點池所需的特定 OneFS 版本包括:

 

In-Line Data Reduction寫入路徑包括三個主要階段:

 

如果在集群上同時啟用了實時壓縮和重複資料刪除,則首先執行零塊刪除,然後是重複資料刪除,然後是壓縮。 此順序允許每個階段減少每個後續階段的工作範圍,如圖2。

PowerScale In-Line Data Reduction寫入路徑包括三個主要階段

 

Zero Block Removal(零區塊刪除)

In-Line Data Reduction零區塊刪除階段檢測僅包含區塊為零並防止將它們寫入磁盤。
此操作既減少了磁盤空間需求,又避免了對 SSD 的不必要寫入,從而延長了磁碟的使用壽命。
零區塊刪除首先發生在 OneFS In-Line Data Reduction過程中。因此,它有可能減少實時重複數據刪除和壓縮需要執行的工作量。
零區塊刪除需要以下特徵:

 

In-line Deduplication(實時重複資料刪除)

儘管 OneFS 多年來一直提供本機文件系統重複資料刪除解決方案,但直到 OneFS 8.2.1,此功能是通過在將資料寫入磁盤或後處理排程掃描資料來實現的。
通過實時資料縮減,現在可以在將資料寫入集群時實時執行重複資料刪除。存儲效率是通過在接收到相同塊時掃描資料然後消除重複資料來實現的。
 

PowerScale In-line Deduplication(實時重複資料刪除)

當發現重複區塊時,實時重複資料刪除將區塊的單個副本移動到一組稱為shadow stores的特殊文件中。

OneFS shadow stores是允許以可共享方式存儲資料的文件系統容器。

因此,OneFS 上的文件可以包含物理資料和指向shadow stores中共享塊的指針。

OneFS 實時重複資料刪除使用128-bit CityHash演算法,該演算法速度快且加密能力強。

這與使用 SHA-1 hashing的 OneFS post-process SmartDedupe 做法不同。

啟用了實時重複資料刪除的集群,每個節點都有自己in-memory hash index,用於比較區塊“fingerprints”。

Index位於系統記憶體中,使用物理上連續的頁面進行分配,並通過物理地址直接存取。

該系統避免了遍歷虛擬記憶體映射的需要,並且不會產生轉換後備緩衝區未命中的成本,從而最大限度地減少重複資料刪除對性能的影響。

 

PowerScale In-line Deduplication(實時重複資料刪除)-2

 


In-line Compression實時壓縮

OneFS 為 F900、F600、F200、H700/H7000和 A300/A3000 平台提供基於軟體式的壓縮技術。

壓縮文件區塊

當使用實時資料壓縮將文件寫入 OneFS 時,文件的邏輯空間被劃分為大小相等的區塊,稱為壓縮區塊。

Compaction 用於創建 128 KB 的壓縮區塊,每個區塊由 16 個 8 KB 數據塊組成。

此設置是最佳的,因為 128 KB 與 OneFS 用於其數據保護條帶單元的塊大小相同,提供了簡單性和效率,並避免了額外的區塊打包的效能消耗。

例如,以下 128 KB 區塊:

壓縮後,這個區塊的大小從 16 個減少到 6 個 8 KB 區塊。這種減少意味著這個區塊現在物理大小為 48 KB。
 

PowerScale In-line Compression實時壓縮

OneFS 為物理屬性提供透明的邏輯覆蓋。這個覆蓋描述了支持資料是否被壓縮,以及區塊中的哪些區塊是物理的,這樣文件系統使用者就不會受到壓縮的影響。

因此,壓縮區塊的大小在邏輯上表示為 128 KB,而不管其實際物理大小如何。
上圖中的橙色扇區表示區塊中尾隨的、部分資料填入的 8 KB 區塊。

效率節省必須至少為 8 KB(一個區塊)才能進行壓縮,否則該區塊或文件將被傳遞並保持其原始的未壓縮狀態。
例如,將壓縮一個 16 KB 的文件,該文件可節省 8 KB(一個區塊)。一旦文件被壓縮,它就會受到前向糾錯 (FEC) 奇偶校驗塊的保護,從而減少 FEC 區塊的數量,從而進一步節省整體存儲空間。

壓縮區塊永遠不會跨節點池,從而避免需要解壓縮或重新壓縮數據以更改保護級別、執行恢復寫入或以其他方式轉移保護組邊界。

另外不建議在啟用壓縮的情況下運行不可壓縮的資料。

PowerScale In-line Compression實時壓縮

高效的存儲利用率

In-Line Data Reduction是 OneFS 的多個功能之一,它使 Dell PowerScale 能夠提供非常高的存儲效率。
另一個資料儲存效率功能是 OneFS SmartDedupe,它採用post-process重複數據刪除來跨文件系統共享通用數據區塊。 SmartQuotas 精簡配置、SnapshotIQ 和小文件打包等其他功能也有助於提高整體效率。

但是,最重要的存儲效率屬性之一是 OneFS 在本地管理文件系統中的資料保護的方式。與大多數依賴硬件 RAID 的文件系統不同,OneFS 在文件級別保護資料,並使用基於軟體的erasure coding,使大多數客戶能夠享受 85% 或更高的空間使用率。

這與 NAS 行業平均約 60% 的原始磁盤容量利用率形成對比。實時資料縮減有助於進一步擴展這種存儲效率空間,為基於文件的主存儲帶來更加引人注目和明顯的 TCO 優勢。

OneFS 實時資料縮減與業界領先的橫向擴充NAS架構相集成,通過提供顯著的存儲成本節省,在不犧牲性能、易用性或資料保護的情況下實現大規模簡單資料高效率的承諾。
憑藉其簡單的界面和透明的操作,OneFS 實時資料縮減可在您的 Dell PowerScale 集群上輕鬆管理,在一個高度可擴充的存儲池中提供企業資料儲存高效利用率。
 

轉翻引述原廠文件,詳細技術內容請點此參閱

聯絡 我們