AI 大數據

VMware vSphere Bitfusion對AI和機器學習,提供彈性基礎架構

VMware vSphere Bitfusion虛擬化了圖形處理單元(GPU)等硬件加速器,以提供一組共享的,可通過網絡訪問的資源,支持人工智慧(AI)和機器學習(ML)工作負載。vSphere Bitfusion可與TensorFow和PyTorch等人工智能框架一起使用。您可以在虛擬機或Docker容器中部署 vSphere Bitfusion,以在數據中心環境中使用。借助vSphere Bitfusion,您可以監視網絡中所有 GPU 伺服器的運行狀況,利用率,效率和可用性。您還可以監視客戶端對GPU的使用情況,並分配配額和時間限制,可按需提供彈性基礎設施。

VMware vSphereBitfusion架構

Bitfusion 要解決的是以下問題:

  • 有些團隊在利用機器學習進行研究時沒有 GPU 可以用來加速學習速度;
  • 而另一些團隊已經擁有了 GPU,但是他們沒有完全利用 GPU 的處理能力,很多 GPU 資源在白白閒置。

 

Bitfusion GPU 區分方案具有以下特點:

  • 分區可以是任意大小:

Bitfusion 可以指定任意大小的分區,例如 1%;如前所述,這特別適用于開發測試等試驗性的應用場景。

  • GPU 獨立性:

各個 GPU 分區相互獨立,各自運行不同的 AI 框架和模型,絕對不會相互影響。

  • 大小可動態調整:

GPU 分區可以動態調整大小,例如從同一塊物理 GPU 分出的兩塊分區分別為 45% 和 55%,55% 的 GPU 分區可以進一步拆分成更小的兩塊 35% 和 20%,而不會影響另一塊 45% 分區 上工作負載的正常運行。

  • 支援多個物理 GPU:

從不同物理 GPU 中分出來的多個 GPU 分區能夠以多個 GPU 的形式分配給同一個使用者和工作負載,這既可以提高整個 GPU 資源池的利用率,也有助於開發和調試多 GPU 工作負載應用。

 

Bitfusion 採用了客戶機和伺服器模式來共享 GPU

 

 

聯絡 我們