AI 推論伺服器是讓 AI 應用程式與大型語言模型 (LLM) 溝通並產生回應的關鍵軟體。當使用者向 ChatGPT、企業智能助理或任何 AI 應用程式提問時,推論 (Inference) 就是模型根據輸入資料產生答案的過程——這正是 AI 創造商業價值的核心環節。
Red Hat AI Inference Server 是 Red Hat 推出的企業級推論伺服器,基於業界領先的開源專案 vLLM,並整合收購 Neural Magic 後獲得的先進技術。它的設計目標是:任何模型、任何加速器、任何雲端環境,讓企業能夠更快速、更經濟地部署生成式 AI。
vLLM 是由加州大學柏克萊分校於 2023 年發起的開源專案,現已成為 AI 推論的事實標準。Red Hat 是 vLLM 最大的商業貢獻者之一,提供企業級強化版本。
1. PagedAttention 技術:革命性的 GPU 記憶體管理,大幅提升利用率
2. 連續批次處理 (Continuous Batching):動態處理多個請求,提升吞吐量
3. Tensor/Pipeline/Expert 平行化:支援超大型模型跨多 GPU 運行
4. OpenAI 相容 API:無縫整合現有應用程式
LLM Compressor 是統一的模型壓縮函式庫,整合 GPTQ、SmoothQuant、SparseGPT 等先進演算法,可大幅縮小模型體積同時維持準確度。
1. 量化技術:將高精度權重轉換為 FP8/INT8/INT4 格式,減少記憶體需求
2. 稀疏化處理:移除冗餘參數,加速推論運算
3. 原生 Hugging Face 整合:一鍵載入壓縮後的模型
Red Hat 在 Hugging Face 上維護經過驗證和優化的模型集合,企業可直接使用這些模型,無需自行調校:
1. Llama 系列 (Meta)、Gemma (Google)、Mistral、Phi (Microsoft)、DeepSeek、Granite (IBM)
2. 效能提升,無需犧牲模型準確度
3. 涵蓋多語言、程式碼生成、摘要、對話等多種用途
|
優勢 |
說明 |
|
🚀 極致效能 |
vLLM 引擎最大化 GPU 利用率,PagedAttention 技術優化記憶體管理,連續批次處理提升吞吐量。預優化模型效能提升。 |
|
💰 成本節省 |
LLM Compressor 智慧壓縮技術可減少硬體成本。 |
|
🔄 混合雲彈性 |
容器化交付,可部署於 Red Hat OpenShift、RHEL、第三方 Kubernetes 或任何標準 Linux 環境。地端、公有雲、邊緣運算皆適用。 |
|
⚡ 硬體自由 |
多加速器支援:NVIDIA GPU、AMD GPU、Intel Gaudi、Google TPU、IBM Spyre。不被單一硬體廠商綁定,自由選擇最佳性價比方案。 |
|
🛡️ 企業級支援 |
Red Hat 30 年開源商業化經驗,提供 SLA 保障的技術支援。強化安全性的 vLLM 發行版,經過完整企業驗證。 |
|
推論引擎 |
vLLM (企業強化版) |
|
支援加速器 |
NVIDIA GPU、AMD GPU (ROCm)、Intel Gaudi、Google TPU、IBM Spyre |
|
支援平台 |
RHEL 9+、OpenShift 4.x、第三方 Kubernetes、標準 Linux |
|
支援模型 |
Llama、Gemma、Mistral、Phi、DeepSeek、Granite、Qwen 等主流開源模型 |
|
交付方式 |
標準容器映像 (Container Image) |
|
授權計價 |
按加速器數量訂閱 (Per Accelerator) |
Red Hat AI Inference Server 是企業部署生成式 AI 的理想選擇。它結合了 vLLM 的尖端技術、Neural Magic 的優化能力,以及 Red Hat 30 年企業開源軟體的經驗,為企業提供:
您是否想評估您的企業目前的混合雲自動化成熟度?或希望進一步了解 Red Hat Ansible 在實際 IT 營運場景的作用?MetaAge 邁達特是 Red Hat 台灣總代理,擁有近 30 年雲地整合、混合多雲治理的實戰經驗。邁達特不僅提供產品授權,更專精於規劃、導入與客製化您的 Ansible 策略,確保自動化效益能在您的 IT 環境中真正落地並持續擴展。
您可由此填寫 【免費諮詢表單】聯繫邁達特顧問團隊,讓邁達特的 Ansible 認證工程師為您量身打造以自動化為核心的雲端治理策略,助您掌握混合雲管理全局。