F5攜手NVIDIA提升AI工廠經(jīng)濟效益，賦能加速AI推理

原創(chuàng) 贊收藏評論

舉報 2026-03-28

掃描,分享朋友圈

基于NVIDIA BlueField DPU加速的 F5 BIG-IP Next for Kubernetes 實現(xiàn)更高Token吞吐、更低單Token成本，并支持安全的多租戶AI基礎(chǔ)設(shè)施，助力智能體時代下的AI工廠轉(zhuǎn)型。

西雅圖-全球領(lǐng)先的應(yīng)用交付和API安全解決方案提供商F5(NASDAQ: FFIV)日前宣布，進一步擴展與NVIDIA的深度合作，旨在加速并優(yōu)化AI推理基礎(chǔ)設(shè)施。

此次升級整合了F5 BIG-IP Next for Kubernetes與 NVIDIA BlueField-3 DPU，構(gòu)建出具備智能化與遙測感知能力的基礎(chǔ)設(shè)施層。在提升GPU利用率的同時，該解決方案能夠顯著提升GPU利用率及Token吞吐量、降低時延，并支持在大規(guī)模環(huán)境下構(gòu)建安全的多租戶AI平臺。

在AI系統(tǒng)中，Token是衡量AI輸出的基本單位，即在推理過程中生成和處理的詞語、符號或數(shù)據(jù)片段。Token產(chǎn)出的規(guī)模與速度，直接決定了用戶體驗、基礎(chǔ)設(shè)施效率以及單加速器的收益能力。

隨著企業(yè)與GPU即服務(wù)(GPUaaS)提供商加速推動AI商業(yè)化，并從實驗階段邁向規(guī)?；瘎?chuàng)收，基礎(chǔ)設(shè)施效率正成為關(guān)鍵衡量指標(biāo)。當(dāng)前，行業(yè)衡量標(biāo)準(zhǔn)正從單純的GPU部署規(guī)模，轉(zhuǎn)向更精細化的Token經(jīng)濟指標(biāo)，包括Token吞吐量、首個Token時間(TTFT)、單Token成本以及單GPU收入等。F5與NVIDIA的聯(lián)合解決方案，正是圍繞這些核心指標(biāo)進行優(yōu)化設(shè)計，助力客戶實現(xiàn)AI投資回報最大化。

通過智能化 AI 基礎(chǔ)設(shè)施優(yōu)化 Token 經(jīng)濟性

從以應(yīng)用為中心的推理轉(zhuǎn)向由智能體驅(qū)動的AI工作流，迫切需要新的架構(gòu)設(shè)計，以提升token吞吐效率并降低成本。F5 BIG-IP Next for Kubernetes現(xiàn)已深度集成NVIDIA NIM 統(tǒng)計數(shù)據(jù)、Dynamo運行時信號以及GPU遙測信息，實現(xiàn)在推理執(zhí)行前即可進行感知推理狀態(tài)的流量調(diào)度決策。通過實時將工作負載匹配至最合適的加速器資源，該解決方案在提升持續(xù)利用率的同時，有效降低推理時延與重復(fù)計算。

F5首席產(chǎn)品官Kunal Anand表示，“AI基礎(chǔ)設(shè)施已不再只是獲取GPU資源或擴大部署規(guī)模，而是演進為如何最大化單塊加速器所產(chǎn)生的經(jīng)濟價值。通過與NVIDIA的合作，我們助力AI工廠將Token產(chǎn)出轉(zhuǎn)化為可量化的業(yè)務(wù)指標(biāo)。BIG-IP Next for Kubernetes提供所需的智能調(diào)度與治理能力，幫助企業(yè)提升GPU產(chǎn)出效率、降低單Token成本，并更自信地擴展共享型AI平臺?！?/p>

經(jīng)驗證的基礎(chǔ)設(shè)施效率提升：結(jié)構(gòu)性躍遷

性能數(shù)據(jù)充分印證了這一點。在The Tolly Group的驗證測試中，基于NVIDIA BlueField-3 DPU加速的F5 BIG-IP Next for Kubernetes，實現(xiàn)了最高達40%的Token吞吐提升、首個Token時間加快61%，以及整體請求時延降低34%。

這并非漸進式優(yōu)化，而是架構(gòu)層面的效率躍遷。通過將網(wǎng)絡(luò)處理、TLS/加密、AI感知負載均衡及流量管理等任務(wù)卸載至NVIDIA BlueField-3 DPU，BIG-IP Next for Kubernetes能夠有效釋放主機CPU資源，并讓GPU專注于其核心職責(zé)，即在大規(guī)模場景下執(zhí)行持續(xù)、高吞吐的AI推理計算。這一架構(gòu)實現(xiàn)了GPU利用率顯著提升、排隊延遲減少，以及Token產(chǎn)出能力增強，從而在固定基礎(chǔ)設(shè)施規(guī)模下實現(xiàn)更低的單Token成本。更為關(guān)鍵的是，這一系列性能提升無需對模型本身進行任何修改，可直接應(yīng)用于現(xiàn)有AI工廠基礎(chǔ)設(shè)施。對于在Token經(jīng)濟學(xué)賽道展開競爭的企業(yè)及NeoCloud服務(wù)提供商而言，這意味著從限制AI產(chǎn)出的基礎(chǔ)設(shè)施，邁向加速AI產(chǎn)出的關(guān)鍵轉(zhuǎn)變。

NVIDIA網(wǎng)絡(luò)業(yè)務(wù)高級副總裁Kevin Deierling表示，“NVIDIA加速計算基礎(chǔ)設(shè)施與F5具備AI的應(yīng)用交付與安全平臺相結(jié)合，能夠顯著提升AI工廠的Token 經(jīng)濟效益，并在無需修改模型的前提下，實現(xiàn)可擴展且具備成本效率的推理能力。F5與NVIDIA正攜手助力企業(yè)以更高效、更經(jīng)濟的方式擴展AI工廠推理能力?！?/p>

面向智能體驅(qū)動AI與多租戶平臺構(gòu)建

現(xiàn)代AI工作負載正日益呈現(xiàn)出智能體驅(qū)動、持久化與上下文感知。這類新型負載對流量調(diào)度提出了更高要求，傳統(tǒng)負載均衡已難以勝任。F5 BIG-IP Next for Kubernetes增強版現(xiàn)已支持以下核心能力：

· 面向智能體AI工作流的推理感知路由。

· 集成NVIDIA DOCA Platform Framework(DPF)，簡化NVIDIA BlueField DPU的部署與全生命周期管理。

· 基于EVPN-VXLAN與動態(tài)VRF的網(wǎng)絡(luò)級多租戶隔離能力。

· 在Kubernetes AI環(huán)境中內(nèi)建安全能力、Token治理與可觀測性。

這些能力賦能企業(yè)與NeoCloud服務(wù)提供商能夠在共享 GPU 基礎(chǔ)設(shè)施的同時，實現(xiàn)跨業(yè)務(wù)單元或外部客戶的安全隔離，在保障性能隔離性的前提下，維持可預(yù)測的服務(wù)水平。

面向AI工廠經(jīng)濟學(xué)的控制平面

F5與NVIDIA為企業(yè)提供經(jīng)過驗證的工具與最佳實踐，助力優(yōu)化推理架構(gòu)?；谏鲜瞿芰ι?，F(xiàn)5 BIG-IP Next for Kubernetes正在演進為AI工廠經(jīng)濟學(xué)的戰(zhàn)略級控制平面，實現(xiàn)治理Token消耗、優(yōu)化流量路徑，并最大限度地提升基礎(chǔ)設(shè)施的投資回報率(ROI)。

基于此，企業(yè)無需再通過過度資源預(yù)留來彌補效率損耗，而是能夠從現(xiàn)有已部署GPU資源中釋放更高的經(jīng)濟價值。由此帶來一系列關(guān)鍵業(yè)務(wù)收益，包括：單GPU收入提升、運維成本降低，并能構(gòu)建起支撐持續(xù)增長的可擴展AI服務(wù)。通過深度融合NVIDIA的基礎(chǔ)設(shè)施遙測與DPU加速能力，以及F5在流量智能與安全領(lǐng)域的核心優(yōu)勢，雙方正助力企業(yè)將AI工廠從計算資源平臺轉(zhuǎn)化為高效、可變現(xiàn)的業(yè)務(wù)平臺，從而為智能體時代做好充分準(zhǔn)備。

· 博客文章：AI工廠需要智能化基礎(chǔ)設(shè)施：The Tolly Group最新測試結(jié)果深度解析
· 技術(shù)報告：The Tolly Group獨立測試報告：F5 BIG-IP Next for Kubernetes性能驗證全記錄

本文系作者授權(quán)數(shù)英發(fā)表，內(nèi)容為作者獨立觀點，不代表數(shù)英立場。
未經(jīng)授權(quán)嚴(yán)禁轉(zhuǎn)載，授權(quán)事宜請聯(lián)系作者本人，侵權(quán)必究。