F5攜手NVIDIA提升AI工廠經(jīng)濟效益,賦能加速AI推理
基于NVIDIA BlueField DPU加速的 F5 BIG-IP Next for Kubernetes 實現(xiàn)更高Token吞吐、更低單Token成本,并支持安全的多租戶AI基礎(chǔ)設(shè)施,助力智能體時代下的AI工廠轉(zhuǎn)型。
西雅圖-全球領(lǐng)先的應(yīng)用交付和API安全解決方案提供商F5(NASDAQ: FFIV)日前宣布,進一步擴展與NVIDIA的深度合作,旨在加速并優(yōu)化AI推理基礎(chǔ)設(shè)施。
此次升級整合了F5 BIG-IP Next for Kubernetes與 NVIDIA BlueField-3 DPU,構(gòu)建出具備智能化與遙測感知能力的基礎(chǔ)設(shè)施層。在提升GPU利用率的同時,該解決方案能夠顯著提升GPU利用率及Token吞吐量、降低時延,并支持在大規(guī)模環(huán)境下構(gòu)建安全的多租戶AI平臺。
在AI系統(tǒng)中,Token是衡量AI輸出的基本單位,即在推理過程中生成和處理的詞語、符號或數(shù)據(jù)片段。Token產(chǎn)出的規(guī)模與速度,直接決定了用戶體驗、基礎(chǔ)設(shè)施效率以及單加速器的收益能力。
隨著企業(yè)與GPU即服務(wù)(GPUaaS)提供商加速推動AI商業(yè)化,并從實驗階段邁向規(guī)?;瘎?chuàng)收,基礎(chǔ)設(shè)施效率正成為關(guān)鍵衡量指標(biāo)。當(dāng)前,行業(yè)衡量標(biāo)準(zhǔn)正從單純的GPU部署規(guī)模,轉(zhuǎn)向更精細化的Token經(jīng)濟指標(biāo),包括Token吞吐量、首個Token時間(TTFT)、單Token成本以及單GPU收入等。F5與NVIDIA的聯(lián)合解決方案,正是圍繞這些核心指標(biāo)進行優(yōu)化設(shè)計,助力客戶實現(xiàn)AI投資回報最大化。
通過智能化 AI 基礎(chǔ)設(shè)施優(yōu)化 Token 經(jīng)濟性
從以應(yīng)用為中心的推理轉(zhuǎn)向由智能體驅(qū)動的AI工作流,迫切需要新的架構(gòu)設(shè)計,以提升token吞吐效率并降低成本。F5 BIG-IP Next for Kubernetes現(xiàn)已深度集成NVIDIA NIM 統(tǒng)計數(shù)據(jù)、Dynamo運行時信號以及GPU遙測信息,實現(xiàn)在推理執(zhí)行前即可進行感知推理狀態(tài)的流量調(diào)度決策。通過實時將工作負載匹配至最合適的加速器資源,該解決方案在提升持續(xù)利用率的同時,有效降低推理時延與重復(fù)計算。
F5首席產(chǎn)品官Kunal Anand表示,“AI基礎(chǔ)設(shè)施已不再只是獲取GPU資源或擴大部署規(guī)模,而是演進為如何最大化單塊加速器所產(chǎn)生的經(jīng)濟價值。通過與NVIDIA的合作,我們助力AI工廠將Token產(chǎn)出轉(zhuǎn)化為可量化的業(yè)務(wù)指標(biāo)。BIG-IP Next for Kubernetes提供所需的智能調(diào)度與治理能力,幫助企業(yè)提升GPU產(chǎn)出效率、降低單Token成本,并更自信地擴展共享型AI平臺?!?/p>
經(jīng)驗證的基礎(chǔ)設(shè)施效率提升:結(jié)構(gòu)性躍遷
性能數(shù)據(jù)充分印證了這一點。在The Tolly Group的驗證測試中,基于NVIDIA BlueField-3 DPU加速的F5 BIG-IP Next for Kubernetes,實現(xiàn)了最高達40%的Token吞吐提升、首個Token時間加快61%,以及整體請求時延降低34%。
這并非漸進式優(yōu)化,而是架構(gòu)層面的效率躍遷。通過將網(wǎng)絡(luò)處理、TLS/加密、AI感知負載均衡及流量管理等任務(wù)卸載至NVIDIA BlueField-3 DPU,BIG-IP Next for Kubernetes能夠有效釋放主機CPU資源,并讓GPU專注于其核心職責(zé),即在大規(guī)模場景下執(zhí)行持續(xù)、高吞吐的AI推理計算。這一架構(gòu)實現(xiàn)了GPU利用率顯著提升、排隊延遲減少,以及Token產(chǎn)出能力增強,從而在固定基礎(chǔ)設(shè)施規(guī)模下實現(xiàn)更低的單Token成本。更為關(guān)鍵的是,這一系列性能提升無需對模型本身進行任何修改,可直接應(yīng)用于現(xiàn)有AI工廠基礎(chǔ)設(shè)施。對于在Token經(jīng)濟學(xué)賽道展開競爭的企業(yè)及NeoCloud服務(wù)提供商而言,這意味著從限制AI產(chǎn)出的基礎(chǔ)設(shè)施,邁向加速AI產(chǎn)出的關(guān)鍵轉(zhuǎn)變。
NVIDIA網(wǎng)絡(luò)業(yè)務(wù)高級副總裁Kevin Deierling表示,“NVIDIA加速計算基礎(chǔ)設(shè)施與F5具備AI的應(yīng)用交付與安全平臺相結(jié)合,能夠顯著提升AI工廠的Token 經(jīng)濟效益,并在無需修改模型的前提下,實現(xiàn)可擴展且具備成本效率的推理能力。F5與NVIDIA正攜手助力企業(yè)以更高效、更經(jīng)濟的方式擴展AI工廠推理能力?!?/p>
面向智能體驅(qū)動AI與多租戶平臺構(gòu)建
現(xiàn)代AI工作負載正日益呈現(xiàn)出智能體驅(qū)動、持久化與上下文感知。這類新型負載對流量調(diào)度提出了更高要求,傳統(tǒng)負載均衡已難以勝任。F5 BIG-IP Next for Kubernetes增強版現(xiàn)已支持以下核心能力:
· 面向智能體AI工作流的推理感知路由。
· 集成NVIDIA DOCA Platform Framework(DPF),簡化NVIDIA BlueField DPU的部署與全生命周期管理。
· 基于EVPN-VXLAN與動態(tài)VRF的網(wǎng)絡(luò)級多租戶隔離能力。
· 在Kubernetes AI環(huán)境中內(nèi)建安全能力、Token治理與可觀測性。
這些能力賦能企業(yè)與NeoCloud服務(wù)提供商能夠在共享 GPU 基礎(chǔ)設(shè)施的同時,實現(xiàn)跨業(yè)務(wù)單元或外部客戶的安全隔離,在保障性能隔離性的前提下,維持可預(yù)測的服務(wù)水平。
面向AI工廠經(jīng)濟學(xué)的控制平面
F5與NVIDIA為企業(yè)提供經(jīng)過驗證的工具與最佳實踐,助力優(yōu)化推理架構(gòu)?;谏鲜瞿芰ι?,F(xiàn)5 BIG-IP Next for Kubernetes正在演進為AI工廠經(jīng)濟學(xué)的戰(zhàn)略級控制平面,實現(xiàn)治理Token消耗、優(yōu)化流量路徑,并最大限度地提升基礎(chǔ)設(shè)施的投資回報率(ROI)。
基于此,企業(yè)無需再通過過度資源預(yù)留來彌補效率損耗,而是能夠從現(xiàn)有已部署GPU資源中釋放更高的經(jīng)濟價值。由此帶來一系列關(guān)鍵業(yè)務(wù)收益,包括:單GPU收入提升、運維成本降低,并能構(gòu)建起支撐持續(xù)增長的可擴展AI服務(wù)。通過深度融合NVIDIA的基礎(chǔ)設(shè)施遙測與DPU加速能力,以及F5在流量智能與安全領(lǐng)域的核心優(yōu)勢,雙方正助力企業(yè)將AI工廠從計算資源平臺轉(zhuǎn)化為高效、可變現(xiàn)的業(yè)務(wù)平臺,從而為智能體時代做好充分準(zhǔn)備。
· 博客文章:AI工廠需要智能化基礎(chǔ)設(shè)施:The Tolly Group最新測試結(jié)果深度解析
· 技術(shù)報告:The Tolly Group獨立測試報告:F5 BIG-IP Next for Kubernetes性能驗證全記錄
轉(zhuǎn)載請在文章開頭和結(jié)尾顯眼處標(biāo)注:作者、出處和鏈接。不按規(guī)范轉(zhuǎn)載侵權(quán)必究。
未經(jīng)授權(quán)嚴(yán)禁轉(zhuǎn)載,授權(quán)事宜請聯(lián)系作者本人,侵權(quán)必究。
本文禁止轉(zhuǎn)載,侵權(quán)必究。
授權(quán)事宜請至數(shù)英微信公眾號(ID: digitaling) 后臺授權(quán),侵權(quán)必究。



評論
評論
推薦評論
暫無評論哦,快來評論一下吧!
全部評論(0條)