騰訊混元3D，AI平權(quán)讓人人成了“造物者”

原創(chuàng) 贊收藏評論

舉報 2025-05-12

掃描,分享朋友圈

“造物者”并非一定就是神學(xué)，今天，AI也可以顛覆你的想象空間！

一個簡單的例子是，打開騰訊混元3D版本生成界面，輸入“充滿戰(zhàn)斗力的人物英雄”——30秒后，4套完整3D模型隨即清晰可見，附帶骨骼綁定和力量動畫。

確實有這么快和逼真，用騰訊3D混元，或許你甚至不用成為專業(yè)的設(shè)計師，也能得到想要的3D圖紙和動畫設(shè)計。

這究竟是如何實現(xiàn)的？

實際上，這種能力源于騰訊混元3D所開放的智能AI生產(chǎn)能力，數(shù)字平權(quán)下，每個人好像都可以是“造物者”。

無獨有偶，近期，騰訊混元3D又迎來了再次升級，從 v2.0 版本到 v.2.5 版本，據(jù)騰訊宣稱 v2.5 版本在建模精細度上得到了大幅提升。

由此可見，騰訊的多模態(tài)Agent商業(yè)應(yīng)用落地正在做加速度了。

01

—

快、真，騰訊混元3D解放想象力

3D技術(shù)由來已久，從20世紀開始，3D打印就被應(yīng)用到工業(yè)設(shè)計中，不過彼時人類掌握的3D能力，既面臨速度效率上等等困擾，也有成本和質(zhì)量上的不堪。

“不成型的模樣和反復(fù)地加工調(diào)試修改”，幾乎是常態(tài)。

但在通用人工智能時代，3D模型技術(shù)徹底變了，這里，可以暫且將其比喻為一種功能革命，即從解耦生成與全鏈路生產(chǎn)力。通俗地理解，就是3D從諾基亞時代橫跨到了iPhone4時代。

其中，諸多內(nèi)卷的大模型里，騰訊3D混元似乎更具實力。3月，一份來自全球知名AI模型評測平臺Chatbot Arena公布的最新排名顯示，騰訊混元成為唯二刷新榜單的大模型之一，首次闖入全球Top 15。

能取得不錯的成績，騰訊3D混又是如何做到的？

不妨來從測試體驗中尋求答案。先以有著全中國最為復(fù)雜城市建筑結(jié)構(gòu)的重慶為例，將這座3D魔幻城市的地標樓體嵌入其中進行3D生成。

體驗鏈接：https://3d.hunyuan.tencent.com/

開源地址：https://huggingface.co/spaces/tencent

（1）選擇→重慶來福士地標圖

（2）進行圖生3D操作輸入

（3）輸出圖

因此，可以得出一個結(jié)論：城市夜景燈色效果得到遷移，建筑物體結(jié)構(gòu)和細節(jié)之處的紋路被以肉眼可見的清晰度復(fù)制，即便是旁邊的游客，也形成與之呼應(yīng)的仿真人物。山城重慶的立體美感在騰訊混元3D大模型上得到淋漓盡致地展現(xiàn)。

接下來選擇一個最近網(wǎng)絡(luò)上很有人氣的大橘為例。

（1）輸入文字指令

（2）輸出

生成出來的大橘在法線圖，眼睛、身軀、胡須等方面都有非常清晰的輪廓和細節(jié)結(jié)構(gòu)。

體驗后的感受并不復(fù)雜，一是很快，二是很逼真?？炷芙鉀Q創(chuàng)作者的時效痛點，逼真則源于對質(zhì)量的要求。混元3D的核心差異化，恰好就在于其“幾何與紋理解耦生成”的技術(shù)架構(gòu)，換句話講，幾何大模型（Hunyuan3D-DiT）專注物體結(jié)構(gòu)與空間邏輯，能高效、精準模擬出工業(yè)級精度。

再舉個案例，某新能源車企測試顯示，其生成的齒輪組模型齒距誤差僅0.03毫米，可直接用于物理仿真。而紋理大模型（Hunyuan3D-Paint）則像數(shù)字世界的“材質(zhì)魔術(shù)師”，訓(xùn)練數(shù)據(jù)包含8.7億張微觀攝影圖，能還原鐵銹氧化痕跡甚至織物纖維斷裂細節(jié)。

這種分工模式帶來的質(zhì)變，在游戲行業(yè)同樣也很顯著。對于一些游戲研發(fā)者而言，過去制作一個符合行業(yè)標準的3D角色需5—10天，現(xiàn)在AI生成框架加人工微調(diào)僅需1～2天。更關(guān)鍵的是“智能面數(shù)分配”：系統(tǒng)自動將50%面數(shù)集中于角色面部，30%用于上半身，下肢僅占20%——這與資深美術(shù)師的經(jīng)驗完全一致。

從每一位使用者的感知看，騰訊3D混元帶來的最大不同是體驗平民化，讓3D模型從專業(yè)工具到簡易型的全民創(chuàng)作。從產(chǎn)品使用角度看，有3個功能變化是能佐證這一觀點的：

①　多視圖輸入：上傳2—4張圖片，AI自動補全被遮擋區(qū)域，解決傳統(tǒng)建模需多角度拍攝的繁瑣；

②　智能減面：將模型面數(shù)從數(shù)千優(yōu)化至數(shù)百，并保持細節(jié)平滑，移動端渲染效率提升多倍；

③　骨骼綁定自動化：上傳模型即可一鍵生成跑步、揮手等預(yù)設(shè)動畫。

也正因如此，一些獨立開發(fā)者才在試用混元3D制作休閑游戲道具后感嘆：“過去外包一個Q版角色要花3000元，現(xiàn)在AI生成加微調(diào)成本不到100元?！?/span>

而這種技術(shù)平權(quán)，正在打破不少行業(yè)形成的資源壟斷格局。

02

—

萬億參數(shù)底座上構(gòu)建的AI能力

騰訊混元3D所帶來的快和逼真的極致體驗，其背后并非只是產(chǎn)品優(yōu)化現(xiàn)象，往深處扒不難發(fā)現(xiàn)，它植根于騰訊混元大模型的萬億級參數(shù)土壤。在早前的中文大模型競技場CLUE評測中，該模型的空間推理能力超過GPT-4 Turbo，處理“設(shè)計可折疊太空咖啡杯”等復(fù)雜指令時展現(xiàn)出工程化思維。

公開資料顯示，支撐這一切的是騰訊特有的混合專家模型（MoE）架構(gòu)，據(jù)悉該架構(gòu)擁有3890億參數(shù)規(guī)模，推理成本較稠密模型降低70%，再配合星脈高性能計算網(wǎng)絡(luò)，借助自研AngelPTM框架，訓(xùn)練速度達主流框架2.6倍，由此，騰訊混元3D模型逐步形成了數(shù)據(jù)飛輪效應(yīng)，即用戶生成的3D模型持續(xù)反哺訓(xùn)練，最終建立其技術(shù)護城河。

此前的騰訊財報數(shù)據(jù)顯示，公司2024年研發(fā)投入達706.9億元，資本開支同比增長221%至767億元，創(chuàng)歷史新高。按目前升級后的模型測試結(jié)果看，可以推斷出騰訊在大模型方面的投入無疑相當大。

不過騰訊的野心不止于工具輸出。

自2024年11月開源Hunyuan3D-1.0以來，GitHub星標數(shù)三個月破萬，8000余家開發(fā)機構(gòu)接入；2.0版本則進一步開放幾何/紋理模型權(quán)重，開發(fā)者可自由組合生成管線；而2.5版本在建模精細度上進一步大幅提升，有效幾何分辨率達到1024，從標清升級到了高清畫質(zhì)。另外，在模型架構(gòu)上，混元3D v2.5總參數(shù)量從1B提升至10B，有效面片數(shù)增加超10倍，同時免費生成額度翻倍，提升至每天20次。

由此可見，騰訊的“訓(xùn)練推理參數(shù)”與“開源換生態(tài)”的雙向策略，與AWS早期路徑如出一轍。更深遠的布局在于數(shù)據(jù)標準。當數(shù)百萬開發(fā)者使用混元3D輸出HMF格式文件時，騰訊悄然成為3D內(nèi)容交互的事實標準制定者——這正是其在大模型競賽中的關(guān)鍵籌碼。

有消息稱，騰訊近期還針對混元大模型的研發(fā)體系進行了全面重組，主要圍繞算力、算法和數(shù)據(jù)三大核心板塊刷新團隊部署，加碼研發(fā)投入。

此次調(diào)整后，騰訊的數(shù)據(jù)和平臺底座能力將得到明顯加強。例如，大語言模型部和多模態(tài)模型部，分別負責探索大語言模型和多模態(tài)大模型的前沿技術(shù)，持續(xù)迭代基礎(chǔ)模型，提升模型能力。同時進一步加強大模型數(shù)據(jù)能力和平臺底座建設(shè)，其中數(shù)據(jù)平臺部專注大模型數(shù)據(jù)全流程管理與建設(shè)，機器學(xué)習平臺部則聚焦機器學(xué)習與大數(shù)據(jù)融合平臺建設(shè)，為AI模型訓(xùn)練推理、大數(shù)據(jù)業(yè)務(wù)提供全面高效的PaaS平臺底座，共同支撐騰訊混元大模型技術(shù)研發(fā)。

長遠看，混元3D的創(chuàng)新，最終還是要體現(xiàn)在商業(yè)應(yīng)用和回報上，這是每一家AI公司在大模型發(fā)展道路上不約而同的訴求。

03

—

走向更縱深的3D商業(yè)場景

馬化騰曾稱，“我們相信這些加大的投資，會通過提升廣告業(yè)務(wù)的效率及游戲的生命周期而帶來持續(xù)的回報，并隨著我們個人AI應(yīng)用的加速普及和更多企業(yè)采用我們的AI服務(wù)，創(chuàng)造更長遠的價值。”

我們可以試圖簡單地理解這句話，騰訊通過對混元3D模型的持續(xù)升級和投資，并推動更多客戶的使用，從而為騰訊帶來在AI端業(yè)務(wù)的增長動力。

目前，騰訊混元大模型已在700 多個內(nèi)部場景中得到部署，同時考慮到騰訊正積極整合前沿開源生態(tài)系統(tǒng)，待下一季度財報出爐時，或?qū)⒏?/span>顯著的看見混元3D為公司業(yè)務(wù)帶來的有利變化。

即便從長期看，全球3D建模市場規(guī)模也足夠大，據(jù)國際數(shù)字內(nèi)容協(xié)會統(tǒng)計，這一單一市場將在2025年突破210億美元。混元3D的商業(yè)化路徑也初見端倪。

短期內(nèi)，混元3D或主要以企業(yè)API調(diào)用和企業(yè)訂閱制為主，長期看，工業(yè)、游戲等成為大模型落地的香餑餑行業(yè)，以游戲行業(yè)為例，中小團隊憑混元3D工具可以很快實現(xiàn)“創(chuàng)意平權(quán)”，而國內(nèi)又有百萬級游戲從業(yè)者，背后是百億乃至千億級的市場。

如果將目標放至蛋糕紅利更大的自動駕駛領(lǐng)域，混元3D的商業(yè)應(yīng)用價值在于，通過3D物理虛擬模擬車禍、極端天氣等罕見路況來驅(qū)動車企的成本下降和算法迭代，能夠幫助廠商們改進產(chǎn)品技術(shù)和服務(wù)質(zhì)量。其內(nèi)在邏輯是，兩者之間完全是一種互補關(guān)系，一方面車企很難在現(xiàn)實中采集到全面、多樣的訓(xùn)練數(shù)據(jù)，AI生成的3D模型卻能夠補充這種能力。

至于其他AR、VR、線上展館等領(lǐng)域，同樣也將是未來騰訊混元3D的落地方向，這是基于騰訊自身在娛樂、廣告、社交等業(yè)務(wù)方面的沉淀而得出的結(jié)論。

海外市場也不容小視。去年騰訊公司海外收入達到580億元，同比增長9%，其中海外游戲廠牌Supercell的游戲人氣大增，實現(xiàn)活躍用戶和游戲流水的明顯增長。如果混元3D生成模型被進一步應(yīng)用在游戲3D資產(chǎn)生成等場景，將有效刺激海外游戲玩家規(guī)模的穩(wěn)步增長，這幾乎是確定性事件。

上述現(xiàn)狀表明，騰訊混元3D在體驗上的超預(yù)期表現(xiàn)和在底座數(shù)據(jù)、平臺能力上形成的基石，構(gòu)建起了該模型在未來的長期回報效應(yīng)。因為當人人都可以在數(shù)字平權(quán)下成為“造物者”時，商業(yè)價值就變得更加清晰可見。

2.5版本并不是終結(jié)者，未來或許還有更多驚喜。

本文系作者授權(quán)數(shù)英發(fā)表，內(nèi)容為作者獨立觀點，不代表數(shù)英立場。
未經(jīng)授權(quán)嚴禁轉(zhuǎn)載，授權(quán)事宜請聯(lián)系作者本人，侵權(quán)必究。