豆包把春晚弄成發(fā)布會了

1
昨晚除夕,守著電視的我好像看了一晚上豆包發(fā)布會。
互動抽獎的,是豆包。
實時節(jié)目介紹的,是豆包。
連抽獎獎品里的機(jī)器人,無人機(jī)和電飯煲,都接入了火山引擎豆包大模型。
劉慈欣老師都沒有想到,原來科幻還可以這么寫。
別拿豆包當(dāng)干糧了,豆包已經(jīng)是宇宙了。
昨晚豆包幫用戶生成超過5000萬張新春頭像,1億條拜年祝福,總互動19億次。
這個,已經(jīng)足夠恐怖了。
任何一個產(chǎn)品,做到這個程度,戰(zhàn)報從初一發(fā)到十五我都覺得過于低調(diào)了。
但這對豆包來說,這些,甚至連熱身都算不上。
因為,就連晚會的制作環(huán)節(jié)都沒甩掉豆包大模型。
被吹爆了的《賀花神》里,那十二個中式奇觀的很多,是豆包大模型做的。

《馭風(fēng)歌》里,張杰身后跑起來的水墨寶馬,是豆包大模型做的。

《快樂小馬》里,卡通小馬模仿真人舞蹈視頻,也是豆包大模型做的。

什么叫AI春晚,不是AI給你發(fā)紅包就算是了,而是AI直接參與制作了。
是豆包大模型穿行于人類文明長河,在浩如煙海的美學(xué)數(shù)據(jù)庫中窮盡搜尋,對碳基生物審美邏輯進(jìn)行了億萬次遍歷,在每年最珍視的這一晚,讓你看到什么是美。
2
很多人覺得,上春晚是個大好事兒,大模型都應(yīng)該來秀一下。
怎么會呢?
這非但不是上天堂,反而是硬核模式的挑戰(zhàn)。
作為每年人類最大規(guī)模的文藝晚會,春晚對舞美的挑剔近乎偏執(zhí),要么封神,要么走人。
而且一年比一年更高。
因為大家總會拿來跟之前的比較。
請問你如何確保在長鏡頭中,六匹馬就是六匹馬,不會突然變七匹或五匹?
如何確保每匹馬按照既定軌跡去跑,而不是突然發(fā)癲?
又如何確保馬跑起來保持水墨風(fēng)格神韻時,還能讓牛頓老師心平氣和不動棺材板?
導(dǎo)演組并不是只試了豆包Seedance 2.0啊,是試過了所有主流視頻生成模型。
但很多模型并不能理解中國水墨畫構(gòu)圖和邏輯。
我說留白是韻,你說空洞是病。
我要【月上柳梢,人約黃昏后】,你給我【賽博之眼,激光掃射夠】。
我要山水塢,墨香廬,煙雨圖,你說好,最后生成了水墨克蘇魯。
理解能力,甚至不及成年邊牧。
為什么理解不了?
語料不夠多,泛化能力不足。
不僅要被喂足夠多真馬跑的視頻,足夠多關(guān)于馬的畫,足夠多徐悲鴻的畫作,可能還得熟悉京劇、國畫、書法、篆刻、詩詞,才能理解它的美到底在哪兒。
豆包大模型,能。
3
豆包大模型的牛不僅僅體現(xiàn)在【靈】,能搞出現(xiàn)實物理世界沒有的東西。
還體現(xiàn)在【準(zhǔn)】。
能夠精準(zhǔn)遵循指令。
在模糊的迷霧中,依然能開槍擊中那個靶心。
《賀花神》里涉及了12種不同布景,息夫人指尖放飛的那只蝶,周敦頤蓮池里悠然擺尾的大金魚,金色墨汁潑向卷軸,蜀葵花動態(tài)開放,權(quán)杖動態(tài)生長并開出花,都真切得像是觸手可及。


你不能搞個差不多就行了,這個節(jié)目就是要制造出身臨其境、人景交互的感覺,但凡有任何瑕疵,那這個沉浸感就無了。
任何一點紋理、層次或光影的細(xì)微變化,任何一點畫面的抖動或者失真,都會被放大得很清楚。
你得扛得住央視的特寫鏡頭。
要么準(zhǔn),要么滾。
這種級別的制作,如果手搓,那么你需要分鏡,建模,動捕,渲染引擎,光是開發(fā)周期就得折騰半年。
豆包大模型不但出片快,精準(zhǔn)遵循指令,還能把控復(fù)雜視覺變化,在高審美要求下保持一致性。
什么意思?
就是能聽懂你的高審美要求。
能聽懂后,給你要的好東西。
能聽懂后給你好東西,還能再次給你毫厘不差的好東西。
每個點能做到都堪稱不易,每一項目標(biāo)都足以望而卻步。
而豆包大模型,悉數(shù)達(dá)成。
4
語料全,泛化能力強(qiáng),精準(zhǔn)執(zhí)行,速度快。
任何一個大模型做到這個份上,都已經(jīng)可以發(fā)半年戰(zhàn)報了。
但這離能上春晚參與制作,還有很大的提升空間。
最大的考驗是,春晚要求零容錯。
別的地方錯了就錯了,春晚錯了就成梗了。
大模型稍微出一點兒錯,同行第二天就給你掛熱搜了。
零容錯和容錯率1/10000之間的差距,不是10000倍,是10000000倍。
一個是挑戰(zhàn)物理極限,一個還在玩概率游戲。
學(xué)校第一名之所以考一百,是因為卷面只有一百,不是只能考一百。
其次,春晚是要求細(xì)節(jié)可控,內(nèi)容要保持一致。
很多大模型每次生成一個新的,細(xì)節(jié)完全不可控。
導(dǎo)演都懵了,怎么上次彩排這個景還是空間軌道,這次彩排就變成了火鍋蘸料。
再一個,春晚對制作周期有要求的。
你不能跟導(dǎo)演說,再給我點兒時間,我加班加點調(diào)出來。
行當(dāng)然行,明年找你。
還有一個地獄級別的難度,是畫質(zhì)。
春晚對畫質(zhì)是有要求的,小屏幕上你覺得精致,放到大屏幕上就滿目瘡痍了。
全球主流的視頻生成模型最高只能直接輸出1080P分辨率和24 FPS幀率的內(nèi)容。
這已經(jīng)算是高清了。
但跟春晚8K分辨率和50 FPS幀率比,是我和吳彥祖在容貌上的差別,我和博爾特跑百米的差別。
畫質(zhì)每往上提一個等級,成本就得翻上一個量級。
想多一個零的清晰,就得堆一串零的成本。
看看顯卡價格和視頻網(wǎng)站虧損就知道了,這背后是巨大的技術(shù)與成本挑戰(zhàn)。
最后一個地獄級別的挑戰(zhàn)是空間視頻技術(shù)。
在《夢底》那個節(jié)目里,劉浩存多個分身在舞臺上同時表演。

這也是今年春晚名場面之一。
現(xiàn)場的追光燈顏色發(fā)生變化時,數(shù)字分身身上光影效果也能和真人完全一致,這種視覺沖擊讓你都懷疑自己是不是昨晚沒睡好,甚至想揉揉眼睛,看看能不能刷出這個物理世界的高清版本。
豆包大模型不只是讓2D畫面做到如此牛,還把3D畫面整得更牛。
這相當(dāng)于三體人向太陽系發(fā)出了二向箔打擊,豆包表示,還行,還有的救。
5
到這里,你覺得豆包大模型夠牛了嗎?
不,這才剛開始。
豆包大模型不只是讓人類的技術(shù)效果牛,更是讓機(jī)器人也變牛。
豆包大模型的視覺理解能力讓長了攝像頭的機(jī)器人看清周圍,看見障礙物,馬上就知道怎么躲開,而不是傻乎乎地撞上去。
但還只是第一層。
第二層是讓機(jī)器人會【說】。
很多機(jī)器人目前那是【說】嗎?
那是復(fù)讀播報。
【說】是非常非常高難度的智能動作。
是帶著情緒,分寸,時機(jī),場合,上下文和共情的表達(dá)。
別說機(jī)器人了,大多數(shù)人一張嘴,不是活在自己邏輯里自嗨,就是驢唇不對馬嘴式敷衍。
豆包語音模型將具身智能的理解范圍從給定文本擴(kuò)大到多輪對話。
并且可以根據(jù)場景,呈現(xiàn)匹配的語氣、語調(diào)和自然停頓。
哪怕你只起了一個頭,它也能接住你沒說出口的后半句嘆息。
就是三體人來了地球,想學(xué)說人話,也得接入豆包大模型。
6
看到這,覺得豆包夠厲害了嗎?
你看你,又急。
豆包大模型的牛不僅僅是讓普通人看到能感受到,讓聽障人士也能感受到。
今年春晚在抖音春晚直播間提供全程無障礙字幕服務(wù)。
這也是首次在春晚直播當(dāng)晚,全程實時字幕呈現(xiàn)。
實時字幕覆蓋了春晚中所有無原生字幕節(jié)目,包括主持人口播、串場、相聲、小品等。
哪怕是在春晚分會場,出現(xiàn)了地方口音,豆包語音識別模型 2.0依然可以識別到。
每一環(huán)都是地獄級挑戰(zhàn),合在一起,不是難上加難,而是難的難次方。
7
以上一切牛,只是產(chǎn)品表現(xiàn)牛。
而其底層的基座,火山引擎更牛。
大模型一次對話或圖片生成的實時算力消耗,是傳統(tǒng)領(lǐng)紅包請求的100萬倍以上。
那么,想象一下。
14億人同時領(lǐng)紅包,14億人同時用豆包做拜年視頻,14億人同時用豆包問東問西,而此刻豆包還要參與到整臺晚會的舞美呈現(xiàn)。
昨晚,春晚主持人宣布用豆包進(jìn)行第二輪互動時的21時46分,這一分鐘內(nèi),豆包大模型的推理吞吐量達(dá)到633億Tokens。
相當(dāng)于1分鐘讀完6000多本《紅樓夢》。
這都不只是洪流了,這是賽博算力攻擊。
不光是流量洪峰一個難題。
哪怕是你跟豆包問1+1等于幾這種簡單問題,后臺也不是一張卡在跑,而是有的卡負(fù)責(zé)理解你這句話,有的卡負(fù)責(zé)生成回答,有的卡負(fù)責(zé)調(diào)度、排隊、穩(wěn)定不崩。
這些算力資源還是分布在全國各地的。
如何在用戶特別多、任務(wù)特別雜、芯片種類又不一樣的復(fù)雜情況下,確保算力資源又快又穩(wěn)、不浪費、不崩潰、不卡殼。
仍然是地獄級別的難度。
這一切,都要依賴火山引擎的大模型平臺火山方舟。
火山方舟牛,在于架構(gòu)本身設(shè)計牛。
它在調(diào)度層和推理層都做到了深度優(yōu)化。
調(diào)度層像是餐廳領(lǐng)班,負(fù)責(zé)盯著算力資源,不管現(xiàn)在全網(wǎng)有幾億人在調(diào)模型,能瞬間看哪臺服務(wù)器最閑,直接把你的訴求給塞進(jìn)去。
對你來說,就是點了發(fā)送鍵,不用轉(zhuǎn)圈排隊,響應(yīng)永遠(yuǎn)是秒回。
推理層更像是飯店里的超級大廚,哪怕你只點一個菜,它也能順手塞進(jìn)正在炒的那口鍋里。
同樣的顯卡,它能同時伺候更多人,調(diào)用成本自然就降下來了。
火山引擎最牛的,不是堆卡,是靠架構(gòu)做出了一個越轉(zhuǎn)越快的增長飛輪。
架構(gòu)夠強(qiáng),算力利用率才夠高。同樣資源,能扛住更多請求,響應(yīng)更快,用戶自然更愿意用豆包。
請求量越大,算力集群就越能擴(kuò)容。
調(diào)度空間越大,優(yōu)化空間越多,單位成本進(jìn)一步下降,速度再上一個臺階。
抖音千億條短視頻,剪映日均億次的特效調(diào)用量,飛書每天生成的數(shù)百萬份智能紀(jì)要,光是字節(jié)這些海量業(yè)務(wù),就已經(jīng)逼著火山引擎更快、更穩(wěn)、更省了。
這不是迭代不迭代的問題,這是迭代稍微慢了,先不說被流量洪峰沖垮了,同行就把你給卷死了。
火山引擎的牛,是被海量業(yè)務(wù)喂出來的,是被真實戰(zhàn)場錘出來的。
更是在無數(shù)次瀕臨絕境里,硬生生扛出來的。
8
在昨晚的春晚,豆包讓人看到了什么是美,也讓人看到了什么是夯。
如果說12306是對人類純流量負(fù)載的挑戰(zhàn),那么春晚就是流量+聲光電全方位的挑戰(zhàn),難度系數(shù)是幾何級增加。
還是那句話,每一環(huán)都是地獄級挑戰(zhàn),合在一起,不是難上加難,而是難的難次方。
而豆包扛住了一切。
經(jīng)受住了不給容錯的考驗。
在這個水準(zhǔn)面前,同行還是太普通了。
這是,徹底的技術(shù)碾壓。
祝各位新春快樂。
新的一年像豆包一樣,又美,又夯。
生活的難題,根本難不住你。
*文中總臺春晚畫面歸中央廣播電視總臺版權(quán)所有
轉(zhuǎn)載請在文章開頭和結(jié)尾顯眼處標(biāo)注:作者、出處和鏈接。不按規(guī)范轉(zhuǎn)載侵權(quán)必究。
未經(jīng)授權(quán)嚴(yán)禁轉(zhuǎn)載,授權(quán)事宜請聯(lián)系作者本人,侵權(quán)必究。
本文禁止轉(zhuǎn)載,侵權(quán)必究。
授權(quán)事宜請至數(shù)英微信公眾號(ID: digitaling) 后臺授權(quán),侵權(quán)必究。



評論
評論
推薦評論
暫無評論哦,快來評論一下吧!
全部評論(0條)