Seedance 2.0 Deep Evaluation: Stable in Complex Scenarios, Even ASMR?

華爾街見聞
2026.02.13 10:46
portai
I'm PortAI, I can summarize articles.

Seedance 2.0 上線後引發熱議,馬斯克和美國導演紛紛讚譽。用户對其全球使用和註冊中國賬號表現出強烈興趣。該版本在鏡頭語言理解和多模態輸入方面有顯著提升,支持圖像、視頻、音頻和文本的混合輸入,增強了畫面一致性和穩定性。用户分享了多種創意視頻,展示了 Seedance 2.0 的強大功能。

太熱鬧了!整個一個現象級 show time~

前腳字節剛上線 Seedance 2.0,後腳直接全網現象級刷屏!!!

這邊馬斯克怒贊,那邊美國導演直呼好萊塢要完蛋了。

甚至急得不少老外狂催更:啥時候能開放全球使用?咋註冊中國賬號?在線等!挺急的!

如此之火爆,如此之 amzing,那咱高低也得上手搓一把試試。

看我搓的這個全網超火的「貓咪大戰哥斯拉」同款視頻,小貓一躍,直接一個重拳出擊~

再來看這個 AI 版《F1 狂飆飛車》,轉速錶飆升、剎車尖嘯,太有好萊塢內味兒了嗷:

再來試試 Chinese kungfu 大戰鋼鐵俠,倆人一來一回近身過招,音效刺激感拉滿,太帶派了!

腦洞大開的網友們更會整活兒,快看下面這位網友做的一鏡到底,鏡頭從街頭一路滑進地鐵站、鑽進車廂,超有夢核感:

還有這位網友,只是上傳了一張漫畫截圖,Seedance 2.0 直接給他整出了一整段劇情視頻,別太 amazing 啊我説!!

老實説,Seedance 2.0 確實對鏡頭語言理解更到位也更可控了,參考能力直接 next level,很適合咱日常做多鏡頭和精細化控制使用~

老規矩不廢話,咱直接邊測邊嘮,模型到底能不能打,讓大家來評!!!

鏡頭理解更到位了

複雜場景也能穩住

我不知道 uu 們有沒有遇到過跟我一樣的撓頭瞬間:

那就是咱們日常做 AI 視頻時,一旦涉及涉及多鏡頭的提示詞,主體特徵就會很容易「發飄」。

舉個栗子,搓出來的視頻人物前後長得不一樣,場景和鏡頭風格不統一等等,最後基本都會面臨反覆抽卡的戲碼……

歸根結底,還是因為模型的一致性和穩定性有 bug。

這次 Seedance 2.0 一個最明顯的升級點就落在多模態輸入形式上,咱可以輸入圖像、視頻、音頻、文本四種混合內容形式,模型在畫面一致性上的表現也更穩更可控了~

先來點開胃菜,最近網上邵氏武俠 AI 視頻火得不行,於是我直接輸入一張武林中人對打的動作寫真照:

在具體提示詞的設計上,需要畫面裏的男女角色在對話、情緒變化、動作展開到再次對峙之間形成一條完整的衝突鏈,同時需要 AI 在多鏡頭切換中穩住人物外形,並在整體風格和情緒基調上保持一致!

從下面的效果看,在大幅動作和多次鏡頭切換過程中,即便人物表情和鏡頭角度發生變化,但男女主的面部特徵依然穩定,沒有明顯變形的問題,不戳不戳!

咱再來玩點有意思的,這回咱讓蒙娜麗莎在盧浮宮上演一出盧浮宮偷喝可樂的《大戲》。

在提示詞設計裏,蒙娜麗莎需要始終固定在原有畫像中完成掏可樂、喝可樂這樣幅度不小的動作,還要同步出現説話表情,對模型的穩定性要求一下子就拉高了:

你還真別説,蒙娜麗莎這偷喝可樂時鬼鬼祟祟的小眼神和動作還真挺到位,説話時面部一致性也穩住了,手扶畫框的動作沒有出戏,過關過關!!

咱再來玩個首尾幀玩法,馬年到了正好應應景,我上傳了兩張畫風完全不同的馬兒奔跑圖片,讓這匹馬在同一個畫面裏完成一次大變身:

有點東西……從水墨風一路過渡到油畫風,再到像素風,整體銜接得很自然,音效和變身動作也卡得挺準!!!

總的來説,我個人感覺模型在畫面一致性和可控性這塊的表現還是蠻強的,日常用來做多角色、多鏡頭的視頻製作場景很合適~

在使用時建議大家儘量多上傳一些不同角度、不同參考元素,這樣模型整體的輸出水準會更穩一些~

一鏡到底也能拍

在這次更新中,Seedance 2.0 還有一個大功能亮點就是——「一鏡到底」

但是這個一鏡到底和咱們認知的不太一樣,它主要強調的是我們可以給模型不同的參考畫面,模型可以把這些畫面用一個視頻串聯起來~

這次,咱玩點未來科幻感的,我直接給模型餵了三張賽博味拉滿、視角各不相同的一百年後的地球城市參考畫面:在提示詞設定上,需要模型在同一視角里把圖一到圖二再到圖三順暢串起來,中間還要完成急轉、俯衝、拉昇等大幅運鏡,對鏡頭銜接的邏輯和連貫性要求更高:

於是乎,我就得到了一個無人機視角的未來城市穿越大片,別説,這鏡頭畫面的超絕抖動感還挺帶派???

先説説優點,輸入中涉及的三個參考鏡頭確實都給我完整還原在視頻裏了,而且確實是一鏡到底,這沒得説。

但一個算不上缺點的缺點的是——圖一和圖二的畫面銜接太硬了點,我放慢給大家看:

其實我個人更理想的情況是,在圖一和圖二之間應該加一段狹窄空間作為過渡,這樣再切到圖三時,整體的連貫感會更好,也不太會有割裂的感覺。

(大家覺得呢,有啥更好的解決方式嗎,歡迎留言~)

支持完整劇情輸出

在一致性和穩定性方面,Seedance 2.0 還有一個本事是能自己——腦補劇情。

它不只是基於首幀往後生成畫面,而是可以結合多份參考素材和提示詞,直接跑一整段完整的「劇情輸出」。

這次我乾脆讓 AI 按一套六宮格漫畫,直接創作一支完整的劇情向動漫視頻:

將【@圖片 1】以從左到右從上到下的順序進行漫畫演繹,保持人物説的台詞與圖片上的一致,分鏡切換以及重點的情節演繹加入特殊音效,整體風格詼諧幽默。

emm…畫面本身倒是沒啥問題,六個畫面都被完整還原了出來。

問題主要出在文字上,不少字體和原漫畫裏的文案對不上,而且文字出現的時機也和畫面不同步。

我猜可能是因為文字本身不屬於畫面主體的一部分,相較於人物、動作和場景這些畫內元素,漫畫裏的文字對模型來説優先級明顯更低。

所以在多鏡頭和節奏切換時很容易被當成可變元素處理…

果然啊,人不能既要又要還要,AI 也是同理。(doge

視頻長度/音效也能 diy

除了基礎的畫面鏡頭能力外,Seedance 2.0 在視頻延長和音效編輯上也上了一個 level。

先來説説視頻延長。

uu 們需要注意的是,它這個延長並不是單純把視頻時間拉長,而是我們可以在提示詞裏給出首幀畫面,並可以明確「標註出」需要生成的視頻時長。

這次我給 AI 喂的是一張 3D 風格、正在奔跑的甜甜圈圖片,要求它延長生成一段 10 秒的視頻,並在過程中完成翻滾、跳躍、滑行等一整套連續動作:

好好好,視頻時長完全沒有問題,説 10 秒人家就生成 10 秒,一秒不多一秒不少,音效還賊動感,動次打次動次打次~

但是,為啥這甜甜圈是倒着跑的???(我不太理解

最後呢,咱來説説 Seedance 2.0 在多模態上的另一個能力——音效。

官方強調的並不只是能配音,而是音色準確度超牛,同時和人物的貼合度也更高。

我們先來試一個非常考驗音效能力的場景——吃播(流哈喇子,看看模型能不能準確還原不同食物咀嚼的聲音:

從下面生成的效果看,AI 把吃炸雞的咔嚓聲、脆脆的黃瓜聲、披薩拉絲的聲音以及可樂的氣泡音全都 1:1 還原了,不錯不錯!

咱們再來試一個 ASMR 的場景,這回我們讓 AI 在同一個視頻中演繹出不同物體的觸發音,看看會是啥效果~

除了第一個水晶碰撞聲稍微有點出戲,其餘幾乎都做到了 1:1 還原。金屬、玻璃、絲綢的質感都很真實,層次也在線:

我猜水晶聲音比較出戏的原因,主要是因為模型直接按提示詞生的標準音效,而沒有根據場景進行思考,所以出來的聲音反而像金屬碰撞的聲音,而不是水晶摩擦音…

雖然網上鋪墊該地都是 Seedance 2.0 的各種評價,但這次我實打實用下來的感受就是:

如果單説鏡頭理解能力(包括但不限於畫面的一致性、可控性、連貫性),Seedance 2.0 的表現確實有點超出我的預期。

哪怕用的是很大白話的提示詞,也能跑出相當理想的效果,很適合咱用在日常的 AIGC 視頻的畫面生成創作中去。

小 bug 也有,比如像多宮格漫畫的劇本輸出,模型不見得能 1:1 還原每個場景畫面,此外,音效上可能也偶爾會有出戏的問題。

日常如果用來做一些商業場景、AIGC 日常創作而言,已經夠用而且好用了,還是很驚喜的~

這不嘛,有網友用完,都直呼好萊塢要完蛋了,看來對模型的表現甚是滿意。(doge)

目前,Seedance 2.0 已經在豆包 App 和即夢裏上線,感興趣的朋友可以直接上手搓搓看~

(ps:親測,這兩天建議大家在豆包體驗,即夢現在生成一個視頻要排隊好幾個小時,沒招了…)

本文來源:量子位

風險提示及免責條款
市場有風險,投資需謹慎。本文不構成個人投資建議,也未考慮到個別用户特殊的投資目標、財務狀況或需要。用户應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資,責任自負。