百度商業(yè)發(fā)布全球首個中文音視頻一體化生成模型MuseSteamer

2025/7/3 10:05:42

在7月2日舉辦的百度AI DAY開放日上，百度商業(yè)研發(fā)團隊正式推出自研視頻生成模型MuseSteamer。該模型通過突破性技術創(chuàng)新，為全球視頻創(chuàng)作者帶來高效、專業(yè)的智能化解決方案。據(jù)了解，MuseSteamer提供了Turbo版、Lite版、Pro版及全系列有聲版模型矩陣，通過差異化設計滿足各類用戶不同創(chuàng)作需求。

“所思即所得”，重新定義敘事藝術邊界

百度商業(yè)體系商業(yè)研發(fā)總經(jīng)理劉林在會上詳細介紹了MuseSteamer的核心突破。他指出，指令理解與遵循是多模態(tài)大模型最基礎也是最有挑戰(zhàn)的素質，MuseSteamer具備極致遵循力，可以真正幫助創(chuàng)作者實現(xiàn)“所思即所得”的創(chuàng)作自由。

在MuseSteamer生成的古裝武俠視頻中，一位頭戴斗笠、身著青衫的俠客正與巨型怪物展開驚心動魄的搏斗。該技術通過多模態(tài)大模型實現(xiàn)高度逼真的動態(tài)內容創(chuàng)作：斗笠下，俠客眉頭緊鎖，目光銳利，即使在特寫鏡頭和復雜光影條件下，面部微表情依然自然生動。同時，視頻還展現(xiàn)了MuseSteamer強大的運鏡能力：以俯拍鏡頭展現(xiàn)龐大怪物的壓迫感，隨即切換到俠客第一視角的仰拍，最后以環(huán)繞運鏡呈現(xiàn)雙方交鋒的精彩瞬間。這些專業(yè)級鏡頭語言的自動化實現(xiàn)，讓普通用戶也能輕松獲得電影級的敘事張力。

從完整視頻可以看出，MuseSteamer能夠以導演拍攝的角度，對視頻基本劇情、畫面形成判斷，從俠客拔劍的起手式，到怪物咆哮時震落的碎石特效，不僅每個動作都嚴格遵循武俠風格的打斗軌跡，更通過快慢鏡頭的交替運用，將這場生死對決的緊張氛圍渲染得淋漓盡致，展現(xiàn)出AI視頻生成在專業(yè)影視創(chuàng)作中的巨大潛力。

劉林指出，在AI內容創(chuàng)作領域，視頻時長與畫質的突破往往意味著創(chuàng)作自由度的質變。以MuseSteamer生成的短片《她總在三點一刻出現(xiàn)》為例，該技術通過10秒超長鏡頭和1080P高清畫質，實現(xiàn)了電影級的藝術表現(xiàn)力。

視頻以極具張力的鏡頭語言展開：固定機位首先捕捉男主角在街頭徘徊張望的身影，隨后鏡頭自然轉向女主角，細膩呈現(xiàn)她喝咖啡的動作，蒸汽氤氳中睫毛的顫動，完整記錄“她總點一樣的咖啡”的細節(jié)。整個過程中，王家衛(wèi)式的色彩美學貫穿始終，暗紅色調與冷色陰影形成鮮明對比。而1080P的高清畫質則刻畫出從咖啡熱氣到衣物褶皺的每一個細節(jié)，將專業(yè)運鏡、光影控制和敘事張力完美融合，為創(chuàng)作者提供了更廣闊的表達空間。

與市場上多數(shù)需要后期配音的解決方案不同，MuseSteamer能夠同步生成畫面、音效和人物臺詞，實現(xiàn)聲音與畫面的自然生成，顯著提升了視頻作品的完整性和藝術表現(xiàn)力，是全球首個實現(xiàn)中文音視頻一體化生成的視頻模型。

以一段沙漠越野主題的短片為例，系統(tǒng)不僅能呈現(xiàn)越野車在沙漠中疾速漂移的畫面，更能智能生成與之相匹配的立體聲效：發(fā)動機低沉的轟鳴聲隨著飛揚的沙塵變化而起伏，輪胎與沙地摩擦的聲響隨轉彎的角度而變化，極致遵循物理運動規(guī)律。聲音元素與畫面動作相得益彰，為創(chuàng)作者帶來真正“所見即所感”的音視頻一體化體驗。

數(shù)據(jù)、算法、審美多重突破，持續(xù)霸榜 VBench-I2V圖生視頻榜首

在技術層面，MuseSteamer的亮點表現(xiàn)源于百度在數(shù)據(jù)、算法、審美等方面的深耕。劉林介紹，該模型構建了億級規(guī)模中文多模態(tài)數(shù)據(jù)庫，通過“篩選－凈化－配比”三級優(yōu)化體系，實現(xiàn)業(yè)界領先的文本指令與視覺元素的語義對齊精度。在算法架構上，MuseSteamer采用精細化結構設計，支持中文文本、參考圖像等多模態(tài)條件輸入，確保對畫面細節(jié)、主體運動軌跡等要素的遵循。此外，模型可生成分辨率高達1080P高清視頻，呈現(xiàn)出電影級流暢轉場與逼真的物理運動規(guī)律。

在音畫呈現(xiàn)上，MuseSteamer構建了一套完整的有聲視頻生成能力，圍繞“誰在說、怎么說、在什么環(huán)境下說”三個關鍵問題，通過多人自動化對齊編排、音視對齊Refiner，實現(xiàn)視覺信息、高還原度的人聲與環(huán)境音自動生成能力。這些技術創(chuàng)新共同構成了MuseSteamer的核心競爭力。在海外權威視頻生成評測榜單 VBench Leaderboard圖生視頻榜單中，MuseSteamer視頻生成模型以總分89.38%的成績，登上VBench-I2V圖生視頻全球榜首。

伴隨MuseSteamer的發(fā)布，全新AI視頻創(chuàng)作平臺——“繪想”也同步上線，為創(chuàng)作者提供全新視頻生成體驗。即日起，用戶可通過PC端搜索“MuseSteamer”或“繪想”免費體驗Turbo版功能，探索AI視頻創(chuàng)作的無限可能。為激發(fā)創(chuàng)作熱情，百度將在7月2日—8月3日期間舉辦“繪想·跨次元捏合”AI視頻創(chuàng)作大賽。參賽者只需上傳一張圖片，即可借助MuseSteamer視頻生成模型的強大能力生成富有創(chuàng)意的動態(tài)視頻作品。

隨著技術的突破，創(chuàng)意的邊界也將進一步拓展。MuseSteamer視頻生成模型讓專業(yè)級視頻創(chuàng)作變?yōu)榇蟊娍杉暗哪芰?，讓每個人都能成為自己故事的導演，實現(xiàn)“所思即所得”的創(chuàng)意自由。展望未來，百度將持續(xù)推進AIGC技術創(chuàng)新，讓技術真正服務于每個人的創(chuàng)意表達。

百度

97婷婷狠狠成人免费视频,国产精品亚洲精品日韩已满,高清国产一区二区三区,日韩欧美黄色网站,xxxxx黄在线观看,韩国一级淫片视频免费播放,99久久成人国产精品免费

百度商業(yè)發(fā)布全球首個中文音視頻一體化生成模型MuseSteamer