火山引擎多媒體實驗室公布全新視頻形態(tài) —— 智能3D視頻商業(yè)化方案，啟動多場景商業(yè)化，包括將在抖音直播啟動落地探索。

文｜�；�

編｜趙艷秋

過去十幾年，視頻技術的核心命題只有一個，如何把畫面拍得更清楚、傳得更快。但在2025年，一個新的問題開始浮現，如果不再由鏡頭替我們選擇視角，會發(fā)生什么？當觀眾“走進”畫面、繞著人物觀看，用自己的位置參與敘事，視頻是否會從內容，變成一個空間？

在上周舉辦的火山引擎FORCE原動力大會上，視頻云展區(qū)給出了一個答案。火山引擎多媒體實驗室首次對外公布了一種全新的視頻技術形態(tài)——智能3D視頻的商業(yè)化方案。這支團隊也正是多項抖音視頻技術的源頭。據悉，該技術已啟動多場景商業(yè)化推進，其中包括計劃于2026年在直播場景中的實際落地探索。

從看視頻到“走進畫面”

展臺上，一部手機上一張普通照片已被轉換成一張3D照片。我輕輕晃動手機，能看到人物周邊更多的街區(qū)細節(jié)。這讓我想起在得物或鏈家App里看商品和房源的體驗，鞋子可以被旋轉“端詳”，房子也能被立體探索。不同的是，這里的視角以我為中心在移動，而App上那些則以物體為軸心。

展區(qū)內，一臺普通筆記本電腦上跑著五個Demo，畫面里是五位樂手，分別演奏古箏、小提琴和鋼琴，看來這群多媒體實驗室的小伙伴都很熱愛音樂！在我日常觀看的2D視頻中，比如馬克西姆演奏的鋼琴神曲《出埃及記》，只能被動地跟著鏡頭走，看他俊朗的面部表情，手部或有力、或疾速的敲擊，背部的起伏，以及周圍身著長裙的的小提琴手與舞臺燈光的配合。

但在這里，我可以自己“操控視角”。我可以切換到俯視視角，看演奏者手部的流暢動作；也可以從背后觀察他在某一樂章中身體的起伏；從側面或正面，看他與音樂完全沉浸在一起的表情。如果是一個樂團，我還可以隨時移到周邊樂手身上，看他們的演奏細節(jié)。

接著，我戴上一臺字節(jié)PICO VR。在我面前，一位小提琴手站在客廳中央，演奏著一段悠揚的樂曲。桌上擺著紅酒，身后的落地窗外是綠色草坪和羅馬柱風格的大理石建筑。我“走”近他，看見拉弓時手指和琴弦之間細微的顫動；又“走”到他左側不遠處，音樂從對應的空間方位傳來。這種體驗突然讓我產生了一種沉浸感，就像是周末正在參加一場私人Party，環(huán)境優(yōu)美，氛圍輕松。

實驗室的小伙伴告訴我，這些Demo意味著，這套技術已經可以用于制作六自由度（6DoF）視頻內容，比如短劇、互動視頻。

那么，什么是6DoF視頻？

如果你戴過VR設備，可能有過這樣的體驗，你只能原地轉頭，看看四周。6DoF則名為“六自由度空間”。有部電影叫《六度空間》，它講述了人與人之間社會關系的擴展，而6DoF說的是空間的擴展，比如前面的小提琴演奏者，他不僅可以在前后、左右、上下三個方向上移動，還可以有搖頭、點頭、歪頭三類旋轉自由度。有了6DoF，我們就可以在空間里“走動”、“靠近”、“繞著觀察”。

這會帶來非常新奇的內容形態(tài)。比如在懸疑短劇中，觀眾可以“置身其中”，如果你懷疑某人是兇手，可以從不同角度反復觀察他的動作與表情；看到彈幕里有人提到某個細節(jié)，也可以立刻回應“你是從哪個角度看到的”。

還有一類是情感層面的需求。我們可以把家里的寵物制作成6DoF視頻保存下來，甚至結合大語言模型做互動。當寵物有一天不得不離開我們，我們可以隨時拿出來觀看。也許在未來，隨著技術進一步進步，我們還能“撫摸”它。

在展區(qū)的另一側，是全息通信與實時空間視頻的演示。一位多媒體實驗室的小伙伴坐在一塊白色屏幕前，面前擺放著5臺相機。這并不是普通相機，它們通過有線將傳感器連接，形成一組同步相機系統(tǒng)。當然，如果需要360度拍攝，實驗室的輕量化技術僅需12臺相機就能完成全域覆蓋。

小伙伴沖著鏡頭打招呼，示意我們看不遠處一個全息屏幕，他的動作已經實時展示在全息屏幕上。這背后是一系列“動作”：專業(yè)相機實時采集畫面，傳輸給一臺普通筆記本電腦，在這里上傳云端，在云端實時重建，快速構建出這個立體場景，并通過CDN下發(fā)到觀眾的終端，實時渲染，實現觀眾從任意角度觀看。

現場的全息屏幕像一臺蘋果顯示器大小。當這個全息屏幕做到1:1尺寸時，這套技術將接近真實的“面對面交流”，它有望在遠程會診、異地探視等場景中，帶來前所未有的臨場感。

“空間視頻”在探索各類應用

火山引擎多媒體實驗室的這些技術成果，本質上都在解決前沿視頻技術長期存在的三大難題，技術成熟度、制作與算力成本，以及工程化落地能力。它們的目標不是停留在論文或Demo，而是讓空間視頻真正進入可規(guī)模應用的現實場景。

實際上，2025 年正成為空間視頻與全息通信加速落地的時間點。海外廠商中，谷歌動作尤為明顯，其早些年已成立獨立產品線Google Beam，押注新一代視頻方向，今年將其接入谷歌會議系統(tǒng)，聯合惠普推出專用設備，率先切入跨國會議場景。蘋果則在端側實現基于單目視覺的6DoF能力，但目前該能力主要適用于靜態(tài)場景。

火山引擎多媒體實驗室則跑通了空間視頻直播場景，并實現了僅依賴一個或少數普通攝像頭生成自由視角6DoF視頻的能力，具備大眾化應用條件�？梢哉f，全球視頻技術的演進正發(fā)生在同一節(jié)奏點上。

近年來，空間視頻已零星出現在體育賽事、游戲和文化內容中，如世界杯轉播、唐宮夜宴3D空間視頻等。其商業(yè)潛力早已被看到，但此前受限于技術不成熟與高昂成本，未能規(guī)�；涞�。隨著算法、工程化和硬件成本的快速下降，市場機構預測，到2030年，空間視頻相關市場規(guī)模有望達到千億美元量級，覆蓋直播、點播和全息通信等多個方向。

在直播場景中——直播競爭的關鍵在用戶進入直播間后的“黃金幾秒”，空間視頻讓觀眾可以晃動手機、“走進”直播間，自然延長了停留時長與互動深度。

在抖音秀場直播中，粉絲也不再受限于扁平的畫面，能全方位捕捉主播的靈動舞姿與細膩神情，獲得如同面對面互動的沉浸式陪伴。

在點播場景中——這里的“點播”，不是觀眾點播影片，而是內容創(chuàng)作者創(chuàng)作自由視角內容。當內容創(chuàng)作者制作了6DoF的博物館內容，觀眾就可以按自己的節(jié)奏探索空間，有人沿路線參觀，有人貼近展柜看細節(jié)，有人會在評論區(qū)互動，“這件青銅器內的銘文從哪個角度能看到？”這些會激發(fā)分享和二次傳播。

在2D內容高度同質化的當下，隨著AI眼鏡和VR設備逐步普及，市場迫切需要更具新鮮感和互動性的3D內容。更重要的是，當創(chuàng)作者以更低成本拍真人內容，替代過去略顯生硬的純數字人，使舞蹈、懸疑短劇、沉浸式密室逃脫等內容的真實感大幅提升，你會體驗到舞蹈的美感、旅館中“女鬼”的驚嚇感，尤其適合演唱會等OGC以及娛樂、媒體類PGC內容。

在全息通信場景中——空間視頻讓遠程交流重新回到“面對面”。在一些演示中，1:1 的全息屏幕讓遠端的古箏老師仿佛走出畫框，與學生直接互動。

這種體驗為遠程會診、特殊教育、企業(yè)會議和高價值客戶服務提供了新的可能。比如在企業(yè)協(xié)作中，參會者展示的是懸浮的全息沙盤，遠端專家能共同查看三維模型并進行標注，這在地質勘探領域已經發(fā)生。在心理或醫(yī)療場景下，全息通信既保留真實的微表情和肢體反饋，又降低患者的心理壓力；在金融、保險和奢侈品服務中，它更接近一次線下面談，有助于建立信任。

全息通信從高端場景起步。目前火山引擎方案實現了消費級帶寬（<10mbps），高清晰度高保真，采集成本/整體設備成本實現大幅度下降。隨著設備和帶寬門檻持續(xù)降低，這類應用也正從少數高端場景，走向更廣泛的商業(yè)領域。

空間視頻如何實時“跑起來”

火山引擎多媒體實驗室的這套技術，最早是為點播場景服務，比如春晚或體育賽事大型舞臺的“子彈時間”，畫面定格在某一瞬間，觀眾可以360度觀看。團隊進一步思考，既然能把一個瞬間做成3D，能不能把每一個瞬間都做成3D，讓觀眾來選擇視角？于是逐步演化出了現在的空間視頻技術。

而這些的背后是一整套技術鏈路與工程化能力的突破�；鹕揭娑嗝襟w實驗室團隊投入近五年，在采集層、傳輸層和呈現層三個關鍵節(jié)點實現系統(tǒng)性突破。

在采集層——

4DGS（四維高斯?jié)姙R）是動態(tài)場景重建與渲染的核心算法。相較3D，它多了時間維度，用大量帶有位置、大小、顏色和透明度等屬性的“高斯點”，通過疊加方式構建起會隨時間變化的三維場景。這種方式有點像張大千山水畫中的“潑彩”，將顏料“潑”“染”到畫布上，自然擴散疊加，形成山水畫面，而不是勾勒成形。

高斯?jié)姙R是當前發(fā)展極快的方向，但傳統(tǒng)方案通常依賴數十分鐘的離線優(yōu)化，難以應對實時場景�；鹕揭嬉曨l云結合大模型技術，將人體動態(tài)重建加速到毫秒級，在A10顯卡上實現了 30fps以上的實時4DGS 重建，成為業(yè)內首個支持實時4DGS直播的方案。

動態(tài)場景的另一大難點是長時序穩(wěn)定性。傳統(tǒng)方法在長時間播放時容易出現人物輪廓抖動、畫面閃爍等問題。實驗室的Dynamic GS技術，提出“進化式（Evolving）”3D高斯重建框架，使高斯點隨場景變化自適應地生長、分裂與消亡，提升穩(wěn)定性。同時，通過幾何與外觀解耦，人物不再被拍攝時的燈光“鎖死”，能在虛擬環(huán)境中重新打光，生成更加逼真的光影效果。

在攻克專業(yè)設備的高質量重建方案后，火山引擎視頻云進一步挑戰(zhàn)普適性場景，用單目攝像頭生成自由視角。

團隊首創(chuàng)了變形場高斯，解決“只用一臺普通攝像頭拍動態(tài)場景，如何重建清晰三維世界”的行業(yè)難題。傳統(tǒng)NeRF方法依賴從2D畫面逆向推斷三維結構，構建的動態(tài)場景容易模糊失真；而變形場高斯采用“前向映射”，直接在三維空間中建模物體如何運動，再投影到畫面，在權威數據集上實現了10+的PSNR提升。

團隊還引入生成式大模型技術，并與抖音團隊合作，行業(yè)首發(fā)“空間視頻直播”，只用一個攝像頭拍攝內容，也能生成可前后左右走動、自由觀看的6DoF視頻空間。這樣，空間視頻從昂貴、專業(yè)的拍攝工程，變成普通創(chuàng)作者可用的表達工具，也讓“全息通話”首次具備大眾化落地條件。

在傳輸層——

在重建之后，還要解決傳輸問題。高斯數據天然不適合網絡傳輸，實驗室將其轉化為標準視頻流，直接復用現有視頻傳輸與解碼體系。通過壓縮技術，空間視頻的傳輸帶寬被壓縮到10Mbps以下，而部分同類方案仍需要60Mbps以上，且已實現PC、VR、手機等多終端播放。

這其中的核心在于基于渲染重要性的低損耗壓縮策略。高斯點數量龐大、屬性復雜，研發(fā)人員通過深度學習感知哪些區(qū)域對視覺最關鍵，對核心區(qū)域重點采樣，在保證畫質的同時大幅減少點數。這樣，在最高500倍壓縮率下，畫質損失極低（PSNR < 3dB）。

具體實現上，一類方法將高斯點按規(guī)則投影到2D平面，生成可壓縮的視頻序列；另一類方法對三維空間進行切片，將不同空間塊和屬性映射為規(guī)則視頻流。兩條路線的共同點是，最大化復用成熟的視頻軟硬件能力。

在呈現層——

在呈現層，空間音頻與空間視頻的融合進一步提升沉浸體驗。音頻是構成“聲畫一體”6DoF體驗的關鍵要素，在技術上，空間音頻基于頭相關傳輸函數（HRTF）與房間聲學建模，讓聲音像現實世界一樣具備方向、距離與空間感，畫面與聲音的位置始終對齊。用戶轉身看向說話的人，聲音自然從對應方向傳來；向前靠近，聲音變得清晰；被物體遮擋時，聲音也隨之減弱。延遲極低，形成高度真實的臨場感。

這些技術突破已獲得國際學術界廣泛認可。如4D GS研究成果入選SIGGRAPH 2025 Emerging Technologies；Dynamic GS 相關工作連續(xù)被CVPR、SIGGRAPH等頂級會議收錄。4DGS壓縮算法相關技術已形成9篇國際標準化組織MPEG技術提案，其中4篇納入MPEG探索模型或核心實驗。

壓縮、傳輸與呈現能力的突破，使6DoF空間視頻真正具備了實時分發(fā)和規(guī)�；渴饤l件，也讓它從實驗室走向可落地的產品形態(tài)。目前，全息通信已提供全套解決方案，點播和直播已對外提供關鍵點技術展示。

對火山引擎而言，空間視頻并不是一次炫技式發(fā)布，而是在為下一代視頻基礎設施鋪路。當采集不用依賴昂貴設備，傳輸不需要專線網絡，呈現也能在手機等普通終端完成，空間視頻將逐步具備進入規(guī)�；袌�。

原文標題 : 火山引擎智能3D視頻啟動商業(yè)化，計劃落地直播應用