阿里推出及開源ThinkSound 可用AI自動為影片加音效

更新時間:14:16 2025-07-16 HKT
發佈時間:14:16 2025-07-16 HKT

阿里巴巴(9988)近日正式推出及開源其首款支援鏈式推理(Chain-of-Thought,CoT)的音訊產生模型ThinkSound,該模型基於視訊、文字或音訊輸入,透過思維鏈技術,能夠分析視訊畫面的場景、動作與情感,實現高保真、強同步的空間音訊生成,標誌着AI音訊從「看圖配音」到「結構化理解畫面」的跨越,猶如專業AI音效師。

核心在於多模態AI架構

據內媒報道,ThinkSound的核心優勢在於其多模態AI架構,融合了電腦視覺、自然語言處理與音訊生成技術,其中電腦視覺演算法能夠逐格分析影片內容,理解物體互動、環境背景及人物行為,進而產生高度契合的音效與音景,例如在自然場景中,可產生流水或鳥鳴聲;在都市場景中,則能還原車輛鳴笛與人群喧鬧。

此外,ThinkSound的演算法亦確保音訊與視訊精準對齊,支援包括MP4、MOV、AVI和MKV在內的多種視訊格式,相容於從標清到4K分辨率,滿足不同創作需求。根據官方數據顯示,ThinkSound在視訊及音訊生成基準測試中位居業界前列,展現了其強大的技術實力。

大幅降低AI音效產生門檻

報道又提到,ThinkSound大幅降低了AI音效產生的技術門檻,使中小型創作者、獨立開發者及學術研究人員能夠輕鬆接觸專業級音效產生工具。 同時,該模型也提供互動式編輯功能,支援透過點擊或語言指令對特定音效進行精細調整,大大提升創作彈性。