您的位置:首頁 > 互聯網

                                            視頻也可以用擴散模型來生成了,效果很能打:新SOTA已達成

                                            發布時間:2022-04-11 15:04:46  來源:IT資訊網    采編:author  背景:

                                            本文經AI新媒體量子位(公眾號ID:QbitAI)授權轉載,轉載請聯系出處。

                                            ?擴散模型最近是真的有點火。

                                            前有OpenAI用它打敗霸榜多年的GAN,現在谷歌又緊隨其后,提出了一個視頻擴散模型。

                                            和圖像生成一樣,初次嘗試,它居然就表現出了不俗的性能。

                                            比如輸入“fireworks”,就能生成這樣的效果:

                                            滿屏煙花盛放,肉眼看上去簡直可以說是以假亂真了。

                                            為了讓生成視頻更長、分辨率更高,作者還在這個擴散模型中引入了一種全新的采樣方法。

                                            最終,該模型在無條件視頻生成任務中達到全新SOTA。

                                            一起來看。

                                            由圖像擴散模型擴展而成

                                            這個擴散視頻模型,由標準的圖像擴散模型UNet擴展而成。

                                            UNet是一種神經網絡架構,分為空間下采樣通道和上采樣通道,通過殘差連接。

                                            該網絡由多層2D卷積殘差塊構建而成,每個卷積塊后面跟著一個空間注意塊。

                                            通過固定幀數的塊,以及在空間和時間上分解的3D U-Net,就可以將它擴展為視頻模型。

                                            具體來說:

                                            先將每個二維卷積更改為三維卷積(space-only),比如將3x3卷積更改為1x3x3卷積(第一軸(axis)索引視頻幀,第二軸和第三軸索引空間高度和寬度)。

                                            每個空間注意塊中的注意力仍然專注于空間維度。

                                            然后,在每個空間注意塊之后,插入一個時間注意塊;該時間注意塊在第一個軸上執行注意力,并將空間軸視為批處理軸(batch axes)。

                                            眾所周知,像這樣在視頻Transformer中分對時空注意力進行分解,會讓計算效率更高。

                                            由此一來,也就能在視頻和圖像上對模型進行聯合訓練,而這種聯合訓練對提高樣本質量很有幫助。

                                            此外,為了生成更長和更高分辨率的視頻,作者還引入了一種新的調整技術:梯度法。

                                            它主要修改模型的采樣過程,使用基于梯度的優化來改善去噪數據的條件損失,將模型自回歸擴展到更多的時間步(timestep)和更高的分辨率。

                                            評估無條件和文本條件下的生成效果

                                            對于無條件視頻生成,訓練和評估在現有基準上進行。

                                            該模型最終獲得了最高的FID分數和IS分數,大大超越了此前的SOTA模型。

                                            對于文本條件下的視頻生成,作者在1000萬個字幕視頻的數據集上進行了訓練,空間分辨率為64x64px;

                                            在此之前,視頻生成模型采用的都是各種GAN、VAE,以及基于流的模型以及自回歸模型。

                                            所以這也是他們首次報告擴散模型根據文本生成視頻的結果。

                                            下圖則顯示了無分類器引導對該模型生成質量的影響:與其他非擴散模型一致,添加引導會增加每個單獨圖像的保真度(右為該視頻擴散模型,可以看到它的圖片更加真實和清晰)。

                                            △ 圖片為隨機截取的視頻幀

                                            最后,作者也驗證發現,他們所提出的梯度法在生成長視頻時,確實比此前的方法更具多樣性,也就更能保證生成的樣本與文本達成一致。

                                            △ 右為梯度法

                                            論文地址:https://arxiv.org/abs/2204.03458

                                            項目主頁:https://video-diffusion.github.io/

                                              聲明:本文僅為傳遞更多網絡信息,不代表IT資訊網觀點和意見,僅供參考了解,更不能作為投資使用依據。


                                            返回網站首頁 本文來源:IT資訊網

                                            本文評論
                                            iOS 9 新漏洞:無需密碼看相冊
                                            過去的每一年 iOS 更新換代,我們都會見到類似的報告:用
                                            日期:04-07
                                            如何在服務器上進行雙網卡雙IP雙網關配置?
                                            作者個人研發的在高并發場景下,提供的簡單、穩定、可擴
                                            日期:01-24
                                            2020年我國數據中心發展情況分析及趨勢展望
                                            2020年,數據中心建設被中央正式列入新基建戰略,疫情下數
                                            日期:02-18
                                            如何在 Ubuntu\u002FDebian Linux 上編寫、編譯和運行一個 C 程序
                                            你是如何在 Linux 上使用 C 編寫你的程序的?它確實是非
                                            日期:02-14
                                            時尚與高性能 中晶i460掃描儀
                                            中晶ScanMaker i460擁有的4800dpi光學分辨率,彩色全幅6
                                            日期:02-27
                                            沃爾瑪每天如何管理15億條物聯網信息
                                            沃爾瑪在其美國門店管理著超過700萬個獨特的物聯網(IoT
                                            日期:03-18
                                            熱炒3D技術 電影設備和劇本誰更重要?
                                            在國內,電影行業在近幾年可以說是高速崛起,到電影院去看
                                            日期:02-24
                                            “雙槍2”病毒升級來襲 騰訊電腦管家發布《盜版Ghost黑色產業報告》
                                            近日,騰訊電腦管家發布病毒預警,提示在部分Ghost盜版系
                                            日期:10-02
                                            值得關注的六個數據中心發展趨勢
                                            研究表明,數據中心所有者和運營商如今面臨著越來越復雜
                                            日期:02-10
                                            物聯網安全,企業的出路在哪里?
                                            物聯網的日益普及給人們帶來了諸多便利,但隨著大量的物
                                            日期:03-24
                                            微軟下決心修復Windows 10最糟糕的問題:令人恐懼的系統更新
                                            任何功能更新總是存在不少問題。雖然微軟已經為所有已
                                            日期:02-22
                                            iOS開發知識體系
                                            之前看過一篇博客,博主梳理一個iOS開發知識與能力體系
                                            日期:03-30
                                             

                                            精品无码久久午夜福利