<rp id="kkh4u"></rp>
  • <dd id="kkh4u"></dd>

    <rp id="kkh4u"></rp>
  • <strong id="kkh4u"><sub id="kkh4u"></sub></strong>
    <dd id="kkh4u"><center id="kkh4u"></center></dd>
  • <rp id="kkh4u"></rp>
  • <dd id="kkh4u"><center id="kkh4u"></center></dd>

    您好,歡迎進入美譽度品牌管理官網!

    美譽度國際品牌管理

    一站式提供商

    提供設計,生產,安裝,售后服務一條龍服務

    400-021-0821
    公司資訊
    您的位置: 主頁 > 新聞中心 > 公司資訊
    拳打Pika腳踢Gen-2!斯坦福李飛飛聯合谷歌,AI文生視頻大模型炸圈
    發布時間:2024-01-03 11:22瀏覽次數:

    美譽度品牌管理

    AI文生視頻賽道正呈現出爆發之勢!

    繼本月AI文生視頻工具Pika 1.0爆火出圈、Gen-2效果大升級之后,斯坦福大學AI科學家李飛飛的團隊也有了新動作!

    美譽度12月12日報道,今日,李飛飛及其學生團隊與谷歌合作,推出了AI視頻生成模型W.A.L.T(窗口注意力潛在Transformer ,Window Attention Latent Transformer)。

    ▲李飛飛在社交平臺X發聲轉發

    演示中,W.A.L.T可以通過自然語言提示,生成3秒長的每秒8幀、分辨率達512×896的逼真視頻。

    ▲W.A.L.T的文生視頻示例

    W.A.L.T可以讓一張靜態圖片變為一個的動態感十足的動圖。

    ▲W.A.L.T的圖生視頻示例

    W.A.L.T還可以用于生成3D攝像機運動的視覺效果。

    ▲W.A.L.T的3D視頻生成示例

    與爆火的Pika 1.0、Gen-2等同類工具類似,W.A.L.T采用擴散模型(Diffusion Model)技術。

    同時,W.A.L.T的創新之處在于,其將Transformer架構與潛在擴散模型(Latent Diffusion Models,LDM)相結合,在一個共享潛在空間中壓縮圖像和視頻,從而降低計算要求,提高訓練效率。

    根據論文,W.A.L.T在視頻生成基準UCF-101和Kinetics-600、圖像生成基準ImageNet測試上實現了SOTA(當前最優效果)。

    項目地址:
    https://walt-video-diffusion.github.io/

    論文地址:
    https://walt-video-diffusion.github.io/assets/W.A.L.T.pdf

    ▲W.A.L.T相關論文截圖

    一、一句話生成3s視頻,高逼真、強動態、3D視覺

    W.A.L.T模型目前支持文生視頻、圖片轉視頻和3D相機拍攝視頻三項能力,團隊展示了一系列W.A.L.T生成示例。

    1、文生視頻:一句話生成高清逼真視頻

    輸入一句簡短的提示詞,W.A.L.T模型就可以給出一個3秒長的逼真視頻。以下是一些示例:

    陽光明媚的下午,宇航員在喂鴨子。(An astronaut feeding ducks on a sunny afternoon.)

    一頭戴著生日帽的大象在海灘上行走。(An elephant wearing a birthday hat walking on the beach.)

    皮卡丘在拳擊場內戴著拳擊手套。(Pikachu wearing boxing gloves, inside a boxing ring.)

    一只可愛的熊貓在天空中滑板,越過雪山,充滿夢幻和異想天開的氣氛。(A cute panda skateboarding in the sky, over snow covered mountains, with a dreamy and whimsical atmosphere.)

    一對情侶撐著雨傘走回家,傾盆大雨,油畫風格。(A couple walking home with umbrellas, heavy downpour, oil painting style.)

    2、圖片轉視頻:用戶提供圖片,生成動態視頻

    這里的圖片不是由W.A.L.T模型生成的,但動態效果是的,如下面的示例所示:

    一個穿著全套太空服的宇航員騎著馬,慢動作。(An astronaut in full space suit riding a horse, slow motion.)

    一個巨大的機器人在雪里行走。(A giant robot walking through a snowy landscape.)

    一只大泰迪熊慢鏡頭走在第五大道上。(A large teddy bear walking down 5th avenue, slow motion.)

    3、3D相機拍攝視頻:物體全景多細節展示

    團隊還展示了3D視頻內容的生成,效果看起來就像一個3D攝像機拍攝而來。示例如下:

    鏡頭轉向盤子里的漢堡,工作室。(Camera turns around a burger on a plate, studio lighting, 360 rotation.)

    攝像機繞著戴著一副耳機的南瓜,工作室燈光,360度旋轉。(Camera turns around a pair of headphones around a pumpkin, studio lighting, 360 rotation.)

    二、Transformer+潛在擴散模型,降低計算成本

    Transformer在處理視頻等高維數據時成本過高,潛在擴散模型(Latent diffusion models,LDM)可以降低計算要求。

    因此,李飛飛學生團隊與谷歌研發者共同提出了窗口注意力潛在Transformer(Window Attention Latent Transformer,W.A.L.T),這是一種基于Transformer的潛在視頻擴散模型(latent video diffusion models,LVDM)方法。

    當下,市面上的同類工具如Pika Labs推出的Pika 1.0、Runway的Gen-2,大都采用擴散模型(Diffusion Model),這是很長時間里圖像和視頻生成領域的主流技術路線。

    W.A.L.T沿用這一主流技術路徑,并在此基礎上進行創新,主要實現以下兩方面的升級:

    1、使用局部窗口注意力,顯著降低計算需求。

    2、更有利的聯合訓練:空間層獨立處理圖像和視頻幀,而時空層專注于時間關系建模。

    據悉,這一架構主要的優勢是它能同時在圖像和視頻數據集上進行訓練。

    這得益于W.A.L.T的兩個關鍵決策:

    1、使用因果編碼器,在一個共享潛在空間中壓縮圖像和視頻。

    2、使用基于窗口注意力的Transformer架構,在潛在空間中聯合時空生成建模,從而提高記憶和訓練效率。

    團隊基于W.A.L.T訓練了三個模型的級聯(Cascade),用于文本到視頻的生成任務,包括:一個基本的潛在視頻擴散模型、兩個視頻超分辨率擴散模型。

    在無需使用無分類器指導的情況下,W.A.L.T在視頻生成基準UCF-101和Kinetics-600、圖像生成基準ImageNet測試上實現了SOTA。

    ▲在基于kinect-600的幀預測和基于UCF-101的類條件生成的視頻生成評價

    三、AI生成視頻爆發,巨頭和創企都加碼了

    短短一個月時間里,AI生成視頻賽道已成爆發態勢,背后玩家不僅覆蓋高校及科研團隊,還有多家科技巨頭及AI創企。

    先是11月3日,視頻生成領域的“老大哥”Runway宣布其AI視頻生成工具Gen-2更新,分辨率提升至4K,大幅提高保真度和一致性。一周后,Runway又緊鑼密鼓地發布了運動畫筆功能,強化視頻局部編輯能力。

    Gen-2體驗地址:
    https://research.runwayml.com/gen2

    ▲Runway在X平臺宣布其AI視頻生成工具Gen-2更新

    緊接著,國內外的科技巨頭都加入了這一賽道。

    11月16日,科技巨頭Meta推出了文生視頻模型Emu Video。Emu Video可以通過自然語言生成高質量視頻,它將視頻生成分為兩個步驟,首先生成以文本為條件的圖像,然后生成以文本和生成的圖像為條件的視頻。

    項目主頁地址:
    emu-video.metademolab.com

    11月18日,國內大廠字節跳動推出了文生視頻模型PixelDance,提出了基于文本指導+首尾幀圖片指導的視頻生成方法,使得視頻生成的動態性更強。

    項目主頁地址:
    https://makepixelsdance.github.io

    ▲PixelDance的強動態效果演示

    一些AI創企的做法則更激進,直接扔出體驗體驗鏈接,引爆消費級市場。

    11月29日,AI創企Pika Labs推出網頁版Pika 1.0,一時間在消費級市場火出圈。Pika 1.0能根據文字圖片,生成一段3s的流暢視頻;它還支持用戶圈定視頻里的元素,進行視頻局部編輯。Pika僅僅開放半年已有超50萬用戶,目前還有更多用戶排隊申請體驗網頁版Pika 1.0產品。Pika是一家創立于今年4月的創企,近期剛剛宣布了5500萬美元融資。

    Pika 1.0體驗地址:
    https://pika.art/waitlist

    ▲Pika Labs官宣網頁版Pika 1.0上線

    在圖像領域深耕已久的Stability AI也不示弱。11月29日,Stability AI推出了名為Stable Video Diffusion的視頻生成模型,提供SVD和SVD-XT兩個模型。其中,SVD將靜止圖像轉換為14幀的576×1024視頻,而SVD-XT在相同的架構下將幀數提升至24。這兩者都能以每秒3到30幀的速度生成視頻,目前已進入“研究預覽”階段。

    官方演示視頻:
    https://www.youtube.com/watch?v=G7mihAy691g

    除此之外,國內美圖公司發布的AI視覺大模型MiracleVision的4.0版本,剛剛新增了AI視頻兩大能力;來自中國科學院等機構的研究者在11月21日提出了一個無需訓練的文本生成視頻框架GPT4Motion;阿里的研究團隊在最新論文中提出了新框架Animate Anyone,支持從靜態圖像AI生成動態視頻。

    商業化產品集中爆發,AI生成視頻技術似乎正迎來一個“ChatGPT時刻”。

    結語:技術和產品迭代扎堆,AI視頻生成賽道爆發

    短短一個月時間里,我們看到AI視頻生成的技術和產品加速爆發,科研機構、AI創企和科技巨頭都出動了。

    僅僅一年之前,ChatGPT以迅雷不及掩耳之勢走向全球,為文本創作領域帶來重大的變革,并掀起了全球范圍內的“百模大戰”。

    一年后的今天,AI視頻生成賽道或許迎來一個新的“ChatGPT時刻”,國內外的玩家都已經“開卷”了,推動多模態大模型的升維競賽打響。

    400-021-0821
    www欧美A片com|免费A级毛片高清在钱|黄色网站之在线观看|亚洲视频精品在线