清華大學伙生數科技發表 國產影片大模型Vidu

[2024.05.05] 發表
國產文字生成影片大模型Vidu號稱更理解中國元素,產生包括熊貓、龍、東方人面孔的短片時,效果特別出色。(圖片截取自央視新聞)

在4月底的中關村論壇年會未來人工智能先鋒論壇上,清華大學聯合生數科技發表了中國首個文字生成影片的大模型Vidu。清華大學教授、生數科技首席科學家朱軍表示,Vidu和OpenAI的Sora相似,能夠根據用戶提供的文字描述,而一鍵生成,直接產生解像度達到1080p的高品質短片。

暫能產生16秒短片 特別理解中國元素

Vidu能夠模擬真實物理世界,具備多鏡頭生成、時空一致性高之外,還強調特別理解中國元素,例如能夠產生熊貓、龍等短片。不過,Vidu暫時只能產生16秒長的短片,與Sora的1分鐘相比,仍然有頗大差距。

朱軍表示,Vidu的突破,源自研發團隊在貝葉斯機器學習和多模態大模型的長期累積和多項原創性成果。研發團隊早在2022年9月提出其核心技術U-ViT架構,是全球首個將Diffusion和Transformer融合的架構。而在今年2月中OpenAI發表Sora之後,團隊基於對U-ViT架構的深入理解,以及長期積累的工程和數據經驗,再進一步突破關鍵技術,顯著提升Vidu產生影片的連貫性和動態性。朱軍又稱,將這個國產影片大模型取名Vidu,是因為其發音和Video相似,也蘊含We do的寓意,未來希望與產業鏈上下游企業、研究機構加強合作,共同推動影片大模型進展。明報記者 薛偉傑

更多中國新聞
山東省青島市警方通報,近日破獲一宗特大非法利用信息網絡案,全方位打擊了為境外詐騙集團吸粉引流的黑灰產犯罪鏈條。 警方偵查發現,疑犯李X... 詳情
 21歲內地遊戲網紅主播「胖貓」近日因感情問題在重慶長江大橋跳江自盡,各地網民紛紛下單點外賣要求送到該橋祭奠。不過他們點的外賣卻出現「空杯」... 詳情
中國再生能源的產能,近日屢被西方投訴。美國財相耶倫、國務卿布林肯和德國總理朔爾茨訪華時都提出關注,針對的包括新能源汽車、電池、太陽能板和風電... 詳情

明報網站 · 版權所有 · 不得轉載
Copyright © 2024 mingpaocanada.com All rights reserved.
Ming Pao Daily News A wholly owned subsidiary of Ming Pao Enterprise Corporation Ltd.
Toronto Chinese Newspaper

Chief Executive Officer: Ka Ming Lui | Executive Chief Editor: Richard Kwok Kai Ng
1355 Huntingwood Drive, Scarborough, Ontario, Canada M1S 3J1 | Tel.: (416) 321-0088 | Fax: (416) 321-5377 | Advertising Hotline Tel: (416) 673-8250