发产品

  • 发布供应
  • 管理供应

可通过文字生成连贯动作视频,谷歌推出 AI 扩散模型 Lumiere

   2024-08-06 30
导读

  IT之家1月29日消息,谷歌研究院日前推出了一款名为Lumiere的文生视频扩散模型,主打采用自家最新开发的Space-Time U-Net基础架构,号称能够一次生成完整、真实、动作连贯的视频。▲图源谷歌官方新闻稿(下同)  谷歌表示,业界绝大多数文生视频模型无法生成时间长、质量佳、动作连贯逼真的内容,这是因为此类模型通常分段生成视频,首先产生几张关键帧,接着用时间超级分辨率(Temporal Super-Resolution)技术,生成关键帧之间的视频文件,这种方法虽然能够节省RAM,但难以生成连贯

   IT之家1月29日消息,谷歌研究院日前推出了一款名为Lumiere的“文生视频”扩散模型,主打采用自家最新开发的“Space-Time U-Net”基础架构,号称能够一次生成“完整、真实、动作连贯”的视频

微信图片_20240130084513
▲图源谷歌官方新闻稿(下同)
 
  谷歌表示,业界绝大多数“文生视频”模型无法生成时间长、质量佳、动作连贯逼真的内容,这是因为此类模型通常“分段生成视频”,首先产生几张关键帧,接着用“时间超级分辨率(Temporal Super-Resolution)”技术,生成关键帧之间的视频文件,这种方法虽然能够节省RAM,但难以生成“连贯逼真”的视频。
 
  谷歌提到,他们的新模型Lumiere相对于业界模型最大的不同是采用了全新“Space-Time U-Net”基础架构,该架构能够在空间和时间上同时“降采样(Downsample)”信号,从而在“更紧凑的时空中进行更多运算”,令Lumiere生成持续时间更长、动作更连贯的视频。
 
  IT之家注意到,Lumiere一次可以生成80帧视频(16FPS下5秒视频/24FPS下约3.34秒视频),虽然这一数据看起来很短,不过研究人员提到,5秒视频长度实际上“已经超过大多数媒体作品中的平均镜头时长”。
 
  除了应用“Space-Time U-Net”基础架构外,谷歌还介绍了Lumiere的基础特性,该AI建立在一个经过预先训练的“文生图”模型基础上,研究人员首先让基础模型生成视频分帧的基本像素草稿,接着通过空间超分辨率(SSR)模型,逐步提升分帧分辨率及细节,并利用“Multidiffusion”通用生成框架提升模型稳定性,从而保证了最终输出的视频一致性和连续性。
 
举报收藏 0打赏 0评论 0
免责声明
• 
本文为原创作品,作者: 。欢迎转载,转载请注明原文出处:https://www.yiwangtui.com/news/show.php?itemid=1142 。本文仅代表作者个人观点,本站未对其内容进行核实,请读者仅做参考,如若文中涉及有违公德、触犯法律的内容,一经发现,立即删除,作者需自行承担相应责任。涉及到版权或其他问题,请及时联系我们。
 
更多>同类资讯
推荐图文
推荐资讯
点击排行

入驻

企业入驻成功 可尊享多重特权

入驻热线:1801-5555-345

请手机扫码访问

客服

客服热线:1801-5555-345

小程序

小程序更便捷的查找产品

为您提供专业帮买咨询服务

请用微信扫码

公众号

微信公众号,收获商机

微信扫码关注

顶部