首页 要闻 > 正文

谷歌新人工智能工具Lumiere可以从静态照片创建视频

谷歌推出了一种名为 Lumiere 的新型视频生成人工智能模型,它使用一种名为 Space-Time-U-Net 或 STUNet 的新扩散模型。Lumiere 在一个过程中创建 5 秒的视频,而不是将较小的静止帧放在一起。这项技术可以找出视频中事物的位置(空间)以及它们如何同时移动和变化(时间)。根据 Ars Technica 的报告,这种方法允许该工具在单个进程中创建视频,而不是使用将较小的静止帧拼接在一起的方法。

谷歌研究人员在一篇论文中表示:“我们推出了 Lumiere——一种文本到视频的扩散模型,旨在合成描绘真实、多样化和连贯运动的视频——这是视频合成中的一个关键挑战。” “我们引入了时空 U-Net 架构,通过模型中的单次传递,一次性生成视频的整个时间持续时间,”他们写道。

该设计促进了广泛的内容创建任务和视频编辑应用程序,包括图像到视频、视频修复和风格化生成。Lumiere 可以执行文本到视频的生成、将静态图像转换为视频、使用参考图像生成特定风格的视频、使用基于文本的提示应用一致的视频编辑以及通过对图像的特定区域进行动画处理来创建电影图片。

谷歌研究人员表示,AI 模型输出 5 秒长的 1024×1024 像素视频,他们将其描述为“低分辨率”。Lumiere 还生成 80 帧,而稳定视频扩散仅生成 25 帧。最受欢迎的文本到视频生成器 Runway 开始提供更多看起来更真实的视频,但即使它也难以平滑视频中的动作。

论文作者表示:“利用我们的技术创建虚假或有害内容存在滥用风险,我们认为开发和应用用于检测偏见和恶意用例的工具以确保安全和公平使用至关重要。”

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。