Stable Diffusion快无敌了？继图片/音频之后，发布短视频AIGC功能

【GameLook专稿，未经授权不得转载！】

GameLook报道/近日，AI初创公司Stability.AI的子公司Stability.AI在其官方网站上宣布推出了最新的AI视频生成模型——Stable Video Diffusion。这一模型是在Stability.AI之前发布的AI图片生成模型Stable Diffusion和AI音频生成模型Stable Audio基础上的最新发布，至此，Stability.AI几乎实现了对媒体内容生成的全覆盖。

目前该模型已经可以在Github和Huggingface上下载。

Stable Video Diffusion有两种模型形式：SVD和SVD-XT。SVD将静态图像转换为14帧的576×1024视频，而SVD-XT则将帧数增加到24。据悉，Stability.AI最初在包含数百万个视频的数据集上进行了训练，随后在包含数十万到一百万个剪辑的较小集合上进行了微调。然而，关于训练视频的确切来源仍然不明确，这引发了一些关于版权问题的担忧。

Stability.AI的白皮书指出，Stable Video Diffusion目前处于“研究预览”阶段，用户需同意一些使用条款，明确了其预期应用场景（如“教育或创意工具”、“设计和其他艺术过程”等）以及非预期应用场景（如“人物或事件的真实陈述”）。这一模型的开源性也引起了一些担忧，毕竟类似AI生成的虚假视频在社媒上流传此前就造成过麻烦。

尽管Stable Video Diffusion具有一定的局限性，如不能生成没有运动或快速摄像机移动的视频，但它在生成高质量的四秒片段方面表现出色，与业界其他主流模型相媲美。

Stability.AI表示，Stable Video Diffusion的未来发展方向包括推出“一系列”基于SVD和SVD-XT的模型，并计划推出一个“文本到视频”工具，将文本提示引入网络模型。该公司强调，Stable Video Diffusion具有潜在的广告、教育和娱乐应用。

然而，Stability.AI最近面临了一些挑战，包括高管的离职和财务压力。该公司的音频副总裁Ed Newton-Rex因为与模型训练数据版权问题产生分歧而辞职。此外，据报道，Stability AI一度面临现金流问题，导致AWS威胁要撤销其对GPU实例的访问权限。

在AI领域，Stability.AI并非唯一一家持续努力推动产品路线图的初创公司。然而，Stable Video Diffusion的推出标志着该公司对生成媒体内容领域的持续投入，并表明其在商业化上的雄心。

在这个AI热潮中，Stability.AI的一系列工具和模型，因其普遍开源的特性，对于游戏行业可能带来深远影响。游戏公司可以在Stability.AI公布的基础模型上进行精细调整，以快速生成各种场景所需的视频素材。此外，广告公司也可以利用Stable Video Diffusion等工具，快速生成各种买量广告素材，提高广告创作的效率和创意。

除了Stable Video Diffusion，Stability.AI还推出了Stable Audio，进一步拓展了其影响范围。Stable Audio由Stability.AI内部的声音实验室Harmonai研发，采用了与Stable Diffusion类似的扩散模型技术。该模型在音频生成领域也取得了一定的成就，但与此同时，公司也面临一些商业化和版权的挑战。

综合而言，Stability.AI的一系列工具和模型为媒体内容生成领域带来了新的可能性，在未来，随着这些模型的不断发展和完善，它们可能成为游戏行业和广告行业关键工具。

如若转载，请注明出处：http://www.gamelook.com.cn/2023/11/532497/

相关推荐