咸鱼停车场

黄枷谊:文生冒险

文字创造世界这件事情最近变得非常具像化了。(Pexels图片)
文字创造世界这件事情最近变得非常具像化了。(Pexels图片)

字体大小:

虽然AI和大数据在影视界掀起了一番腥风血雨,但在站着说话不腰疼的我看来,文生游戏和视频的诞生是文字崛起的真正的开始,文字的力量想象的空间正在逐渐变得可视化。

文字翻译器

近期以来,我们可以看到文生科技被广泛应用在娱乐方面。

例如,前几年我划拉手机的时候,就看到这么一则贴文(很可惜在历经数次尝试后,还是找不回来)。 贴主是参与一类文生游戏的开发者。这款神奇的游戏大概是这么操作的,玩家要在输入框里用具体的描写去驱动主人公的动向和行为。而在游戏中如果遇到须要借助道具的帮助才能完成的任务,玩家们须要输入想要的物体名称才能获取道具。当时看到这款游戏的时候,我深感震惊,这么发展下去,我以后玩游戏都要拼的是想象力了。能出什么道具看的不是我氪金了吗,而是我能想出什么怪东西来打败敌人。

那再有一个例子就是,今年惊艳面世的Sora视屏生成平台。

根据用户提供的指令,Sora可以制作长达一分钟的三维高保真视频。这项技术给影视制作业带来了巨大的冲击,因为这意味着制造画面特效的成本会大幅度降低,而且随着Sora不停地训练和成长,它将有潜力令使用者的想象力和创造力跳脱出技术层面的限制,但同时也会影响业界的一些职位。要知道,在2023年5月,由于不达预期的薪资和AI在视频界的应用,好莱坞才经历了一次持续了48天的编剧和作家罢工。尽管在经过协议后双方达成了一定的共识,但是AI使用场景的问题并没有被完全解决。现如今Sora的诞生,将会给业界带来更多的竞争和不安。

如今,虽然AI和大数据在影视界掀起了一番腥风血雨,但在站着说话不腰疼的我看来,文生游戏和视频的诞生是文字崛起的真正的开始,文字的力量想象的空间正在逐渐变得可视化。

文生视频的工作原理

说好了是个科技文章嘛,就简单给大家介绍下文生科技:主要是文生视频 —— Sora的长视频实现。

Sora工作原理的成功除了归功于非常广泛的数据采集,和精确的分类外,还有以下三点:

一、运用大语言模型将各种文本形式去进行了一定的统一化。

二、运用文本解析技术去理解接收到的提示词,为实现文本转视频内容做好准备。

三、运用扩散模型和Transformer架构去处理视频数据。

Sora的独特之处在于,它突破了以往文转视频的训练方式且能有逻辑性地制作一分钟视频。

先来讲讲训练方式。

从前传统的文转视频技术中所有参与训练的图像或视频都须得是同样的大小。但Sora不受这项限制,它研发的训练方式成功脱离了视频帧,是基于时间空间补丁进行训练的。这使得它有效地去掉前期的裁剪工作,也就说明Sora会拥有更广的训练数据。

再来说说视频制作。

如上述所提到的,Sora并非是直接文转视频。它依靠的是空间时间补丁去实现填补视频所需要的细节内容,它真正处理的是时间和空间上的变化。这就不得不提到我们的第三点:扩散模型和Transformer结构。它俩各司其职,扩散模型主要负责对抽象的补丁噪音进行逐步精细化处理直到呈现出高清的图像。而Transformer架构就负责分析各种补丁之间的关系,确保流动画面上的逻辑性。能够成功地实现这点代表Sora拥有非常丰富强大的知识图谱,它对空间、物理环境和要求对象之间的相互作用有着十分深刻的了解,以至于它可以将各种核心要素拼接起来,预测下一个应该使用的补丁,而且不突兀地连贯起来并保持一致性。

目前看来,Sora应用的技术突破了现在AI视频制作的短板,绝对是为这个方向打开了新的可能性和潜力。

文字野草

如今Sora和各种文生科技的崛起是似乎可以看作是文字力量的体现,它们意味着AI在文字具像化这一点上开启了新的篇章。当这项技术成熟到一定的程度的时候,它或许可以完美地实象化内容,为创作者们传达更为立体的信息。

LIKE我们的官方脸书网页以获取更多新信息

热词