堂堂网市场看板基础的生成算法模型不断突破创新,基础能力日新月异,从图像向视频和 3D 扩展,更广泛地应用于下游应用场景。生成对抗网络(GAN)是早期最著名的生成模型之一,尽管在图像生成上产生了卓越的效果,但其训练常常受到梯度消失和模式崩溃等问题的影响。与 GAN 相比,扩散模型(Diffusion Model)只需要训练 生成器 ,不需要训练别的网络(判别器、后验分布等),训练时仅需模仿一个简单的前向过程对应的逆过程,实现简练过程的简化。扩散模型相对 GAN 来说具有更灵活的模型架构和更精确的对数似然计算,生成图像质量明显优于 GAN,已经成为目前最先进的图像生成模型。
此前扩散模型主要适用于生成 2D 图像,23 年 Runway 的最新研究成果将扩散模型扩展到视频领域,在未加字幕的视频和配对的文本 - 图像数据的大规模数据集上训练出视频扩散模型。NeRF(神经辐射场)的出现为 3D 场景生成带来了新的可能性,进一步拓宽生成算法领域下游的应用场景。NeRF(Neural Radiance Field)是一种基于神经网络的 3D 重建技术,不同于传统的三维重建方法把场景表示为点云、网格、体素等显式的表达,NeRF 将场景建模成一个连续的 5D 辐射场隐式存储在神经网络中,输入多角度的 2D 图像,通过训练得到神经辐射场模型,根据模型渲染出任意视角下的清晰照片。
Runway:生成式 AI 内容平台,Gen-1 可实现用文字和图像从现有视频中生成新视频
Runway 是一家生成式 AI 内容平台,致力于让所有人都能进行内容创作。Runway 创立于 2018 年,总部位于纽约,提供图片、视频领域的生成式 AI 服务。Runway 得到众多资本青睐,获得谷歌领投的 D 轮融资。创立以来,Runway 已获得 Felicis、Coatue、Amplify、Lux、Compound 等顶级投资机构投资。23 年 6 月,Runway 获得由谷歌领投的 1 亿美元 D 轮融资,这笔融资交易包括三年内 7500 万美元的谷歌云积分和其他服务,估值达到 15 亿美元。
主要产品为 Gen-1 和 Gen-2,Gen-1 可实现用文字和图像从现有视频中生成新视频,Gen-2 可实现文字生成视频功能。Gen-1:不需要灯光、相机和动捕,通过将图像或文本提示的结构和风格应用于源视频的结构,逼真且一致地合成新视频,且具有表现力、电影感和一致性。Gen-1 提供给用户五种不同的视频制作模式:1)Stylization:将任何图像或提示的风格转移到视频的每一帧;2)Storyboard:将模型变成完全风格化和动画的渲染。3)Mask:隔离视频中的主题并使用简单的文本提示对其进行修改;4)Render:通过应用输入图像或提示,将无纹理渲染变成逼线)Customization:通过自定义模型以获得更高保真度的结果,释放 Gen-1 的全部功能。Gen-1 的性能优势:基于用户研究,GEN-1 的结果优于现有的图像到图像和视频到视频的转换方法,比 Stable Diffusion 1.5 提升 73.83%,比 Text2Live 提升 88.24%。
Gen-2 是一个多模态的人工智能系统,可以用文字、图像或视频片段生成新颖的视频。Gen-2 在 Gen-1 的基础上迭代,保留通过将图像或文本提示的结构和风格应用于源视频的结构合成新视频的功能,新增了只用文字便可生成视频的的功能。Gen-2 在 Gen-1 的五种视频制作模式上新增了三项新的模式:1)Text to Video:仅通过文本提示合成任何风格的视频;2)Text + Image to Video:使用图像和文本提 示生成视频;3)Image to Video:用一张图片生成视 z(变体模式)。Gen-2 已于 2023 年 6 月上线,用户可以通过网页端和移动端 App 免费体验文字生成视频的功能。收费模式上,Runway 采用订阅模式,分为 Standard 和 Pro 两个版本:Standard 15 美元 / 月;Pro 35 美元 / 月。订阅版本提供更高的 credits(制作视频消耗 credits)、更长的视频长度、更高的分辨率等。
主要产品:Luma App:目前只推出 iOS 客户端,可以通过 iPhone 上传视频,基于 NeRF 生成 3D 场景。Luma App 支持导入视频,以及引导模式和自由模式三种:导入模式,和 Web 模式功能类似,对设备和视频理论上要求最低;引导模式,需要 360 度拍摄,App 将具体提示框提醒拍摄视角、拍摄位置;自由模式,支持非 360 度(部分视角)拍摄,App 会给出明确提示框,需要尽可能拍摄多个角度。网页端:目前集成了三大主流功能:网页版 Luma、文字转 3D 模型、视频转 3D API。网页版 Luma:上传照片、视频来进行三维重建,网页版可以上传更大的文件,目前视频和图片(ZIP 压缩包)体积最大限制 5GB;文字转 3D 模型:输入文字描述生成对应的 3D 模型。视频转 3D API:效果基本和网页版一致。收费模式为按次收费,转换一个视频费用为 1 美元,转换时间在 30 分钟左右。
Unity:制作和运营交互式实时 3D(RT3D)内容平台,结合 AI 大模型赋能游戏业务
Unity 是一家全球领先的制作和运营交互式实时 3D(RT3D)内容的平台,也是全球最大的游戏引擎公司。收购 ironSource 之后,其主营业务包括与开发相关的引擎类产品 Create 和与广告营销相关的产品 Grow。Unity 成立于 2004 年,起初为 Over the Edge Entertainment 并进行游戏开发工作,2005 年公司在游戏开发基础上转型工具,并于 2005 年发布 Unity1.0 版本。20 余载,Unity 先后登陆并支持苹果 IOS 平台、OS 平台、Windows 平台等,伴随着 iPhone 以及整个移动互联网的发展,Unity 迎来用户数量的快速增长。同时,经过长期的迭代升级以及并购,公司逐步建立起游戏以及其他领域的业务,形成当前公司的主要业务架构,实现全平台全产业链覆盖的高兼容特性。2023 年,公司发布 AI 产品:Unity Muse、Unity Sentis,宣布结合 AI 大模型赋能游戏业务。
主要产品:Unity Muse:提供 AI 驱动协助的扩展平台,它加速了像视频游戏和数字孪生这样的实时 3D 应用和体验的生成。在 Muse 上,用户能够通过自然语言在 Unity 编辑器中开发游戏,打破技术壁垒。Unity Sentis:嵌入神经网络,解锁全新实时体验。在技术层面,Unity Sentisl 连接神经网络与 Unity Runtime,因此,AI 模型能够在 Unity 运行的任何设备上运行。Sentis 是第一个也是唯一一个将 AI 模型嵌入到实时 3D 引擎中的跨平台解决方案。Sentis 在用户的设备而非云端运行程序,因此其复杂性、延迟和成本都大大降低。Muse Chat:基于 AI,用户可以搜索跨越 Unity 文档、培训资源和支持内容,以获取来自 Unity 的准确且最新的信息。Muse Chat 能够帮助开发者快速获取相关信息,包括工作代码样本,以加速开发进程和提供解决方案。
Point-E 是一个 3D 模型生成器,可以在几分钟内生成 3D 图像。Point-E 是一个机器学习系统,可以通过文本输入制作 3D 物体,由 OpenAI 于 2022 年 12 月发布到开源社区。Point-E 本身包括两个模型:GLIDE 模型和 image-to-3D 模型。前者类似于 DALL-E 或 Stable Diffusion 等系统,可以从文本描述生成图像。第二个模型由 OpenAI 使用图像和相关的 3D 物体进行训练,学习在图像中生成相应的点云。
3D MoMa:从二维图像中提取三维物体。2022 年 6 月,NVIDIA 推出 3D MoMa,可通过图像输入生成三角网格组成的 3D 模型,并可直接导入图形引擎。这项方案的重点是,可直接导入支持三角形建模的 3D 建模引擎、游戏引擎、电影渲染器,可以在手机、浏览器上运行。3D MoMa 生成的 3D 模型自带三角形网格,将 3D 模型生成自动化,将有望加速艺术、游戏、影视等内容创作。Magic3D:高分辨率的文本到 3D 内容创建技术。2022 年 11 月,英伟达推出 Magic3D,采用了与 DreamFusion 类似的两段式生成技术路线,但使用不同的生成模型。Magic3D 可以在 40 分钟内创建高质量的三维网格模型,比 DreamFusion 快 2 倍,并实现了更高的分辨率 NVIDIA Picasso:用于构建生成式 AI 视觉应用程序的云服务。2023 年 3 月,英伟达推出 NVIDIA Picasso,企业、软件创建者和服务提供商可以在其模型上运行推理,在专有数据上训练 NVIDIA Edify 基础模型,或者从预训练的模型开始,从文本提示生成图像、视频和 3D 内容。Picasso 服务针对 GPU 进行了全面优化,并在 NVIDIA DGX Cloud 上简化了训练、优化和推理。此外,NVIDIA 也与 Adobe、Getty Images、Shutterstock 等企业进行了合作,共同开发 NVIDIA Picasso 模型。
2021 年 6 月,苹果发布了面向 Mac 的摄影测量 APIObject Capture。Apple Object Capture 为 Apple 设备用户提供了一种相对快速和简单的方法来创建现实世界对象的 3D 表示——这意味着可以将物理对象转换为数字对象。使用 iPhone 或 iPad,可拍摄对象的照片,并使用 macOS Monterey 上新的对象捕获 API 将其转换为针对增强现实(AR)进行优化的 3D 模型。物体捕捉功能使用摄影测量技术将 iPhone 或 iPad 上拍摄的一系列照片转换为 USDZ 文件,这些文件可以在 AR 快速查看 中查看,无缝整合到 Xcode 项目中,或在专业的 3D 内容工作流程中使用。2022 年 7 月,来自苹果的 AI 团队推出了 3D 场景生成的最新神经架构—— GAUDI。GAUDI 是一个能够捕捉复杂而真实的三维场景分布的生成模型,可以从移动的摄像机中进行沉浸式渲染,采用了一种可扩展但强大的方法来解决这个具有挑战性的问题。研究人员首先优化一个隐表征,将辐射场和摄像机的位置分开,然后将其用于学习生成模型,从而能够以无条件和有条件的方式生成三维场景。GAUDI 在多个数据集的无条件生成设置中取得了 sota 的性能,并允许在给定条件变量(如稀疏的图像观测或描述场景的文本)的情况下有条件地生成三维场景。
Dream Fields:训练 Dream Fields 算法时需要多角度 2D 照片,完成训练后便可生成 3D 模型、合成新视角。而 CLIP 的作用,依然是评估文本生成图像的准确性。文本输入至 Dream Fields 后,未训练的 NeRF 模型会从单个视角生成随机视图,然后通过 CLIP 来评估生成 图像的准确性。也就是说,CLIP 可以用来纠正和训练 NeRF 模型生成图像。这个过程将从不同的视角重复 2 万次,直到生成符合文本描述的 3D 模型。DreamFusion 是一种从文本提示生成 3D 模型的新方法,它采用了与 Dream Field 类似的方法,但模型中的损失函数基于概率密度蒸馏,最小化基于 [ 扩散中前向过程共享的高斯分布族 ] 与 [ 预训练的扩散模型所学习的分数函数 ] 之间的 KL 散度。技术步骤:先使用一个预训练 2D 扩散模型基于文本提示生成一张二维图像。然后引入一个基于概率密度蒸馏的损失函数,通过梯度下降法优化一个随机初始化的神经辐射场 NeRF 模型。
DreamFusion 结合了两种关键方法:神经辐射场和二维扩散。它逐步改进初始的随机 3D 模型,以匹配从不同角度显示目标对象的 2D 参考图像:现有 AI 模型(如 Nvidia 的 Instant NeRF)使用的方法。然而,与 Instant NeRF 不同,参考不是真实物体的照片,而是由 OpenAI 的 DALL-E 2 和 Stability.ai 的 Stable Diffusion 使用的类型的 2D 文本到图像模型生成的合成图像。在这种情况下,2D 扩散模型是 Google 自己的 Imagen,但总体结果是相同的:生成的 3D 模型与原始文本描述生成的 2D 参考图像相匹配。至关重要的是,整个过程既不需要 3D 训练数据,也无需修改图像扩散模型,完全依赖预训练扩散模型作为先验——这可能为开发实用的、大众市场的基于 AI 的文本到 3D 工具铺平了道路。
今年以来,我们已经看到生成式 AI 在文本领域、代码生成、图像领域的快速发展,如 GPT-4 的推出,Midjourney、Stable Diffusion 的版本迭代,Github Copilot X 升级等等。生成式 AI 在视频和 3D 模型领域的发展相对较慢,但随着海外科技大厂及初创公司纷纷布局并推出基础的 3D 和视频生成模型和产品,未来在创意领域(如电影、游戏、VR、建筑和实体产品设计)的应用潜力广阔。
我们认为生成式 AI 将实现对视频 /3D/ 游戏等下游应用场景的渗透。在短视频、创作工具、游戏等下游领域,Runway、Luma AI 等 AI 原生产品有望融入工作流,增强用户体验、降低用户使用壁垒、进一步降低使用成本。
视频与建模工具或与传统工具 / 工作流结合,进一步拉动生成式 AI 的需求
我们的观点:内容创作工具的重要性如何?我们认为关键在于拉动远比工具本身更大的市场,类似于短视频时代的前身 GIF 创作工具,如剪映这种创作工具和抖音这种内容生态,Maya 这种创作工具和动画的内容生态,视频与建模工具将进一步大幅拉动生成式 AI 的需求。模型能力或出现明显分化。我们认为当前 Diffusion 开源模型下各公司生成图片的能力尚未明显出现分化,但建模和视频更重要的在于和传统工具与工作流的结合。海外接下来半年关注什么?我们认为从能力来看,图片生成的可控性快速提高或将出现,矢量图、结构、视频、3D 模型生成也将提速。尤其关注 Unity 与 Apple 的合作,在 AI 生成内容 / 建模 /App 适配上将会如何塑造空间计算的内容与应用的标准生态。
|