2025-01-30 05:46:22>2663次浏览

  机械之心宣布 机械之心编辑部 “可灵(KLING)”,近半年来频繁亮相于海内外各大科技媒体,已然成为科技感与创意的代名词,它代表了快手 AI 团队在视频生成领域的前沿探索 。 作为全球首个可果真体验的真实影像级视频生成大模型,可灵于 2024 年 6 月 6 日正式宣布并上线 。在短短半年多的时间里,可灵已完成了数十次功效与效果的升级迭代,始终稳居全球视频生成领域的第一梯队,连续引领着行业效果的提升 。同时,它还陆续推出多项富厚且实用的控制与编辑功效,为全球创意制作人士提供了辽阔的创作空间,充分引发并展现了他们的灵感 。 与 "可灵 AI 平台" 在视频生成领域的广泛行业影响力差别,可灵团队及其研究事情始终坚持着低调与神秘 。然而,其背后的技术突破和立异思维却吸引了众多关注者的兴趣 。 近日,可灵团队果真了多项研究结果,揭示了他们在视频生成领域的洞察与前沿探索 。这不可是对学术界和开源社区的回馈,也旨在激刊行业与社区的创立力,配合推动该领域的技术进步 。 此次果真的研究事情涵盖了视频生成模型乐成的几个要害因素:数据基建的精炼之 “术” 与大模型训练的规模之 “道”:可灵团队分享了其数据基建焦点流程,并推出了视频生成领域最高质量的大规 ?词菁 Koala-36M,为学界和社区模型训练提供坚实基  ;同时将语言模型中 Scaling Law 引入视频生成领域,系统性地揭示了模型规模、超参数选择与训练性能之间的关系,为高效训练和性能优化提供了科学指导 。 别的,他们还积极与学界相助,联合探索未来技术的演进偏向,此次分享了和清华大学近期的相助结果:提着名为 Owl-1 的全新视频生成范式 。该要领使用通用世界模型(Omni World model)建模视频生成历程,通过状态 - 视察 - 行动的闭环推理演化实现时序一致的长视频生成,展现了视频生成技术更远大的前景 。 一、数据基建的精炼之 “术” 可灵背后的数据链路 在当今的大模型时代,数据的重要性不言而喻 。高质量的大规模数据集是训练高性能模型的基础 。然而,目今视频生成领域缺乏高质量的大规模预训练数据,这成为了制约模型生长的瓶颈 。 为了解决这个问题,可灵团队开源了Koala-36M,是目前开源的质量最高的大规模视频生成数据集,其背后的数据处理流程也是可灵大模型的重要支撑 。与 SOTA 数据集 Panda-70M [1] 相比,Koala-36M 划分在视频切片、文本标注、数据筛选和质量感知上做出革新,大幅提高了文本视频的一致性 。 如下所示,在相同的生成模型和训练步数下,相较于 Panda70M,在 Koala-36M 上预训练的模型具备更高的生成质量和更强的收敛性,充分证明数据集和处理流程的有效性 。 快手开源的 Koala-36M 对应的论文题目为:A Large-scale Video Dataset Improving Consistency between Fine-grained Conditions and Video Content. 代码地点:https://github.com/KwaiVGI/Koala-36M论文链接:https://arxiv.org/abs/2410.08260项目主页:https://koala36m.github.io/数据集链接:https://huggingface.co/datasets/Koala-36M/Koala-36M-v1 Koala-36M 包括 3600 万个视频片段,平均时长为 13.75 秒,区分率为 720p,片段的文字 caption 平均长度为 202 个词,相较已有数据集,在质量上有大幅提升 。 1、要领介绍 通过以下效果图的展示,可以发明 Panda-70M 保存视频切片不充分、文本描述简短、部分低质量视频保存的问题,Koala-36M 对上述方面进行更细致精准的革新 。 Koala-36M 出发点是为视频生成模型提供精确且细致的条件控制,通过越发精准的视频切片、越发细致的文本描述、越发富厚的条件引入,使得模型感知与视频内容越发一致 。 目前视频生成数据集处理方法有一些要害的问题有待解决: 文本与视频语义对齐:因为视频视觉信号越发细致,所以相应的文本描述需要富厚详细 。别的,由于原始视频数据常包括庞大的转场,增加了文本语义对齐的难度 。低质量数据的筛 。旱椭柿浚ㄈ缁什罨蚬嗵匦В┑氖悠祷峁收夏P脱盗,但对数据的质量评估和筛选过滤依然不敷精彩 。目前主流要领多依赖于其他人工选择的质量指标和启发式阈值筛选,并非针对视频生成任务而设计,因此保存低质量数据漏检、高质量数据误删的情况 。数据质量的异质性:纵然经过数据筛选,差别视频在差别维度仍然有质量上的偏差 。然而模型无法对这些偏差进行感知,仅仅简单地将这些异质数据喂给模型可能导致模型学习的不确定性 。 更精准快速的视频切割 视频切片是构建视频文本数据集的要害一步,无转场的视频能够越发契合文本描述,利于模型学习,从而使得生成结果越发时序一致 。目前视频的切分算法一般使用 PySceneDetect [2],关于渐变转场识别体现不佳 。 Koala-36M 提出新的切片算法 Color-Struct SVM (CSS),通过盘算帧之间的结构距离和色彩距离,输入给 SVM 学习识别转场能力 。关于渐变转场,Koala-36M 假设视频在时间变革上相对稳定,预计已往帧变革的高斯漫衍,凭据目今帧的变革是否凌驾 3σ 置信区间判断显著变换 。这种要领在不增加盘算担负的情况下,增强了对渐变和快速运动场景的区分能力 。Koala-36M 进一步在 10000 个标注转场的视频片段进行检测,证明算法在精度和运行效率上的有效性 。 更细粒度的 caption 算法 越发详细的视频描述会带来更好的视频文本一致性 。为了获得越发详细的文本描述,Koala-36M 使用了一个结构化的文本标注体系,一段文本描述会被拆解为以下 6 个部分: 主体描述主体运动主体所处情况视觉语言:构图、作风、光线等镜头语言:运镜、视角、焦距等整体描述 和现有的事情相似,Koala-36M 首先通过 GPT-4V [3] 生成开端文本标注,微调基于 LLaVA [4] 的文本标注网络,为其余的数据打标 。训练历程中接纳了图像视频混淆训练的方法,以缓解视频数据多样性缺乏的问题 。最终获得 Koala-36M 的文本描述长度漫衍如下 。 全新的数据筛选流程 视频原始数据的质量狼籍不齐,需要筛掉低质量的数据,保存高质量的数据 。如下图蓝框所示,古板的数据筛选方法通过多个子怀抱指标来权衡视频的质量,并手动设置阈值对视频进行筛选 。由于视频质量是所有子怀抱指标的联合漫衍,而子怀抱指标之间并非完全正交,所以设定的阈值之间应该保存隐含约束 。然而,现有要领忽略了子怀抱指标的联合漫衍,导致阈值设置禁绝确 。同时,由于需要设置多个阈值,禁绝确阈值的累积效应使得筛选历程中泛起较大偏差,最终导致低质量数据的漏检和高质量数据的误删 。 为解决这一问题,Koala-36M 提出 Training Suitability Assessment Network(TSA),用于建模多个子怀抱指标的联合漫衍 。该网络将视频和子怀抱指标作为输入,并输出简单值 “Video Training Suitability Score(VTSS)”,作为筛选数据的唯一指标,直接反应视频是否适适用于训练目的 。具体来看,Koala-36M 构建了新的视频质量评价体系,考虑动态质量、静态质量和视频自然度等三个维度,邀请用户评测给出唯一分数并归一化,反应视频是否适相助为视频生成模型的训练数据 。 多模态输入视频评价网络 (TSA) 用于拟适用户打分 。如上图所示,网络分为三个分支,动态分支以 3D Swin Transformer 为主干,静态分支以 ConvNext 网络为主干,古板数据筛选战略中的种种数据标签也被保存,作为特别信息通过新的分支通报给网络模型,差别分支的特征通过权重交叉门块(WCGB)融合 。如下图所示,Koala-36M 的筛选流程能够大幅减少低质量数据漏检、高质量数据误删的情况 。 增强模型对异质数据感知 在现有的数据流程中,数据的标签只是简单地用于数据筛选 。然而,筛选后的数据质量有所差别,导致模型难以区分高质量和低质量的数据 。为了解决这个问题,Koala-36M 提出一种更精细的模型感知要领,在训练历程中将差别视频的质量标签注入生成模型,从而提高条件和视频内容之间的一致性 。 具体而言,在扩散模型训练历程中,将运动分数、美学分数和清晰度分数等数据通过自适应层归一化(AdaLN)加入 Transformer 中 。这种条件加入方法不会增加扩散模型的盘算负荷,反而会增强模型对异质数据的感知,加速模型的收敛 。在推理阶段,可以设置差别的特征分数,细粒度地控制视频生成 。别的,下图中标明基于 AdaLN 的注入要领相较于文本编码器的注入要领 [5] 具备更精细的运动幅度控制,和更强的作风解耦能力 。 2、实验比照 Koala-36M 在差别数据集上预训练相同的视频生成模型,控制训练步数相同,权衡视频生成的质量,进一步对数据处理流程和训练战略的有效性进行验证 。实验分为以下六组: Panda-70M:baselineKoala-w/o TSA:视频支解和文本标注后的未经数据筛选的所有 48M 数据Koala-37M-manual:从 48M 使用多个阈值数据手动筛选的数据Koala-36M:从 48M 数据使用 VTSS 筛选的数据集Koala-w/o TSA (condition):带有 metrics condition 注入的未经筛选的 48M 数据Koala-36M (condition):带有 metrics condition 注入的 Koala-36M 数据 划分比较 Koala-w/o TSA 和 Koala-36M、Koala-w/o TSA (condition) 和 Koala-36M-condition 的训练结果,后者的结果均优于前者,标明筛选低质量数据能够避免模型从低质量数据中学习到有偏差的漫衍 。别的,Koala-37M-manual 和 Koala-36M 的训练结果,标明基于单个 VTSS 的筛选要领相较于手动设置阈值能获得更好的筛选效果 。比照 Koala-36M 和 Koala-36M (condition) 的训练结果,当注入 metrics condition 时,生成模型的视频质量有显著提高,标明使用指标指导模型训练,有助于模型隐式感知差别数据的重要水平 。 3、Koala-36M 总结 Koala-36M 是一个大规模高质量视频文本数据集,具有精确的视频切片、详细的文本描述和更高质量的视频内容 。该数据集是目前唯一一个同时拥有大宗视频(凌驾 1000 万)和高质量细粒度文字说明(caption 平均长度凌驾 200 字)的视频数据集,大大提高了大规模视频数据集的质量 。别的,为了进一步提高细粒度条件与视频内容的一致性,Koala-36M 提出了一套完善的数据处理流程,包括更好的视频切片要领、结构化的文本标注系统、有效的数据筛选要领和异质数据感知 。 二、大模型训练的规模之 “道” 视频生成领域的 Scaling Law 视频生成技术正迅速成为人工智能领域的焦点热点,从娱乐内容创作到广告制作、虚拟现实和在线教育等场景,展现出巨大的应用潜力 。然而,与静态图像生成差别,视频生成任务需要同时建模视觉结构与时间维度上的动态变革,还需处理庞大的高维解空间,以准确模拟现实世界的动态场景 。这种庞大性不但显著增加了数据和算力的需求,还使试验试错本钱高昂 。因此,如何在给定的数据和盘算预算内实现最优性能,成为视频生成领域亟待解决的要害挑战 。 目今代表性的视频生成模型 Movie Gen 的参数规模已抵达 300 亿,远超早期的 Video DiT(约 7 亿参数) 。在此配景下,Scaling Law 的重要性日益凸显 。尽管在语言模型中已经使用 Scaling Law 来预测性能,但在视觉生成模型中的保存性和准确推导仍然未获得充分探索 。 针对这一问题,在论文《Towards Precise Scaling Laws for Video Diffusion Transformers》中,快手研究团队提出了一种面向视觉生成模型(Video DiT)的更精确的 Scaling Law 建模方法 。 该文首次将批次巨细和学习率进行精确建模,为任意模型巨细和盘算预算下的最优超参数选择提供指导,并对最优超参配置下的验证损失进行了精准预测 。别的,该文进一步建立了最优模型巨细和盘算预算之间的精确关系 。实验标明,与古板 Scaling Law 要领相比,在 1e10 TFlops 的盘算预算下,该事情提出的推导要领可减少 40.1% 的推理本钱,同时坚持了相当的性能 。这一结果为视频生成领域的高效优化提供了新的偏向,并为行业开发大规模视频生成模型带来了重要启示 。 1、配景 近年来,大语言模型(LLM)的研究揭示了模型性能、模型规模与盘算预算之间的幂律关系,这一纪律被称为 Scaling Law 。通过对小规模模型的实验,研究者能够有效预测大规模模型的性能体现,从而在资源受限的条件下实现高效的模型优化 。尽管 Scaling Law 已在语言模型领域取得显著效果,Image DiT 的 Scaling Law 也有开端研究,但视频生成的奇特庞大性使得其在这一领域的研究仍是空白,成为限制更大规模视频生成模型开发的重要阻碍 。 技术难点:Video DiT 模型对超参数高度敏感 随着 Video Diffusion Transformers(Video DiT) 的生长,其在生成视频质量和多样性方面取得了显著进展 。本文实验将语言模型领域的 Scaling Law 要领扩展应用于 Video DiT 。然而,研究发明,Video DiT 模型的性能对批量巨细、训练步长等超参数高度敏感,经验性的参数选择往往引入较大的不确定性,从而显著影响模型验证损失(如图 1 所示) 。因此,构建适用于 Video DiT 的精确 Scaling Law 并优化超参数配置显得尤为重要 。 经典 Scaling Law 研究中的局限性 在语言模型的 Scaling Law 研究中,最优超参数的选择往往被忽略或保存一定争议 。早期研究通常依赖启发式要领,缺乏系统性的理论依据来指导超参数选择 。现有的 Scaling Law 研究在模型规模与超参数关系的细粒度探索方面仍有缺乏,而这对优化盘算资源和提高拟合精度至关重要 。现有的 Scaling Law 的问题包括: OpenAI 的 Scaling Law 。OpenAI 的研究认为,较小的批量巨细盘算效率更高,但需要更多更新步数才华收敛 。然而, 本文实验结果标明,在相同盘算预算下,接纳较小的批量巨细并增加更新步数,无法抵达最低的验证损失 。这说明在视频生成任务中,较小的批量巨细未必是提高盘算效率的最佳选择 。Chinchilla 的 Scaling Law 。Chinchilla 的研究将验证损失与模型参数量 N 及训练数据量 D 建立了联系,但验证损失的拟合结果与 IsoFLOPs 曲线在最优参数量预测上保存一定偏差 。文章认为偏差可能源于牢固的次优超参数配置,导致模型规模预测结果的不敷精确 。DeepSeek 的 Scaling Law 。DeepSeek 的研究标明,在特定盘算预算下,可以找到最小化验证损失的最佳批量巨细与学习率组合 。然而,该要领仅针对最优模型参数量选择对应的最优超参数,未能全面考虑超参数与模型规模及训练数据量的交互关系,这限制了要领在更广泛的场景中的适用性 。 通过对这些经典研究的剖析与反思,作者们发明优化超参数配置关于构建适用于 Video DiT 的 Scaling Law 至关重要 。因此,本文将深入探讨超参数在模型性能优化中的作用,并在给定模型规模和训练数据量时预测超参数,从而为大规模模型的训练提供越发精确的理论依据与实践指导 。 最优超参数预测 研究者通过理论推导与实验验证,构建了最优学习率与批次巨细的预测公式,并通过外推要领实现对大规模模型的精确预测 。 学习率选择的权衡 。学习率的选择需要在每步收益与有效更新步数(验证损失下降的步数)之间取得平衡,以实现整体优化收益的最大化  ;诶砺弁频,本文提出了最优学习率公式,其中参数取值如表所示: 实验结果标明,学习率与模型规模和训练数据量之间保存明确的非线性关系,基于公式的拟合曲线能够准确预测差别规模模型的最优学习率 。 训练批次巨细的权衡 。训练批次巨细的选择需权衡每步梯度噪声与总更新步数之间的平衡 。为此,本文从理论角度提出了最优批次巨细公式,其参数值如表所示: 实验结果显示,批次巨细与模型规模和训练数据量同样保存显著的依赖关系 。拟合曲线的准确性在差别模型规模上体现一致 。 外推验证 。为了验证公式的适用性,该事情将模型参数量扩展至 1B,并在 4B 和 10B 的训练数据集上划分进行最优超参数预测 。实验结果显示,基于公式预测的超参数能够有效降低验证损失,其精度接近真实值(如图 4 所示) 。 2、更精确的 Scaling Law:探索 video DiT 模型的性能界限 研究者基于上述最优超参数的预测提出了一种针对 Video DiT 的更精确的 Scaling Law,从模型规模、训练数据量与盘算预算的平衡角度出发,不但可以预测给定盘算预算下的最佳模型巨细,还可以为差别巨细的模型提供更精确的性能预测 。 更高效的经验最优模型参数预测 。在 [3e17, 6e17, 1e18, 3e18, 6e18] 等差别盘算预算下,研究划分比较了使用最优和次优超参数配置时,经验最优模型参数(IsoFLOPs 曲线)的预测偏差(图 6) 。研究发明: 在相同盘算预算下(10^10 TFLOPs),使用最优超参数时的经验最优模型参数量相比非最优超参数可减少约 39.9% 的参数量(图 6c),推理本钱减少了 40.1% 。这在实际应用安排中所带来的收益是巨大的 。 拟合结果 研究者在最优超参数的前提下获得拟合结果如表所示 。在 1.07B 模型 + 10B 训练 tokens 与 0.72B 模型 + 140B 训练 tokens 的场景中进行外推验证,验证损失误差划分为 0.03% 和 0.15%(图 5),证明了该公式的高拟合精度 。别的,研究者对 L (N,T) 施加算力约束,获得预测最优模型参数量(Predicted Optimal Model Size)与经验最优模型参数量(Empirical Optimal Model Size):(图 7)在最优超参数的设定下,二者的拟合结果高度一致(指数项偏差为 3.57%),进一步证明了 L (N,T) 拟合的高精确性 。使用牢固的非最优超参数配置,二者的拟合结果保存明显偏差(指数项偏差了 30.26%),这与 Chinchilla 的 Scaling Law 要领 3 所视察到的结果一致 。本文认为造成这一显著偏差的原因在于拟合保存图 1 中非最优超参配置的灰色实验点降低了 L (N,T) 的拟合度 。 3、总结 本文深入探讨了 Video DiT 的 Scaling Law,提出了一种新的框架来优化超参数选择、模型规模和训练性能,为高效训练提供指导,具体来说: Scaling Law for Hyperparameters.本文通过理论剖析与实验验证,提出了一种新的缩放纪律,用于确定 Video DiT 的最优超参数 。最优超参数主要依赖于模型规模 N 和训练数据量 D,并给出了准确的拟合公式 。Scaling Law for Optimal Model Size.基于最优超参数,该要领能够更准确地预测经验最优模型规模 。与 Movie Gen 使用相同盘算资源时,此要领的要领使模型规模减少了 39.9%,同时坚持相似的性能 。Scaling Law for Performance.在最优超参数配置下,本文推导出一个通用公式,能够精确预测差别模型规模与盘算预算下的验证损失 。研究标明,在牢固盘算预算下,当模型规模接近最优时,验证损失趋于稳定,从而在性能相当(可预测)时可显著降低推理本钱 。别的,本文研究结果提供了模型规模与盘算预算之间关系的准确外推,相比之下,使用牢固次优超参数会导致预测误差显著增加 。 三、视频生成未来之势 通用世界模型 目前,视觉生成模型已经在图像生成、视频生成等领域取得了显著进展 。然而,这些模型仍然面临一些挑战,尤其是在生生长视频时,如何坚持时序一致性和逻辑合理性是一个难题 。古板的生成模型往往依赖于大宗的数据和庞大的网络结构,但仍然难以完全解决这些问题 。为了解决上述挑战,清华大学与快手科技联合提出了通用世界模型(Omni World Model) 。这种模型通过状态 - 视察 - 行动的闭环推理演化,实现了时序一致的长视频生成 。下面来详细了解一下 Owl-1 的焦点技术和优势 。 状态 - 视察 - 行动的闭环系统状态变量:捕获世界的目今状态和历史信息,可以被视频生成模型解码成对应的视频 。视察变量:对目今世界状态的直接视察,即看到的视频帧 。行动变量:描述了世界状态随时间的变革纪律,以文本形式泛起,驱动着世界的演变 。 这三个组成部分派合组成了一个闭环的演化系统,相互作用、相互影响,配合推动着世界的不绝演变和视频的生成 。 提升时序一致性和逻辑合理性 通用世界模型能够直接捕获并模拟三维世界的时空演变纪律,从而提升生成视频的时序一致性和逻辑合理性 。这意味着生成的视频不但看起来自然,并且内容越发连贯,制止了简单或重复的内容 。 富厚的内容多样性 通过预测和利用演化行动变量,Owl-1 能够富厚生成视频的内容多样性 。这使得生成的视频越爆发动有趣,能够更好地反应真实世界的变革纪律 。 论文题目:Owl-1: Omni World Model for Consistent Long Video Generation 项目主页:https://github.com/huang-yh/Owl 论文链接:https://arxiv.org/abs/2412.09600 1、要领介绍 Owl-1 的目标是构建一个时序一致的长视频生成模型,其焦点在于接纳通用世界模型建模视频生成任务 。为什么要使用通用世界模型呢 ?因为视频数据实质上是对周围世界演化历程的一种视察,是四维时空向三维视察的一种投影 。而通用世界模型能够直接捕获并模拟三维世界的时空演变纪律,因此从世界模型的角度建模视频生成任务是一种越发有效和实质的要领 。一方面,四维时空的一致性能够提高生成视频的时序一致性 ;别的,关于世界演化历程的显式建模也能提高生成视频内容的多样性和逻辑性,制止简单或者重复的内容 。 通用世界模型建模 通用世界模型有三个焦点组成部分,包括隐空间状态变量、显式视察变量和演化行动变量 。这三个部分各自饰演着差别的角色:隐空间状态变量卖力捕获世界的目今状态和历史信息,它可以被视频生成模型解码成对应的视频 。显式视察变量则是对目今世界状态的直接视察,即看到的视频帧 。而演化行动变量则描述了世界状态随时间的变革纪律,它驱动着世界的演变,并以文本的形式泛起 。 隐空间状态变量是 Owl-1 的焦点,它不但仅关注视频自己的像素信息,而是深入到视频背后的世界,通过捕获和体现这个世界的动态变革,来更准确地模拟世界的演变,从而生成越发连贯和一致的长视频 。 演化行动变量是驱动世界演变的要害因素 。它以文本的形式保存,描述了世界在差别时刻之间的动态变革历程 。通过预测和利用这些演化行动变量,Owl-1 能够富厚生成视频的内容多样性,并确保视频的一致性和连贯性 。 Owl-1 的这三个组成部分派合组成了一个闭环的演化系统 。这三个部分相互作用、相互影响,配合推动着世界的不绝演变和视频的生成 。 模型结构 Owl-1 充分利用了预训练的多模态大模型(LMM)和视频扩散模型(VDM) 。LMM 是通用世界模型的焦点组成部分,它直接建模了状态 - 视察 - 行动三元组的演化历程 。而视频扩散模型则卖力将隐空间状态变量解码成短视频片段,即显式视察变量,然后输入 LMM 进行后续推理 。通过这两个模型的协同事情,Owl-1 实现了闭环通用世界模型的建模 。 定制化多阶段训练流程 Owl-1 接纳了多阶段的训练历程 。首先是对齐预训练阶段,通过大规模的短视频数据来训练多模态大模型输出的隐空间状态变量与视频扩散模型对齐,这一阶段仅训练多模态大模型,能够为后续的训练历程提供一个良好的初始化 。接着是生成式预训练阶段,这一阶段主要强化视频扩散模型凭据隐空间状态变量生成显式视频视察的能力,因此本文联合训练多模态大模型和视频扩散模型 。最后是世界模型训练阶段,因为尚没有能体现世界模型看法的视频数据集,本文接纳了 Vript 和 ActivityNet 两个密集视频字幕数据集,将隐空间状态变量、显式视察变量和演化行动变量整合在一起,形成一个完整的通用世界模型 。 2、效果展示 此处展示了 Owl-1 生成差别时长视频的效果,包括 2 秒,8 秒和 24 秒的视频长度,其中 2 秒的生成视频使用了 VBench 的图文提示词,8 秒和 24 秒的视频使用了 WebVid 或者 Vript 数据集的图文提示词 。 视频链接:https://mp.weixin.qq.com/s/CNl224oFUMCCHxOAKgo84Q?token=918711206&lang=zh_CN 基于给定的初始帧和文字描述,Owl-1 能生成具有较大的姿态和场景变革的视频,同时生成的视频能够反应真实世界中物体和场景的变革纪律 。这说明 Owl-1 能够很好地由隐空间状态变量解码获得显式的视频视察 。 视频链接:https://mp.weixin.qq.com/s/CNl224oFUMCCHxOAKgo84Q?token=918711206&lang=zh_CN 关于同场景多段短视频生成(~8 秒),Owl-1 能够实现视频之间的无缝衔接,且生成的视频具有较高的一致性 。这验证了隐空间状态变量坚持视频内容的一致性的能力 。 视频链接:https://mp.weixin.qq.com/s/CNl224oFUMCCHxOAKgo84Q?token=918711206&lang=zh_CN 关于跨场景多段长视频生成(~24 秒),Owl-1 在场景转换、运动捕获和细节泛起方面体现出优越的性能,其生成的视频不但连贯流畅,并且细节富厚,在视频内容生长方面展现出一定的逻辑性 。这验证了演化行动变量关于视频内容生长的重要推行动用,开端体现出基于世界模型的视频生成范式的优势 。 3、定量结果 本文在 VBench-I2V 和 VBench-Long 两个基准上划分测试了 Owl-1 生成短视频和长视频的能力 。 上表展示了 Owl-1 在 VBench-I2V 上的实验结果,该结果标明 Owl-1 在大部分指标上与其他模型的能力相当,但在动态水平和美学分数上仍旧有所欠缺,这可能和用于训练的视频数据的动态水平和美学分数相关 。 上表展示了 Owl-1 在 VBench-Long 上的实验结果 。Owl-1 与开源的视频生成要领取得了相当的性能,其中在一致性相关的指标上取得了最佳的性能 。这说明了 Owl-1 在坚持长视频的时序一致性方面凌驾了现有的要领 。 四、总结 快手 “可灵大模型” 团队始终专注于视频生成技术的前沿探索与连续立异 。通过对模型架构的优化、数据质量的提升以及算法范式的突破,团队致力于推动视频生成技术的连续进步 。展望未来,随着这些技术的不绝完善与成熟,视频生成将变得越发高效与高质量,为用户带来更富厚、更多样化的创意表达与使用体验 。 [1] Tsai-Shien Chen, Aliaksandr Siarohin,et al. Panda-70m: Captioning 70m videos with multiple cross-modality teachers. In CVPR,2024. [2] Brandon Castellano. Pyscenedetect. URL https://github.com/Breakthrough/ PySceneDetect/. [3] Achiam J, Adler S, Agarwal S, et al. Gpt-4 technical report [J]. arXiv preprint arXiv:2303.08774, 2023. [4] Haotian Liu, Chunyuan Li, Qingyang Wu, and Yong Jae Lee. Visual instruction tuning, 2023. [5] Zheng Zangwei, Peng Xiangyu, Li Shenggui, Liu Hongxing, Zhou Yukun, Li Tianyi, Peng Xiangyu, Zheng Zangwei, Shen Chenhui, Young Tom, Wang Junjie, and Yu Chenfeng. Opensora, 2024. URL https://github.com/hpcaitech/Open-Sora.

尊龙人生就是博

快手可灵凭什么频繁刷屏 ?揭秘背后三项重要研究

尊龙人生就是博

快手可灵凭什么频繁刷屏?揭秘背后三项重要研究韦志忠

快手可灵凭什么频繁刷屏 ?揭秘背后三项重要研究

「运动」P6F9A2Y5R3B1T0V4X8W

785.20M
版本v4.405.327532
下载中国无码日逼视频装置你想要的应用 更便当 更快捷 发明更多
喜欢 49%好评(48人)
评论 85
BLG轻取RA的截图0 BLG轻取RA的截图1 BLG轻取RA的截图2 BLG轻取RA的截图3 BLG轻取RA的截图4
详细信息
  • 软件巨细: 247.9M
  • 最后更新: 2025-01-30 05:46:22
  • 最新版本: v6.792.920587
  • 文件花样: apk
  • 应用分类:ios-Android 污色插美女网站
  • 使用语言: 中文
  • : 需要联网
  • 系统要求: 5.41以上
应用介绍
一,JJ插女生黄视频网站,十八个无遮挡动漫
二,又黄又色又高潮啪啪视频,找一个能看黄色视屏免费app
三,快猫app破解,色色射射色
四,猫咪app永久地址入口,琳琅社区600精品
五,www.日本,张津瑜夸克蘑菇
六,欧美日韩视频二区,亚洲一区二区免费在线视频
七,亚洲色无敌1区
【联系尊龙人生就是博】
客服热线:138-2881-646
加载更多
版本更新
v9.1.19
,欧美国产日韩久久mv

三级片A片一级毛片视频

狼友在线视频国产区

552.30M
48好评
白嫩美女高潮喷水高清视频
  • 国产中文字幕在线播放

    欧美高清成人免费看片

    990.12M
    93好评
    妖精视频在线
  • 国产精品偷任你爽你

    欧美人妻19p

    男人把坤坤插进女生的坤坤里面

    45.14M
    93好评
    欧美亚洲精品综合色
  • 仙人掌视频app下载污

    运动造人视频软件

    213.6M
    61好评
    眯眯阁在线视频精品店
  • 国产XXXX做受视频在线

    男孩子把他的坤坤放在男生

    800.3M
    94好评
  • 中文字幕无线码日本一区二区

    国精品午夜福利视频导航

    樱花草在线观看免费完整版

    489.12M
    44好评
    网红Avove
  • 免费播放成人一区二区三区四区

    ygf传媒免费网页

    午夜无码片在线观看影院

    760.3M
    71好评
    麻酥酥是不是被抓了
  • 碰在线工开超

    快喵人成app短视频在线看下载

    黃色一級免費看

    451.13M
    86好评
  • 深夜福利8x在线观看视频

    精品亚洲成人无码av

    淫色视频app在哪里下载

    549.15M
    96好评
    欧美国产精品正在播放
  • 日产精品卡1卡2卡三卡区别人妖

    五台山昌善法师简介

    21亚洲精品无码色偷偷

    149.19M
    17好评
    久久无马电影
  • 黄www晚上必看

    黄片免费看hh

    天天插天天干天天操

    839.21M
    47好评
    好超碰在线
  • 姐姐的朋友8

    97热成人精品国产免费

    168.5M
    22好评
  • 日日操日日干日日摸

    欧美成人午夜AAAAA电影

    野花忘忧草51dadou

    216.30M
    76好评
    114美女做受视频免费
  • 91青青视频

    三级片app在线观看

    国产97在线传媒麻豆

    170.1M
    59好评
    色网址大全123 亚洲
  • 99草视频在线观看亚洲一区

    少妇无码ay有码在线

    lz1app荔枝视频lz1app

    323.18M
    56好评
  • 鲍鱼视频app官网下载

    略国精产品W灬

    31.8M
    98好评
    最近更新中文字幕在线电影
  • 免费看黄色视频的网站在线观看

    www黄片免费www

    小奶狗app用不了了?

    124.19M
    13好评
    强奸乱伦国产电影
  • 黄色在线小视频

    美国影片灭火宝贝在线观看

    738.18M
    62好评
  • 毛片大全a

    在线观看中文字幕2023

    370大但人文艺术

    758.13M
    83好评
  • 菠萝蜜视频app入

    欧美性爱另类

    有毛片**毛片毛片毛片

    786.20M
    64好评
  • 国产中文有吗在线

    色综合黄片

    农村两口子中午打一炮

    532.22M
    86好评
  • 一个添下面两个玩上面

    妈妈和朋友APP

    怎么C哭自己

    64.6M
    30好评
  • 亚洲人成V片在线

    被采摘污染的茜03樱花

    666.10M
    70好评
    91爱情电影高清一区二区三区
  • 欧美人与动性行为精品

    把男人的鸡鸡Siri女人阴道里的网站

    与子敌伦刺激对白

    973.16M
    86好评
  • 国产又黄又大又粗

    女人吃男人肌肌什么感觉

    调教男奴坐脸舔阴白浆VK

    368.16M
    51好评
    无弹窗播放2021在线乱码一区二区
  • 王者荣耀黄化网站入口ios破解

    麻豆A片在线观看

    22.7M
    14好评
  • 精品国产污污免费网站A

    综合拍日韩一区二区

    丝瓜草莓视频app在线观看下载

    549.17M
    37好评
  • 尊龙人生就是博(中国游)官方网站色鲁吧视频在线观看 title="国产在线拍揄自揄拍免费下载" class="app-list-img" src="https://t11.www.yuntaiwaye88.com/it/u=1155093119,165412981&fm=30"">

    国产大片AA

  • 尊龙人生就是博(中国游)官方网站超碰人妻91 title="蝴蝶传媒视频免费入口" class="app-list-img" src="https://t11.www.yuntaiwaye88.com/it/u=4074375868,165427882&fm=30"">

    а√天堂资源中文

  • 尊龙人生就是博(中国游)官方网站肏屄视频网站导航 title="美女免费的黄色视频" class="app-list-img" src="https://t12.www.yuntaiwaye88.com/it/u=1746354047,165292673&fm=30"">

    国产美女一级a毛片大片

  • BLG轻取RA 类似软件

    猜你喜欢

    包括 饿了么 的应用集