WorldScore: A Unified Evaluation Benchmark for World Generation

Overview

image

(1)统一性:将世界生成任务归纳拆解成了相机位姿变化下下一场景生成任务,由此将3d生成,4d生成,视频生成等等世界生成方法统一化了

(2)测试维度:

  • 可控性(controllability)

  • 质量(quality)

  • 动态性(dynamics)

(3)大规模,多样的测试示例:3,000 个高质量的测试示例;涵盖了各种世界,包括静态和动态、室内和室外、照片写实和风格化景

挑战

视频生成、3D 场景生成和 4D 场景生成初是为特定任务设计,虽然具备作为“世界生成系统”的潜力,但是在世界生成概念扩展的今天,难以适应既能够无缝集成多个不同场景(综合性),又能够具有详细空间布局控制(控制性)的任务需求。

解决这个问题,首先需要的就是一个benchmark!

现有benchmark的缺陷

视频生成方向

评估仅限于单个场景,无法衡量模型在生成多场景、具有复杂空间关系的“世界”时的能力

3d,4d场景生成方向

评估基准缺少关键组件(如摄像机规格和参考图像)。这使得这些基准与许多先进的 3D/4D 场景生成方法不兼容

WorldScore Benchmark

核心:将世界生成任务分解为一系列下一场景生成任务

统一性

每一个step被描述为

为了不同方法之间的统一:

  • 为每一个step中的current scene提供了image prompttext prompt

  • 为每一个step中的layout提供了camera matricestextual description

无论输入是什么,不同方法之间的输出是统一的 i.e. 渲染或者生成的video

衡量标准

  • 可控性(controllability):衡量生成的世界对控制输入的依从性

  • 质量(quality):衡量逼真度和一致性

  • 动态性(dynamics):衡量生成的世界表现出准确和稳定运动的程度

三大衡量标准里面所有指标加起来共十个metrics

主要贡献

(1)提出了第一个世界生成基准WorldScore,允许对包括各类模型在内的各种方法进行统一评估

(2)提供了一个高质量、多样化的数据集,涵盖了具有多种视觉风格的静态和动态场景

(3)引入了 WorldScore 指标,它包括可控性、质量和动态性

image

(4)在17个开源模型和2个闭源模型上评估,指导世界模型的研究,提出该研究领域的挑战

image

WorldScore Benchmark

image

整体概述

包括三个部分:

    1. 标准化的世界规范
    1. 精心策划的数据集
    1. 多方面的指标

世界规范

世界规范的定义

世界生成任务被分解为一系列下一场景生成任务,其中每个步骤由三元组 构成,其中

    • : 当前场景
    • :当前场景的图像
    • :当前场景的文本提示
  • 表示下一场景的文本提示

    • :布局
    • :每一个位置相机的相机矩阵集合( 表示一个相机矩阵)
    • :相机运动的文本提示

然后,世界生成模型被指示生成一个视频:

表示一个视频 表示世界生成模型 表示模型特定的预处理

模型特定的预处理

评估模型涵盖3D场景生成、4D场景生成和视频(I2V,T2V)生成,每种模型都有不同的输入形式需求

为了适配这些不同的输入形式, 会确保每个模型接收到其所需格式的输入

具体来说, 对输入进行如下标准化处理:

对参考图像
  1. 会被居中裁剪并调整大小,以匹配每个模型所需的分辨率

  2. 既作为视觉风格参考,也作为I2V模型所需的输入

  3. 因为T2V模型被视为忽略图像信号的I2V模型,所以T2V不接收

对布局
  1. 对于接受显式相机控制信号的模型,会将对齐变换后的相机位姿 提供给那些模型,以保证在不同相机类型之间对齐,

  2. 对于不支持显式相机控制的模型,只提供文本描述

对于下一场景的文本提示
  1. 对于3D/4D模型,由于它们都接受相机矩阵作为输入, 不会对做任何改动

  2. 对于3D/4D模型外不接受相机矩阵输入的视频模型 会在中加入相机运动相关的描述

两种任务———静态和动态世界

动态性与可控性和质量方面的性质不同,不适合作为一种metrcis进行评估

所以从任务上对于动态和静态进行区分:

  • 静态世界生成:指示模型生成可变长度的场景序列。此时,描述了新的场景内容,描述了大的相机移动

  • 动态世界生成:指示模型生成场景内运动以进行动态性评估。此时,描述了与相同的场景内容,但带有动态变化(e.g. animal moving)。明确指定了一个固定的相机位置,没有任何相机移动

数据集策划

的策划

由图像 及其文本提示 给出

静态世界生成

过程1:逼真风格场景生成

过程2:以逼真风格场景生成为基础,生成风格化场景

image (1)定义了10个场景类别,5种室内场景和5种室外场景

(2)从开源场景数据集和在线来源unsplash中获取图像

数据集如下:

image

(3)因为上述数据集存在信息冗余,视角异常,拍摄角度过窄等问题,对图像应用过滤策略,以确保高质量和高多样性,产生了5000张逼真风格(Photorealistic)的图像(真实或基于物理渲染),策略如下:

  • 视觉质量:CLIP-IQACLIP Aesthetic过滤视觉质量

  • 视角问题:利用Perspective Fields建模图像局部视角属性,如yaw,pitch,FOV,剔除roll,pitch异常和FOV过窄的情况

  • 相似度:采用CLIPSIM移除极端相似图像

  • 亮度:计算图像亮度,过滤亮度低于阈值的图像

  • 最后进行人工筛选

下图是图示筛选的过程:

image

(4)用VLM(GPT-4o),为这些图像生成字幕,并进行10分类,将每张图像放入一个类别中

(5)保留每个类别中前100张最高质量的图像,从而得到1000张图像 及其相应的提示

image

(6)为了保证风格的多样性,为每个逼真风格示例创建了一个Stylized副本。对于每个示例,从一组风格候选集中随机选择一种风格,并将添加到原提示中来创建一个新的文本提示。风格共有7种:Anime, Cyberpunk, Chinese ink painting, Ukiyo-E, Impressionism, Post-Impressionism, Minecraft.

image

(7)利用闭源文生图api来生成风格化图像

最终的十类场景如下图所示,每一个场景上面是逼真风格,下面左侧是风格化结果,下面右侧是可选风格:

image

动态世界生成

(1)定义了 5 种运动类型,从unsplash手动为每种类型挑选了100张图像

(2)遵循与静态世界生成中(4)(5)(6)过程相近的方式创建了文本提示和风格化副本,最终得到1000个示例

(3)为每一张示例生成了一张Mask Image来指示运动应当在哪里发生

展示如下:

image

的策划

对于不同的世界可以有不同的长度:

  • 小世界(Small World), 只包含一个新场景
  • 大世界(Large World),包含三个新场景,共四个

文章指示LLM生成与所有当前场景文本提示不同的下一场景文本提示

  • 对于一个小世界: LLM 接受输入任务规范 , 以及对于过去和当前场景描述的prompt集合

  • 对于包含四个场景的大世界,重复上述过程三次,因此包含三个独立的下一场景提示

具体而言,对于静态场景生成:

:

image

生成的为:

image

"Entities"是metric部分在计算可控性(controllability)时需要进行检测的对象

对于动态场景生成:

:

image

生成的

image

"Objects"是用于为运动对象提供mask,从而在metric部分中计算运动精度

的策划

包括相机轨迹 和相机运动的文本提示

对于相机运动,根据电影行业的启发,文章准备了一个涵盖8种相机运动的集合

image

这种设计两个好处:

  • 涵盖了所有空间方向

  • text2video模型大多在包含这种运动描述的电影切片上训练过,所以这种标注有利于text2video进行训练

8种运动的分类:

  • 场景内运动,e.g., push in
  • 场景间过渡, e.g., pull out

特别地,对于静态场景生成,文章随机为下一场景生成任务分配一个布局。当分配的布局仍然在场景内时,用替换

image

WorldScore Metric

WorldScore包括两个集合:

  • WorldScore-Static,仅衡量静态世界生成能力,包括可控性(controllability)和质量(quality)
  • WorldScore-Dynamic,除了静态世界外还衡量动态世界生成能力,包括可控性(controllability),质量(quality)和动态性(dynamics)

image

可控性(controllability)

相机可控性(Camera controllability)

为了评估模型生成内容对布局 的遵循程度,计算相机误差如下:

:相对于真实轨迹 的尺度不变旋转误差(scale-invarianet rotation error)

:相对于真实轨迹 的平移误差(translation error)

使用DROID-SLAM来估计每一帧的相机位姿 同时计算出,代表相机旋转矩阵,代表相机位置, 是尺度因子

生成视频 所有帧的相机误差都被计算,最后指标取各帧的平均数

image

引入的原因

单目视觉无法判断物体的真实大小或距离,估计的 是带物理单位的三维位置,依赖于真实世界的尺度

对于单目SLAM,只能估计出up-to-scale的平移向量

因此引入来最小化误差

物体可控性(Object controllability)

评估下一场景提示中指定的物体是否出现在生成的下一场景

中提取出一或二个单独的物体描述,利用open-set物体检测模型Grounding dino在场景中进行检测并且计算与物体描述的匹配成功率

image

内容对齐(Content alignment)

利用CLIPScore评估生成的场景与整个文本对齐程度

image

质量(quality)

3D 一致性(3D consistency)

应用范围:静态世界视频(static world videos)

侧重点:(1)场景的几何形状在帧之间如何保持稳定 (2)视觉纹理的轻微变化可以容忍

使用DROID-SLAM来估计每帧的像素级深度,好处是使用DBA(密集的Bundle Adjustment)稠密重建,利用好图像中每一个像素的信息,更好捕捉全场景一致性

然后计算连续帧中一对共视像素之间的重投影误差

意义:如果3d consistency良好,那么3d reconstruction之后的三维结构和相机位姿的自洽性良好,那么重投影误差应该小

对比示例图如下:

image

光度一致性(Photometric consistency)

侧重点: 外观(纹理) 的稳定性

现有问题:(1)视频生成模型在保持纹理一致性方面存在困难 (2)现有指标,如以CLIPDINO为基础的,难以衡量细粒度变化

为了检测光度伪影(photometric artifiacts),评估了连续帧之间的光流并计算平均端点误差(Average End-Point Error AEPE)

image

具体地,给定两帧相邻帧

先估计相邻帧之间的光流场

先用从 的前向光流场 将一组中心裁切(生成模型中心区域通常被遮挡/边缘效应更小)的点 跟踪到帧

再用从 的后向光流场 将这些点从 跟回

理想情况下,如果物体光度一致,被跟踪的点会回到原始位置,即 。用 AEPE 来量化偏差:

为采样点数量

总体度量通过对所有生成视频的所有相邻帧对的 求平均得到

较高的该指标表明光度不一致更严重,会反映出例外观变化、纹理闪烁或物体消失等异常

风格一致性(Style consistency)

计算单个下一场景生成任务的第一帧和最后一帧的Gram矩阵之间的差异来评估

通过逐层的CNN对每一帧进行特征提取:

在第 层,记该层的特征响应为矩阵

:该层的通道数(filter 数), :每个通道的空间位置数(height width),即一张对应特征图

Gram 矩阵 :

衡量的是第 个特征图与第 个特征图在所有空间位置上同时激活的频率

从视觉意义上讲,这个矩阵保留了某张图像“纹理/局部特征与色彩共现的信息,并丢弃了像素的全局几何排列,而正与审美角度的“风格“相符合

使用Frobenius范数来衡量两个Gram矩阵之间的差异

image

主观(人类感知)质量(Subjective quality)

image

背景:现存许多训练好的图像质量评价指标模型,如CLIP-Aesthetic,QAlign-Aesthetic,MUSIQ,CLIP-IQA等等

目标:在以上的指标中进行组合,选取出最为贴近人类感知偏好的组合

方法:人工实验

  • 选择200个实验的人,给定一个视频对(A, B),问问题which video has higher quality,并强制要求二选一
  • 选 A 的比例为 , 选 B 的比例为
  • 用待实验的metric 对(A, B)进行评判,若给A打分高,那么m在(A, B)上的agreement score就是 ;若给B打分高,那么m在(A, B)上的agreement score就是 ; 若是,m在(A, B)上的agreement score就是, 的最终得分取在所有视频上的平均分
  • 问题没有问很细致,只问到quality的原因是:过于细致的问题,实验者很难做出果断的回答

结论:CLIP-IQA+ and CLIP Aesthetic最高,upper_bound是该指标若每次都选比例更高一方所能达到的上限

image

动态性(Dynamics)

运动准确性(Motion Accuracy)

评估:下一场景提示 中指定的运动是否发生在指定区域

方法:

其中:

:相邻两帧之间的光流(optical flow)幅值,由SEA-RAFT估计得到 :前一帧的动态物体掩码,动态物体像素值为 1,其它地方为 0 :掩码的反集(静态为 1,动态为 0)

SAM2去跟踪这些动态物体掩码 ,初始的第一帧掩码是数据集中已经提供的

公式含义:取动态区域的最明显运动减去静态区域的最明显运动,该数值越大,说明运动集中在它该发生的区域

最终对视频中所有连续帧对计算 ,再对所有帧对、所有生成视频取平均

image

运动幅度(Motion Magnitude)

评估:世界生成模型生成大幅度运动的能力

动机:生成细微运动缺乏趣味性

方法:

:相邻两帧之间的光流(optical flow)幅值,由SEA-RAFT估计得到

最终对视频中所有连续帧对计算 ,再对所有帧对、所有生成视频取平均

image

运动平滑度(Motion Smoothness)

评估:生成视频的时间平滑度

动机:时间抖动(temporal jittering)是动态世界生成问题中的常见失效模式

方法:

  • 给定一个生成视频,其帧序列为 ,将奇数索引帧 删除,得到一个帧率较低的视频;然后使用视频帧插值模型Vfimamba推断出这些被删除的帧,插值后的帧是平滑帧,作为插值前的帧的参考

  • 计算重建帧与原始被删除帧之间的均方误差(MSE)、结构相似性(SSIM)和LPIPS

  • 计算并采用下面的归一化方法归一化每个指标后,取平均值,得到最终的指标

image

归一化方法

其中:

表示给定指标的原始值 表示该指标的经验界限 表示截断函数,确保标准化后的分数 落在 的范围内

10个metric之间的统一

在计算出各项独立的指标后,应用下文的经验限度和上文的归一化方法确保最终分数落在0-1,然后将其乘以 100 接着,计算controllabilityquality两个维度得分的算术平均值,得到WorldScore-Static 此外,将三个动态维度的得分纳入,从而得到WorldScore-Dynamic 对于不支持动态任务的 3D 场景生成模型,将每个动态指标的得分设为0

经验限度

相机可控性

越小越好

下限:0 (无偏差)

上限:在相机一直不动的情况下计算出来的偏差就是上限

物体可控性

越大越好

由于该指标使用物体检测率,上限1,下限0

3D一致性、风格一致性和光度一致性

越小越好

下限:0 (完全一致)

上限:完全随机图像对,使用Vfimamba插值生成视频,该视频的评分就是上限

运动平滑度

越小越好

下限:0 (完全平滑)

上限:选取一些视频,删除奇数帧,用双线性插值重建,代表经验最差

内容对齐、主观质量、运动准确度和运动幅度

越大越好

使用z-score rescaling,手动将性能分落在25-75之间

启发

image

  • 3D 模型在静态世界生成方面表现出色

  • 视频模型缺乏相机可控性

  • 最佳开源视频模型与闭源视频模型一样好

  • 运动平滑度和运动幅度之间存在权衡

  • 更大的运动不一定意味着更准确的运动定位

  • 视频模型在长序列生成和户外场景中表现较弱

  • T2V 模型比 I2V 模型更容易操纵

image