Uni-1 是全球首个能够生成像素的多模态推理模型。由 Luma Labs 基于统一智能架构打造,它弥合了语言理解与视觉创作之间的鸿沟——在同一个统一架构中实现推理、想象和生成。体验下一代 AI 图像生成技术。
在人类偏好 Elo 评测中,综合表现、风格与编辑、参考引导生成均排名第一
Uni-1 代表了 AI 的范式转变。与将语言和视觉分离的传统模型不同,它从逻辑大脑中生长出心灵之眼——在单一的纯解码器自回归 Transformer 中联合建模时间、空间和逻辑,实现了碎片化流程根本无法企及的视觉推理和图像生成能力。
Uni-1 的核心是纯解码器自回归 Transformer,文本和图像在单一交错序列中表示。这种统一设计使其能够无缝跨模态推理——这是将语言和视觉视为独立系统的模型所不具备的根本优势。
Uni-1 在图像合成之前和过程中执行结构化推理。当你给它一个复杂提示时,它会分解指令、解析空间约束、规划构图,然后相应地渲染——在推理驱动视觉编辑的 RISEBench 基准测试中取得了领先成绩。
Uni-1 证明了学习生成图像能够显著提升视觉理解能力。它在开放词汇目标检测(ODinW-13)等细粒度任务上表现优异,表明在统一框架中生成和理解相互增强。
Uni-1 在单一交错序列中处理文本和图像——同时作为输入和输出。它可以同时接受文本提示、参考图像和编辑指令,生成反映对每个输入元素深度理解的像素级精确结果。
Uni-1 在多个评测维度超越竞争对手。在人类偏好 Elo 排名中,它在综合质量、风格与编辑以及参考引导生成三个维度均获得第一,文本生成图像排名第二。以下是它成为智能图像生成首选的核心原因。
Uni-1 提供全面的 AI 图像生成能力套件——全部由单一统一 Transformer 模型驱动。每一项功能都受益于推理优先的架构设计。
从文本描述生成令人惊艳的图像。推理引擎自动规划场景构图、空间布局、光照和透视,然后渲染每一个像素。
使用自然语言编辑图像。Uni-1 会将复杂编辑分解为逻辑步骤——精确修改需要改变的部分,同时完整保留其余内容。
提供最多 8 张参考图像来引导生成。身份、风格和构图约束在所有参考图像间得到保持,实现强大的创意工作流。
Uni-1 理解三维空间、对象关系和物理合理性。以正确的透视、深度和遮挡放置对象——每次都创建空间一致的场景。
生成能力增强了视觉理解。能够在多种视觉领域中以细粒度精度识别、定位和推理对象、区域和布局。
在不同艺术风格间无缝转换——从写实到水彩,从漫画到油画。在保持主体身份的同时,以文化感知能力采用任何目标美学。
关于 Luma Labs 多模态推理模型 Uni-1 的一切你需要了解的信息。