Kling O1 图片模型评测：Kling 的首款 AI 图片生成器能否媲美其视频领域的辉煌？

Kling AI 在市场上已成为最强大的 AI 视频生成器之一，凭借其从简单文本提示生成高质量素材的能力，持续给创作者留下深刻印象。

现在，他们正通过推出 Kling O1 图像模型——他们首个专用的图像生成模型——来尝试新事物。关键问题是：Kling 在图像生成方面是否能像在视频生成方面一样出色？

我花了很多时间对 Kling O1 图像模型进行了广泛测试，现在我将分享我的发现。让我们来看看这个新模型带来了什么。

Kling O1 有何过人之处？

在深入我的详细测试之前，让我先快速预览一下我认为 Kling O1 最令人印象深刻的功能：

Kling O1 图像模型最大的优势之一是它能够结合多个参考图像，同时极好地保留每个来源的原始特征。

与其他许多在混合多张图像时会模糊细节的模型不同，Kling O1 以令人印象深刻的准确性保持了每个元素的独特特征。

无论是调整图像的特定区域还是修改特定的元素，该模型都能准确理解编辑指令。

它构建于强大的多模态视觉语言概念之上，使图像编辑感觉就像与设计师对话一样自然。

为了正确评估 Kling O1 的能力，我专注于两个主要的测试场景，以揭示其优势和潜在的弱点：

第一个测试旨在评估 Kling O1 能否同时处理多张参考图像，并生成一幅连贯的作品，且保留每张源图像的特征。

我使用了四张图片：

然后我提供了以下提示：

请生成一张图片，其中包含图 1 中的女孩，她抱着图 2 中的狗，背景是图 3，并将图 4 的色调和风格应用于整个照片。

这是我得到的结果：

从生成的结果可以看出，Kling O1 完美地遵循了指令，即使在同时处理来自四张图片的内容时也是如此。没有出现混乱或偏离提示的情况，其强大的多图像处理能力确实令我惊讶。

然而，我认为这张照片的真实感还有待提高。尽管主体和背景具有相同的色调，但仍然给人一种有些不和谐和不自然的感觉。

除了融合场景和主体之外，我还测试了风格和材质的应用。

我使用了这两张图片：

并将提示设置为：

将图 1 中的主体转换为逼真的人，围巾使用图 2 的纹理和材质。

Kling O1 给出的最终图像：

最终结果表明，Kling O1 在风格转换和材质替换方面表现相当不错。

不过，也存在一些小问题：围巾在主体胸部多出了一个部分，领结消失了。这类图像中的逻辑不一致性会影响其整体真实性。

第二个测试侧重于评估 Kling O1 基于单个参考图像进行精确、增量修改的能力。

这将揭示该模型是否能够在不降低质量或丢失上下文的情况下处理复杂的编辑工作流程。

在下表中，您可以并排比较 Kling O1 在此测试中的表现：

参考图像	提示与结果 1	提示与结果 2
	将时间改为晚上，带有来自顶灯的温暖室内光线。其他所有内容保持不变。	将咖啡杯换成一本书。女子现在应该在阅读，而不是看窗外。保持相同的面部特征、服装和背景。
提示与结果 3	提示与结果 4	提示与结果 5
通过窗户添加小雨。调整窗户的反射，显示雨滴。不要修改室内场景或人物。	将她的休闲装改为商务正装——西装外套和正装衬衫。保持她的姿势、面部特征和整个背景场景不变。	在背景中添加另一个人——一个在柜台后工作的咖啡师。保持相同的光线、时间和其他现有元素。