可灵AI Kolors 常用提示词与图片链接

快手在世界人工智能大会上宣布了其旗下的文生图大模型可图（Kolors）将全面开源。这一消息在技术界引起了广泛关注，因为Kolors被认为是能够与Midjourney-v6相媲美的模型，尤其在生成图像的质量和复杂文本的理解能力上表现出色。本文将深入探讨可灵AI Kolors的技术优势、应用案例和未来展望，帮助用户更好地理解和使用这一创新技术。

可图（Kolors）的技术优势

可图（Kolors）采用了先进的技术架构和训练策略，使其在复杂文本理解和图像生成方面表现卓越。与传统的文生图模型不同，Kolors引入了大语言模型进行文本表征，支持中英文双语输入，并能够处理长达256字符的提示词。

大模型助力复杂语义理解

Kolors使用了ChatGLM3作为文本编码器，相较于传统的CLIP模型，能够处理更长的文本提示词，这使得模型在理解复杂语义和多主体场景时表现突出。面对复杂提示词，Kolors能够准确绘制出多主体并保持颜色和位置的正确对应。

复杂语义理解能力

这种能力的提升得益于对海量训练数据的精细化打标，以及混合描述训练策略的应用，使得Kolors在中文和英文文字生成方面均具备领先优势。

训练策略优化展现摄影级美感

Kolors在训练过程中的两阶段策略，即概念学习和质量微调，使其在图像美感和质量上达到了国际先进水平。通过全新的加噪策略和数据筛选机制，Kolors能够在生成高分辨率图像时保持稳定性和美感。

图像质量对比

这种优化策略使得Kolors在人像、建筑、动物及其他风格化元素的生成上均表现出色，满足了多样化的用户需求。

模型评测与应用

快手团队为评估Kolors的能力，提出了一个新的文生图评测集合KolorsPrompts，涵盖了多个垂直领域。评测结果显示，Kolors在图像质量和图文相关性上优势显著。

KolorsPrompts评测

Kolors在各维度的评分均达到了高水平，尤其在综合满意度和图像质量上表现突出。这与智源的评估结果一致，显示出Kolors在开源和闭源模型中的竞争力。

KolorsPrompts评测结果

此外，采用快手CVPR2024提出的MPS机评指标进行的评估中，Kolors同样取得了最高分数，进一步验证了其性能的优越性。

应用案例精选

Kolors的大模型能力已经在快手的多个业务场景中得到了应用，包括AI玩评、主站魔表和快影等。可图大模型提供了多种风格的文生图和图生图功能，用户可以通过可灵AI官方网站或微信小程序免费使用。

应用实践 1：IP定制

通过Dreambooth & Lora实现的IP定制，Kolors可以为快手吉祥物小快和招财鸭等IP进行模型微调，生成个性化的IP形象。

IP定制案例

应用实践 2：AI人像

Kolors支持多种风格化人像生成，通过人像ID保持技术，用户可以生成风格多样的个人肖像，增加了应用的趣味性。

AI人像案例

应用实践 3：虚拟试衣

Kolors还展示了在开放域虚拟试穿中的技术可行性，生成千人千面的商品素材，为电商行业提供了新的解决方案。

虚拟试衣案例

未来展望

快手计划继续开源Kolors相关的应用，如ControlNet等，进一步丰富文生图领域的开源生态。随着开发者社区的参与，这一系列开源项目将为技术创新和应用场景的探索提供更多可能。

FAQ

问：Kolors模型在哪些平台可以获取？
- 答：Kolors模型可在Huggingface和GitHub平台上免费获取，用户可以下载模型权重和完整代码进行使用。
问：Kolors支持哪些语言的文本输入？
- 答：Kolors支持中英文双语的文本输入，最大字符长度为256字符。
问：如何使用Kolors进行IP定制？
- 答：通过使用Dreambooth & Lora等技术，用户可以对Kolors模型进行微调，实现个性化的IP形象定制。
问：Kolors在图像生成方面的优势是什么？
- 答：Kolors在图像美感、质量和复杂文本理解方面具有显著优势，能够生成高质量、高分辨率的图像。
问：如何体验Kolors的功能？
- 答：用户可以通过可灵AI官网或微信小程序体验Kolors的文生图和图生图功能，生成多风格的图像作品。