
如何调用 Minimax 的 API
7月6日,快手在世界人工智能大会上宣布其最新的文生图大模型可图(Kolors)全面开源,这一举动引起了广泛关注。可图(Kolors)不仅在技术上与Midjourney-v6水平相当,而且在中文支持和长文本输入方面具有显著优势。这一重大突破将为AI研究领域注入新的活力,也为开发者提供了丰富的资源和工具。本篇文章将深入探讨可图(Kolors)的技术优势、模型评测、应用案例及未来展望。
可图(Kolors)采用了大语言模型ChatGLM3进行中英文文本表征,与传统CLIP模型相比,文本提示词长度可达256字符。这使得可图(Kolors)能够更好地理解复杂长文本,并在多主体绘制和颜色对应等方面表现出色。在面对DALL-E 3的经典提示文本时,Kolors能正确画出如小贩、女子等多主体,并精确展现满月、电话等元素。
Kolors的另一大亮点是其中文写字能力。团队构建了包含五万余个常用汉字的数据集,使Kolors成为第一个原生支持中文文字生成的文生图模型。其在生成简单甚至复杂汉字时,能够保持文字与背景的自然贴合。同时,Kolors也支持英文文字生成,展现出独特的设计美学与创意。
Kolors的出色表现得益于其创新的训练策略。模型训练分为概念学习和质量微调两个阶段。在质量微调阶段,Kolors通过精细的数据筛选机制,选取高质量与美感兼具的图像进行训练,使得模型生成的图像质量和美感达到国际领先水平。
Kolors在快手提出的KolorsPrompts评测集合中表现卓越,涵盖14个垂类和12个挑战项。通过专业评测人员的打分,Kolors在综合满意度和图像质量上达到了Midjourney-v6水平,并在图文相关性上表现出色。
此外,采用MPS (Multi-dimensional Human preference Score)机评指标,Kolors也取得了最高的MPS分数,验证了其出色的生成能力。
通过Dreambooth & Lora实现模型微调和IP定制,Kolors已被应用于快手吉祥物小快和招财鸭等IP的定制化开发。
Kolors支持多种风格化人像生成,保持人像ID一致性,增加了玩法的趣味性。
Kolors在开放域虚拟试穿中展示了其业务落地的技术可行性,有望实现千人千面的商品素材生成。
Kolors的开源不仅为开发者提供了丰富的资源,还计划陆续开源相关应用,如ControlNet等。这将为开源社区带来更多创新和探索机会,进一步推动文生图技术的进步。
install.sh
或 setup.py
),按照提示完成安装过程。Kolors可图大模型的开源与中文支持的完善,预示着其将在智能问答、情感分析、文本生成等任务中展现卓越性能。同时,随着开发者的积极参与,其应用场景将进一步拓展,为智能教育、医疗健康等领域带来变革与机遇。
Kolors可图大模型的开源及其中文支持功能的推出,为AI技术的发展注入了新的活力。期待更多开发者参与其中,共同推动AI事业的繁荣发展。
问:如何安装Kolors可图大模型?
问:Kolors可图大模型有哪些应用场景?
问:Kolors可图大模型的开源对开发者有哪些帮助?
问:Kolors可图大模型支持哪些语言?
问:如何利用Kolors进行模型微调?