什么是GPT-4?完整指南
AI文本转图像服务会把我们所有人变成艺术家吗?
Arthur C. Clarke 的名言说:
“任何足够先进的技术都与魔法没有区别。”
这句话总让我感到有些费解。
它的常见解读带有一丝优越感,似乎暗示着其他人可能会把新技术看作魔法,而我们则不会。然而,真正令人惊叹的体验从来都不是从自身的角度出发去感受的。
你是否曾经使用过某个应用程序或设备,然后不禁惊呼:“这简直是魔法!”
嗯,其实我也没有。
但随后,OpenAI 发布了DALL·E 2文本到图像生成器进行测试,我现在真的感到困惑了。
简单来说,你只需要用自然语言描述你想要看到的画面。AI模型就会利用它的神经网络生成一些图像,就像一面充满魔力的镜子。
如果你可以看到世界上的任何东西,你会想看到什么?
和任何一个理智的人一样,我立刻就知道了自己的愿望是什么——根本无需多想。因为在心底,我们都知道,有一个共同的愿望。
我给出的提示是:克利奥帕特拉与马克·安东尼共同组建了一支摇滚乐队。
令人兴奋不已!
这项技术实在是太不可思议了,而且极易让人上瘾。
当然,AI生成的一些图像边缘略显粗糙,这也带有一些梦幻般的逻辑——你可能已经注意到,与图像一同生成的文本有时完全是天马行空的胡言乱语。但经过一些微调,OpenAI的DALL·E 2完全有潜力出现在马克(Mark)和克利奥帕特拉(Cleo)的首张专辑封面上。
现在,这引发了一些深刻的问题——
如果我是提出这个创意的人,那么我是否就是这幅作品的作者呢?写作提示是否会发展成为一种全新的艺术形式?未来的人们是否会通过这种方式来创作艺术、图像和电影?如果真是这样,那是不是意味着我们每个人都有可能成为艺术家?或者,人工智能会成为某种终极创造力的源泉,而人类则仅仅成为它所创造之物的策展者与见证者?
就我个人而言,我迫不及待地期待着这项技术能够变得更加成熟并普及开来。到目前为止,在AI梦境中探索是一种极为有趣的体验。但其他人对此持何种看法呢?
文本到图像生成器:机遇与挑战并存
我们开展了一项调查,旨在了解互联网用户、艺术家及AI爱好者对于AI与艺术关系的看法。
在调查过程中,我们向他们展示了一些图像,并询问他们能否区分这些绘画或照片是AI生成的还是人类创作的。
令人惊讶的是,一些使用OpenAI生成的图像竟然被多数投票者认为比真实绘画更加逼真!
调查结果显示,一幅80年代的超现实主义画作被68%的受访者误认为是人类作品,而使用DALL·E 2生成的图像则有73%的人认为是人造艺术品。
以下是我们的其他发现:
- 近67%的受访者认为,AI生成的图像同样可以视为一种艺术形式。
- 仅有9%的受访者表示能够轻松分辨图像是AI生成的还是艺术家创作的(值得一提的是,他们中的大多数人仍然判断错误)
- 根据调查反馈,生成式AI技术的最大优势在于能够轻松地将创意概念化,并为人们提供灵感来源。
- 同时,许多受访者也对AI可能被滥用以创建深度伪造内容表示担忧。
- 此外,一些受访者还担心,使用数据训练AI模型可能会使我们的偏见在算法中永久固化。
非常有趣的是,超过一半的受访者被误导,将AI创建的图像误认为是一幅真实的画作。然而,在某些例子中,识别任务要简单得多。例如,使用当前广受欢迎的Craiyon应用程序(之前被称为DALL·E mini,尽管它与OpenAI的项目既无官方认可也无联系)生成的图像,几乎没有骗过任何人,绝大多数受访者都能准确识别出它们是AI创作的。
原因其实不难理解。
人工智能生成的特定图像能否让我们信服,取决于诸多因素,包括场景的复杂度、提示的清晰度,以及所选AI模型的类型等。
AI文本到图像技术可以应用于多个领域:
- 创建插图和概念艺术
- 生成卡通角色设计
- 制作动画和漫画书模型表
- 制作逼真的油画和背景
- 设计徽标和书籍封面
- 生成库存照片和产品图片
- 为任何与视觉艺术相关的项目提供创意灵感
- 准备雕塑、建筑和室内设计的可视化效果
那么,这是否意味着专业艺术家将面临失业的危机呢?
答案并不绝对。
但是,那些在工作中需要执行上述任务的人,应当关注AI文本到图像工具的发展。他们中的一些人或许很快就能利用AI来让自己的工作变得更加轻松和高效。
然而,这也意味着将会涌现出一代新的艺术家和设计师,他们对创作过程有着截然不同的理解和方法。手动设计和绘制草图以及渲染图像可能不再像过去那样重要。相反,能够向生成式AI模型清晰描述自己所见所想,可能会成为就业市场上的一项高需求技能。
这项技术极具颠覆性,它可能会改变我们所熟知的整个创意产业。但与此同时,这也使得作者身份的问题变得更加扑朔迷离。毕竟,AI模型是通过学习现有作品来进行创作的!
因此,我们不禁要问:
“此图像受版权法保护,禁止用于训练AI模型”这样的声明,会成为新的行业规范吗?
或者,情况可能会截然相反——为了训练不同“风格”的AI模型而专门创作高质量的素描和绘画,可能会成为一个新的盈利行业。届时,用户将能够利用AI创建图像,并向艺术家支付使用其风格的许可费用。
使用DALL·E 2与其他生成式AI工具
站在用户的角度,利用文本到图像生成器创作图像可谓轻而易举。用户只需输入相应的提示——即对所期望图像内容的描述——然后点击按钮即可。接下来,AI生成器会全权处理,根据提示创建一个或多个图像。
当前,一些备受欢迎的AI艺术生成器借助Discord服务器,用户可以在其中将提示以普通消息的形式发送。用户只需在特定的频道中使用指定的命令,稍等片刻,Discord机器人便会生成图像并发布出来。
以下展示了几幅有趣的AI生成图像:
1. 拉着小提琴的猫
在前不久的一次实验中,我们尝试测试人工智能是否能创造出一只形象逼真的猫,这成为了我们主要的AI测试项目之一。而先前我们采用的技术在塑造自然姿态的猫方面并不尽如人意。
然而,在不经意间,新一代的工具应运而生,它们能够轻松应对常规描述以及更为复杂的场景。
众所周知,猫并不具备演奏乐器的习性(即便它们拥有这样的能力,通常也不会表现得十分出色)。对于生成式AI模型而言,如此非同寻常的场景理应构成不小的挑战,因为训练数据集中可能鲜有猫拉大提琴的参考图片。
让我们看看根据 Craiyon 应用程序演奏小提琴的猫是什么样子的。
它们当然算不上是获奖作品,但话说回来,从某种程度上看,猫似乎真的在演奏它们的“乐器”。
如今,OpenAI的DALL·E 2在这项任务上的表现更为出色。
猫是否真的具备演奏乐器的能力,这仍然是一个值得探讨的话题。但可以肯定的是,如今创建的图像质量已经有了显著提升。AI在准确呈现乐器形态方面确实遇到了一些挑战。
当尝试将猫与乐器相结合时,这些问题就变得更加突出了。由于小提琴的尺寸太小,无法容纳一只猫,所以我们不妨将乐器换成吉他来尝试。
在进行这些AI实验的过程中,没有猫在动物保护组织介入前受到任何伤害。
接下来,让我们尝试一些与狗相关的创作。
2. 埃隆·马斯克与小狗的趣味场景
多数公开可获取的文本到图像生成器在处理复杂提示时都显得力不从心。比如,如果我们想为一篇探讨埃隆·马斯克与加密货币的文章绘制一幅漫画,且希望漫画中的埃隆骑着一只柴犬,那么Craiyon可能就无法满足我们的需求了。
这确实有点效果,但图像的分辨率太低,无法清晰地辨认出是否是埃隆·马斯克。让我们尝试使用不同的提示来生成图像吧。
尽管渲染效果不是最佳,但我们确实成功地捕捉到了埃隆·马斯克的肖像特征。
接下来,让我们在DALL·E 2上尝试创作一幅新古典主义风格的油画:画面中,埃隆·马斯克(Elon Musk)身着拿破仑的装扮,骑着一只庞大的柴犬,穿越战场,展现出一种别样的气势。
我猜你在想——这家伙看起来一点也不像埃隆。
你的观察完全准确。
如果说这个AI有什么不擅长之处,那就是渲染名人肖像了。但这其实是出于有意的设计。该算法会对面部特征进行改动,以确保用户不会生成与真实人物高度相似的深度伪造图像。名人肖像是被严格限制的。
荷马·辛普森(Homer Simpson)或许还能保留几分自己的模样,但鲍里斯·约翰逊(Boris Johnson)就不会那么像他自己了。这也是为什么DALL·E mini更适合创作像“戈登·拉姆齐(Gordon Ramsay)将牛排扔进大型强子对撞机”这样的搞笑图片。
3. 动漫卡通和游戏角色
显而易见,某些应用程序在解读提示方面要比其他应用程序更为出色。比如,要求生成一个像猫一样抱着索尼克(Sonic the Hedgehog)的动漫男孩,这个任务就让大多数AI文本到图像引擎感到困惑。
以下是通过Discord平台使用Midjourney AI应用程序得到的结果。
这结果显然不尽如人意。索尼克的腿竟然变成了动漫男孩的手臂,他们看起来就像是误入了传送室并意外融合在了一起。
接下来,我们来看看OpenAI的DALL·E 2能否迎难而上,给出更好的表现。
尽管在区分两个角色时仍存在一些混淆,比如尖尖的蓝色头发等特征在两个角色之间有所混合,更不用说那只猫的形象也有些模糊。但总体来说,DALL·E 2给出的结果要比之前好得多。
4. 钩织娃娃和卡通人物的瓷俑
DALL·E 2在模仿纹理和材质方面展现出了极高的水准。它能够生成金属、木材、泥土、粘土或织物等材质制成的事物的逼真图像。此外,它还能创造出更具创意和不同寻常的组合,例如玻璃制成的动物或食物制成的角色,比如土豆做成的小黄人。
以下是一些以流行卡通人物为原型的钩针娃娃的示例。
这里有一些晚期巴洛克式瓷器小雕像,展示了另一个流行的卡通电视节目中的角色。
可以说,瓷器理应呈现出更加闪耀的光泽。我们能够通过在AI文本到图像的提示中添加更多细致的描述来尝试和调整这一点。接下来,我会给出一些更详细和精确描述的示例。
5. 利用AI技术创作朋克摇滚风格的动物形象
音乐似乎成了我们AI实验的核心主题。接下来,让我们尝试一些融入标志性外貌和服饰元素的提示。为了增添一丝激进感,我们将生成以动物为主体的AI图像。
一张采用F1.4光圈、50毫米焦距拍摄的高分辨率时尚照片,画面中的朋克摇滚猴子身着一件帅气的皮夹克,领口尖锐,头顶着标志性的莫霍克发型,尽显狂野不羁。
而且,接下来我们将展示AI技术是如何呈现朋克风格的鬣狗形象的。
低焦深与特定焦距能够拍摄出具有独特风格的照片。然而,我们也可以尝试运用不同的绘画技法。
以下是一些使用DALL·E 2创作的亚克力插画示例。
这些插画看起来十分酷炫,将它们转化为交易卡或NFT系列看似轻而易举。然而,OpenAI的内容政策明确规定,禁止使用DALL·E 2创建NFT艺术品。
那么,使用DALL-E 2生成器还有哪些其他的规定呢?
首先,您不能生成包含暴力、裸露或其他冒犯性、令人不适的视觉内容的图像。此类内容已被从训练数据中剔除,使用某些词汇也可能会导致您的请求被拒绝。例如,您不能在提示中使用“死亡”一词,即便它是固定短语或通用名称的一部分。正因如此,您无法从类似“小熊维尼以死亡金属专辑封面风格呈现”这样的提示中生成图像。您需要将其修改为“重金属”或“黑金属”,如“小熊维尼以黑色金属专辑封面插图风格展现”。
现在,让我们再次聚焦于我们最喜爱的动物。
6. 猫咪去健身房
您或许已经见过一张形似健美达人的“肌肉型无毛猫”的热门照片。然而,尝试利用AI文本到图像生成器重新创作类似的图片却异常艰难。不知为何,像“极度健壮”或“非常肌肉发达”这样的描述并不奏效。
尽管这些图像看起来极具真实感,并且OpenAI的应用能够根据提示捕捉到“在健身房”的场景,但猫咪的形象依然显得偏瘦。
对提示进行微调后,我们得到了一些颇为有趣的结果。
但这仍然不是你所期望的效果。
有趣的是,Midjourney应用程序产生了更多夸张(OTT)的图像。尽管此时已很难再将这些形象称作猫了。
结果虽略显不安,却也异常引人深思。Midjourney有时会创作出更具艺术感与新奇感的图像。在此过程中,尝试不同的提示无疑成为了一种艺术创作的手段。
迄今为止,我们已探索了众多不同的应用程序。但接下来,让我们逐一为它们命名,并学习如何利用文本到图像工具来创作自己的AI画作。
最好的文本到图像应用程序和 AI 图像生成器
对于那些想要了解图像生成领域的AI解决方案的人来说,很容易会感到迷茫。
首先,为何会有如此多的“DALL·E”变体?哪一个才是真正的正品呢?
DALL·E mini(现已更名为Craiyon)是当前最为流行且广泛传播的应用程序。如果你在社交媒体上见过那些奇特的模因,比如“布偶版《拯救大兵瑞恩》”之类的内容,那么它们很可能是用DALL·E mini创作的。而DALL·E FLOW则是另一个借用了这个名字的项目。
你知道吗?DALL·E这个名字是对皮克斯动画电影中的可爱机器人WALL·E以及超现实主义画家萨尔瓦多·达利的致敬。
DALL·E 2是由OpenAI开发的官方应用程序。它产生的效果最好,但访问权限有限。你可以加入候补名单,但可能需要等待数月才能收到邀请。
因此,目前用于图像生成的最佳和最广泛使用的 AI 工具是:
- DALL·E 2(OpenAI)
- Midjourney
- DALL·E Flow
- Craiyon(原名DALL·E mini)
以下是它们生成效果的比较:
让我们来详细了解一下它们中的每一个:
1. DALL·E 2(由 OpenAI 提供)
这是利用AI技术实现文本到图像渲染的尖端解决方案。您可以提交提示来生成多个结果,并从中选择您喜欢的选项。之后,您还可以生成该选项的其他变体。要创建变体,您甚至还可以上传自己的任意图像。
2. Midjourney
Midjourney是一个基于订阅的文本到图像应用程序,它运行在Discord服务器上。您可以通过它查看其他用户生成的图像,或者通过发送消息来提交自己的请求。整个操作过程十分直观便捷。大约花费200美元,您可以生成大约10张图像,这个价格相对合理。想象一下,您只需花费5美分,就能获得一个新颖且酷炫的海报设计!
3. DALL·E FLOW
这种AI文本到图像解决方案能够产生极具趣味性的结果,而且它是完全免费的。不过,遗憾的是,它的使用过程稍显复杂,因为您需要通过Colab笔记本自行初始化流程。这包括点击多个按钮、利用提示符修改命令,然后运行它。尽管这些步骤其实都非常简单,但对于初学者来说可能会显得有些令人生畏。
4. DALL·E mini
DALL-E mini并非由OpenAI开发。该名称被多个希望借其热度提升知名度的项目所采用。真正由OpenAI推出的产品并未广为人知,这让情况变得更加复杂。然而,尽管如此,DALL-E mini(现已更名为Craiyon)仍是最易用且在用户中传播最广的工具。您只需访问其网站,输入提示,大约1分钟后即可查看结果。而且,实事求是地说,这些结果可能非常有趣。
5. Imagen(由 Google 提供)
此外,Imagen是Google正在着手研发一项先进的解决方案,该方案结合了机器学习与扩散模型,以实现文本到图像的转换。然而,目前这款应用程序最难获取或亲身体验。据报道,其生成的图像质量与DALL·E 2不相上下。
当然——
但是,即使您选择了上述应用程序之一,掌握一些有效的提示技巧也会对您有所帮助。由于通常存在时间和生成次数的限制,因此从一开始就学会如何为生成式AI编写更优质的提示是很有意义的。如果您每天只能尝试有限数量的提示,那么应该确保每个提示都尽可能有价值。
如何为文本到图像生成器编写有效的文本提示呢?
关于如何为AI创建高效的提示,实际上并没有固定的规则。不同的生成式AI模型对文本的不同部分有不同的侧重。由于结果可能非常难以预测,因此最好的方法就是亲自尝试。
您可以尝试重新组织描述的部分,或者互换使用它们。此外,通过多次提及某个元素,您可以更加突出自己感兴趣的特定方面。
创建详细和描述性提示的最通用公式如下所示:
下面是一个示例:
看起来很逼真,你不是这么说吗?
AI生成的艺术:总结
显而易见,文本到图像工具正日益受到欢迎,这背后有着充分的理由。它们不仅充满乐趣,而且完全有可能创造出极佳的作品。
它们不仅充满乐趣,而且完全有可能创造出极佳的作品
值得庆幸的是,目前我们还没有必要为艺术的消亡而担忧。AI文本到图像生成器在创作逼真图像方面正不断进步。然而,在它们能够创作出与人类艺术作品相媲美的佳作之前,还有很长的路要走。
原文链接:https://www.tidio.com/blog/generative-ai-dall-e-examples/