LLM内容创作能力评估

我正在做一个项目，需要我找出最适合内容创作的 LLM。我查看了 lmsys 排行榜上的顶级模型，阅读了其他人对这些模型的评价，查看了顶级 LLM 的模型卡，在没有明确答案的情况下，我决定对所有这些 LLM 进行测试，以完成不同的内容创作任务。

1、要评估的模型

我想评估的模型（考虑到它们的成本、易用性和 lmsys 排行榜上的排名）：

Llama-3–70b
Mixtral-8x7B
Gemini 1.5 Pro
Claude 3 Sonnet

以下是我所做的……

首先，我将内容创作领域分为 5 个不同的用例：

博客写作
电子邮件写作
文案写作——包括广告、搜索引擎优化、网站、技术和社交媒体
脚本写作
内容摘要

在每个用例中，我创建了多个类别，这些类别要么是子用例，要么是该用例流程的步骤。

每个用例如下所示：

2、简单的评估框架

GPT-4 Turbo 将作为第一位评委，根据我根据用例编写的评估提示，对每个答案进行满分 10 分的评分。

我自己担任第二位评委。

每位评委将对答案进行满分 10 分的评分

最终得分是 2 个分数的平均值。

3、制作和策划提示

在扩展每个用例的类别后，我必须仔细制作将提供给每个 LLM 的提示。不仅仅是创作提示，我知道如果我是唯一一个评估这些 LLM 答案的人，那将是非常有偏见和不可靠的，所以我与最好的 LLM gpt-04-turbo 联手。

现在，将会有，

每个类别的创建提示
每个类别的评估提示

其中评估将由另一个 LLM 完成，我知道这听起来很奇怪，但像 MT-Bench 这样的基准（请注意，这次评估与 MT-Bench 相差甚远）也使用强大的 LLM 作为评委来自动化评估过程。

为了策划创作提示，我使用了提示工程技术，例如人员采用、清晰的说明、思考时间和分隔的参考文本。

例如，

社交媒体文案提示：假设你是一家精品咖啡店的社交媒体经理，这家咖啡店以使用公平贸易的有机咖啡豆而自豪。你的目标是吸引经常光顾咖啡店作为社交中心的年轻时尚受众。制作一系列社交媒体帖子：— 用生动的视觉效果和诱人的描述介绍一种新的季节性混合咖啡。— 宣传即将举行的现场音乐晚会，突出舒适的氛围和优质的咖啡。— 分享客户对他们最喜欢的咖啡和学习场所的评价。确保每篇帖子都引人入胜，使用对话语气，并包含可提高知名度和推动互动的主题标签。

评估提示也使用了类似的技术和框架进行评估。我将每个评估标准分为 5 个部分，每个部分价值 2 分，部分满足标准则进行部分评分。

示例：

社交媒体文案响应评估提示：你是专业的文案撰稿人和编辑。根据以下标准对以下社交媒体文案（下面用三重引号分隔）进行 10 分制评分，其中每个点有 2 分，如果大纲未能完全捕捉到该元素，则给 0 分，如果大纲部分涵盖该元素，则给 1 分，如果大纲完全涵盖该标准的所有本质，则给 2 分：评估社交媒体文案的以下元素：— 相关性：内容是否与当前趋势、热门标签和受众兴趣一致？— 对话语气：文案是否使用友好、随意的语气，引起社交媒体用户的共鸣？— 视觉冲击：文案是否提到使用引人入胜的视觉效果（例如图像、视频或 GIF）来提高参与度？ — 简洁性：文案是否简短、简洁，一目了然？ — 可分享性：内容是否以鼓励点赞、分享和评论的方式制作，以扩大影响力？ “””{text}”””

所有 22 个类别都进行了此项测试。