使用GPT输出JSON格式数据

OpenAI JSON

OpenAI的GPT接口与JSON输出

OpenAI近期在其GPT接口中引入了一个重要的功能，即支持以更加精确的JSON格式返回结果。这一改进解决了大语言模型在生成符合特定JSON格式时的局限性，通过return_format参数的使用，提升了格式化输出的可靠性。特别是在API接口中增加了{"type":"json_schema","json_schema":{...}}参数，使得输出能够完全匹配开发者提供的JSON模式。

JSON输出能力的提升

大多数语言模型在过去面临的一个挑战是无法可靠地输出JSON格式化内容。随着OpenAI在2023年11月开发者大会上的宣布，这一问题得到了解决。通过设置return_format={"type":"json_object"}参数，开发者可以确保模型输出符合JSON格式，而今天的改进则进一步允许模型根据特定的JSON模式输出。

JSON Output

JSON Format与JSON Schema的差异

对于大多数开发者来说，理解JSON Format和JSON Schema两种参数的差异是至关重要的。通过json_schema，开发者可以启用结构化输出，确保输出符合提供的JSON模式，而json_object则用于保证输出是有效的JSON格式。

参数应用场景

json_schema: 适用于需要严格控制输出结构的情况，尤其是当有明确的字段要求和数据类型时。
json_object: 适用于只需确保输出格式有效，而不需严格遵循特定结构的情况。

API支持场景

OpenAI的GPT接口中，JSON Schema可以在Response Format参数和Function Calling参数中设置，并通过strict参数控制输出是否严格匹配提供的Schema。

函数调用与响应格式

在函数调用中设置strict: true，能确保输出匹配提供的工具定义；而在响应格式中，使用json_schema选项，输出将严格匹配提供的JSON Schema。

大模型稳定输出JSON的意义

随着AI大语言模型的广泛应用，稳定的JSON输出对开发者来说至关重要。结构化的数据格式能够提升系统对接的效率和准确性。

动态生成交互页面

通过定义一套HTML代码逻辑，大模型可以根据用户输入动态生成交互页面，只需一次定义输出逻辑即可实现多样化的展示效果。

使用思维链推理

思维链是提升模型推理效果的重要技巧，通过步骤化地输出推理过程，可以大幅提升准确性。

解决方案：如何确保JSON格式的严格符合

方法一：严格的Prompt设计

在prompt中加入明确的指令，例如：“Ensure the output is a valid JSON object in a compact format without any additional explanations, escape characters, newline characters, or backslashes.”

方法二：代码层面的JSON订正

在生成每条新数据后进行JSON格式订正，使用while循环持续生成直到符合标准。

实现细节

订正json格式函数：通过正则表达式去除不可见字符、多余的空格和换行符，将单引号替换为双引号。
示例代码：

def clean_and_validate_json(output):
    # 去除不可见字符
    output = re.sub(r'[x00-x1Fx7F]', '', output)

    # 使用正则表达式去除多余的空格和换行符
    output = re.sub(r's+', ' ', output).strip()

    # 将单引号替换为双引号
    output = output.replace("'", '"')

    # 尝试修复常见的 JSON 格式问题
    # 确保 key 和 value 是用双引号括起来的
    output = re.sub(r'(w+)s*:s*([^",{}[]]+)', r'"1": "2"', output)

    try:
        json_obj = json.loads(output)
        if 'image_id' in json_obj and 'translations' in json_obj:
            for translation in json_obj['translations']:
                if 'text' not in translation or 'language' not in translation:
                    return None
            return json_obj
        else:
            return None
    except json.JSONDecodeError:
        return None

FAQ

问：如何确保GPT输出的JSON格式符合预期？
- 答：通过严格的prompt设置或代码层面的JSON格式订正，可确保符合预定的JSON模式。
问：JSON Schema与JSON Object的主要区别是什么？
- 答：JSON Schema用于严格控制输出结构，而JSON Object仅需确保输出格式有效。
问：在什么情况下使用json_schema参数？
- 答：当需要模型生成的JSON输出严格遵循特定结构或格式时使用json_schema。
问：如何处理JSON格式中的中文字符？
- 答：可以使用诸如iconv-lite之类的库将中文字符转换为UTF-8编码，避免解析错误。
问：如何利用思维链技术提高模型效果？
- 答：通过步骤化输出推理过程，利用思维链技术可以提高模型的推理准确性。