基于LLM打造沉浸式3D世界
2025/02/20
利用大型语言模型(LLM)结合虚幻引擎,通过视觉-语言模型(VLMs)为3D模型生成自然语言描述,建立模型的语义信息,使其能够被LLM理解和处理。同时,借助场景级标注和多种策略建立文本描述与场景内实体的映射关系,帮助LLM理解3D场景。通过FunctionCall将LLM的输出转化为实际操作,实现自然语言指令对3D世界的交互,如移动物体或调整场景布局。这一研究展示了LLM在3D领域的巨大潜力,为自动驾驶、具身智能和3D生成等方向提供了新的思路和方法。