DeepSeek-VL2 详细介绍
2025/03/13
DeepSeek-VL2是一个功能强大的视觉语言模型,通过DeepSeek-MoE架构和动态切图技术实现视觉能力升级。模型包含梗图解析、视觉定位、视觉故事生成等新能力,并提供3B到27B不同规模版本。训练采用三阶段流程和专家并行策略,实现高效训练。模型和论文已开源,可通过Hugging Face和GitHub下载。DeepSeek-VL2在测评中表现优异,支持动态分辨率图像、图表理解、图像代码生成、梗图识别、视觉grounding和视觉故事讲述等应用。该模型致力于提升视觉能力,推动模型感知和认知能力全方位提升。