用了3小时从0训练小GPT!
2025/03/13
MiniMind是一个开源项目,通过优化DeepSeek-V2和Llama3结构,使得个人电脑仅需2G显卡就能在3小时内训练出26M的小规模GPT模型。项目包含数据处理、预训练、微调等全部阶段,并支持混合专家(MoE)模型。MiniMind旨在降低大语言模型(LLM)的学习门槛,使每个人都能体验完整训练一个大模型的过程。项目还提供了在Ceval数据集上测试模型的代码,并实现了Openai-Api基本的chat接口,方便集成到第三方ChatUI使用。