DeepSeek 第五天开源的 3FS 文件系统
2025/03/08
DeepSeek在其开源周的最后一天发布了支撑其V3/R1模型全生命周期数据访问需求的核心基础设施,包括Fire-Flyer File System(3FS)和构建于其上的Smallpond数据处理框架。3FS是一种并行文件系统,它充分利用现代SSD和RDMA网络的全带宽,在180节点集群上实现了6.6 TiB/s的聚合读取吞吐量,并在25节点集群的GraySort基准测试中达到3.66 TiB/分钟的吞吐量。3FS具有分离式架构、强一致性、文件接口等关键特性,并支持多样化工作负载,如数据准备、数据加载、检查点保存和推理KVCache。Smallpond是一个轻量级数据处理框架,建立在3FS之上,具有高性能、可扩展性和易用性特点,支持Python 3.8到3.12,可以通过pip安装。DeepSeek本周发布的技术栈还包括FlashMLA、DeepEP、DeepGEMM以及并行计算策略,展示了其在大模型技术领域的全面布局。