冬月小站

ms-swift

Feb 14, 2025
26
0

ms-swift 是什么?

ms-swift 是由魔搭社区推出的一款大模型与多模态大模型微调部署框架。它支持超过 450 种大模型150 种多模态大模型 的训练(包括预训练、微调、人类对齐)、推理、评测、量化与部署。支持的模型包括:

  • 大模型:Qwen2.5、Llama3.3、GLM4、Internlm2.5、Yi1.5、Mistral、DeepSeek2.5、Baichuan2、Gemma2、TeleChat2 等。

  • 多模态大模型:Qwen2-VL、Qwen2-Audio、Llama3.2-Vision、Llava、InternVL2.5、MiniCPM-V-2.6、GLM4v、Xcomposer2.5、Yi-VL、DeepSeek-VL2、Phi3.5-Vision、GOT-OCR2 等。

此外,ms-swift 集成了最新的训练技术,包括 LoRA、QLoRA、Llama-Pro、LongLoRA、GaLore、Q-GaLore、LoRA+、LISA、DoRA、FourierFt、ReFT、UnSlothLiger 等。它还支持使用 vLLMLMDeploy 对推理、评测和部署模块进行加速,并支持 GPTQ、AWQ、BNB 等量化技术。为了提升用户体验,ms-swift 提供了基于 Gradio 的 Web-UI 界面及丰富的最佳实践。


为什么选择 ms-swift?

  1. 🍎 全面支持多种模型与硬件

    • 模型类型:支持 400+ 纯文本大模型和 150+ 多模态大模型,覆盖从训练到部署的全流程。

    • 数据集类型:内置 150+ 预训练、微调、人类对齐、多模态数据集,并支持自定义数据集。

    • 硬件支持:兼容 CPU、RTX 系列、T4/V100、A10/A100/H100、Ascend NPU 等多种硬件。

  2. 🍊 高效训练与优化

    • 轻量训练:支持 LoRA、QLoRA、DoRA、LoRA+、ReFT、RS-LoRA、LLaMAPro、Adapter、GaLore、Q-Galore、LISA、UnSloth、Liger-Kernel 等轻量微调技术。

    • 分布式训练:支持分布式数据并行(DDP)、device_map 简易模型并行、DeepSpeed ZeRO2/ZeRO3、FSDP 等分布式训练技术。

    • 量化训练:支持对 BNB、AWQ、GPTQ、AQLM、HQQ、EETQ 量化模型进行训练。

    • RLHF 训练:支持纯文本大模型和多模态大模型的 DPO、CPO、SimPO、ORPO、KTO、RM 等人类对齐训练方法。

  3. 🍓 多模态与界面化训练

    • 多模态训练:支持图像、视频、语音等多模态模型的训练,涵盖 VQA、Caption、OCR、Grounding 等任务。

    • 界面化操作:通过 Web-UI 界面提供训练、推理、评测、量化等功能,实现大模型全链路操作。

    • 插件化与拓展:支持自定义模型和数据集,允许对 loss、metric、trainer、loss-scale、callback、optimizer 等组件进行灵活配置。

  4. 🍉 全流程工具箱能力

    • 推理加速:支持 PyTorch、vLLM、LmDeploy 推理加速引擎,并提供 OpenAI 接口,显著提升推理、部署和评测效率。

    • 模型评测:基于 EvalScope 评测后端,支持 100+ 评测数据集,适用于纯文本和多模态模型的全面评测。

    • 模型量化:支持 AWQ、GPTQ 和 BNB 量化导出,导出的模型可继续训练或使用 vLLM/LmDeploy 加速推理。


ms-swift 文档

如需了解更多详细信息,请访问 ms-swift 的官方文档:
ms-swift GitHub 文档


总结

ms-swift 是一个功能强大且灵活的大模型与多模态大模型微调部署框架,适用于从研究到生产的全流程需求。无论是模型训练、推理加速,还是量化与部署,ms-swift 都提供了全面的支持,帮助研究者和开发者更高效地实现大模型的应用与优化。