ms-swift 是由魔搭社区推出的一款大模型与多模态大模型微调部署框架。它支持超过 450 种大模型 和 150 种多模态大模型 的训练(包括预训练、微调、人类对齐)、推理、评测、量化与部署。支持的模型包括:
大模型:Qwen2.5、Llama3.3、GLM4、Internlm2.5、Yi1.5、Mistral、DeepSeek2.5、Baichuan2、Gemma2、TeleChat2 等。
多模态大模型:Qwen2-VL、Qwen2-Audio、Llama3.2-Vision、Llava、InternVL2.5、MiniCPM-V-2.6、GLM4v、Xcomposer2.5、Yi-VL、DeepSeek-VL2、Phi3.5-Vision、GOT-OCR2 等。
此外,ms-swift 集成了最新的训练技术,包括 LoRA、QLoRA、Llama-Pro、LongLoRA、GaLore、Q-GaLore、LoRA+、LISA、DoRA、FourierFt、ReFT、UnSloth 和 Liger 等。它还支持使用 vLLM 和 LMDeploy 对推理、评测和部署模块进行加速,并支持 GPTQ、AWQ、BNB 等量化技术。为了提升用户体验,ms-swift 提供了基于 Gradio 的 Web-UI 界面及丰富的最佳实践。
🍎 全面支持多种模型与硬件
模型类型:支持 400+ 纯文本大模型和 150+ 多模态大模型,覆盖从训练到部署的全流程。
数据集类型:内置 150+ 预训练、微调、人类对齐、多模态数据集,并支持自定义数据集。
硬件支持:兼容 CPU、RTX 系列、T4/V100、A10/A100/H100、Ascend NPU 等多种硬件。
🍊 高效训练与优化
轻量训练:支持 LoRA、QLoRA、DoRA、LoRA+、ReFT、RS-LoRA、LLaMAPro、Adapter、GaLore、Q-Galore、LISA、UnSloth、Liger-Kernel 等轻量微调技术。
分布式训练:支持分布式数据并行(DDP)、device_map 简易模型并行、DeepSpeed ZeRO2/ZeRO3、FSDP 等分布式训练技术。
量化训练:支持对 BNB、AWQ、GPTQ、AQLM、HQQ、EETQ 量化模型进行训练。
RLHF 训练:支持纯文本大模型和多模态大模型的 DPO、CPO、SimPO、ORPO、KTO、RM 等人类对齐训练方法。
🍓 多模态与界面化训练
多模态训练:支持图像、视频、语音等多模态模型的训练,涵盖 VQA、Caption、OCR、Grounding 等任务。
界面化操作:通过 Web-UI 界面提供训练、推理、评测、量化等功能,实现大模型全链路操作。
插件化与拓展:支持自定义模型和数据集,允许对 loss、metric、trainer、loss-scale、callback、optimizer 等组件进行灵活配置。
🍉 全流程工具箱能力
推理加速:支持 PyTorch、vLLM、LmDeploy 推理加速引擎,并提供 OpenAI 接口,显著提升推理、部署和评测效率。
模型评测:基于 EvalScope 评测后端,支持 100+ 评测数据集,适用于纯文本和多模态模型的全面评测。
模型量化:支持 AWQ、GPTQ 和 BNB 量化导出,导出的模型可继续训练或使用 vLLM/LmDeploy 加速推理。
如需了解更多详细信息,请访问 ms-swift 的官方文档:
ms-swift GitHub 文档
ms-swift 是一个功能强大且灵活的大模型与多模态大模型微调部署框架,适用于从研究到生产的全流程需求。无论是模型训练、推理加速,还是量化与部署,ms-swift 都提供了全面的支持,帮助研究者和开发者更高效地实现大模型的应用与优化。