# 支持的模型 Twinkle 支持任何兼容 HuggingFace Transformers 或 Megatron-LM 的模型。以下是经过测试的模型列表。 ## 语言模型 | 模型系列 | 模型 ID | 参数量 | 特性 | |:---------|:--------|:-------|:-----| | Qwen 3.5 | `Qwen/Qwen3.5-0.6B` ~ `Qwen/Qwen3.5-235B-A22B` | 0.6B–235B | MoE、思考模式 | | Qwen 2.5 | `Qwen/Qwen2.5-0.5B` ~ `Qwen/Qwen2.5-72B` | 0.5B–72B | Dense | | DeepSeek V4 | `deepseek-ai/DeepSeek-V4` | 685B MoE | 自定义 DSML 编码 | | DeepSeek R1 | `deepseek-ai/DeepSeek-R1` | 685B MoE | 推理 | | LLaMA 3 | `meta-llama/Llama-3.3-70B-Instruct` | 8B–70B | Dense | | Mistral | `mistralai/Mistral-7B-v0.3` | 7B | Dense | | Yi | `01-ai/Yi-1.5-34B` | 6B–34B | Dense | | GLM-4 | `THUDM/glm-4-9b-chat` | 9B | Dense | | InternLM 2.5 | `internlm/internlm2_5-7b-chat` | 7B–20B | Dense | ## 视觉语言模型 | 模型系列 | 模型 ID | 特性 | |:---------|:--------|:-----| | Qwen 3.5 VL | `Qwen/Qwen3.5-VL-3B` ~ `Qwen/Qwen3.5-VL-72B` | 图片、视频 | | Qwen 2.5 VL | `Qwen/Qwen2.5-VL-7B-Instruct` | 图片、视频 | | InternVL 2.5 | `OpenGVLab/InternVL2_5-8B` | 图片 | ## 嵌入模型 | 模型系列 | 模型 ID | 训练方法 | |:---------|:--------|:---------| | Qwen3 Embedding | `Qwen/Qwen3-Embedding-0.6B` | InfoNCE 对比学习 | | GTE | `thenlper/gte-large-zh` | InfoNCE 对比学习 | ## 模型加载 ```python from twinkle.model import TransformersModel # 从 ModelScope 加载(ms:// 前缀) model = TransformersModel(model_id='ms://Qwen/Qwen3.5-4B') # 从 HuggingFace 加载(hf:// 前缀) model = TransformersModel(model_id='hf://meta-llama/Llama-3.3-70B-Instruct') # 本地路径 model = TransformersModel(model_id='/path/to/model') ``` ## 框架支持 | 框架 | 类名 | 适用场景 | |:-----|:-----|:---------| | Transformers | `TransformersModel` | 通用训练(SFT、RLHF、DPO)| | Transformers + Multi-LoRA | `MultiLoraTransformersModel` | 多租户训练 | | Megatron-LM | `MegatronModel` | 大规模分布式预训练 | | Megatron + Multi-LoRA | `MultiLoraMegatronModel` | 大规模多租户 | ## 精度支持 | 模式 | 说明 | |:-----|:-----| | `bf16` | BFloat16 混合精度(推荐 A100/H100)| | `fp16` | Float16 混合精度(适用于旧 GPU)| | `fp8` | FP8 精度(H100 + Transformer Engine)| | `no` | 全精度(仅用于调试)| ## 并行策略 | 策略 | 配置键 | 说明 | |:-----|:-------|:-----| | FSDP | `strategy=accelerate` | Accelerate 管理的 FSDP(默认)| | 原生 FSDP | `strategy=native_fsdp` | PyTorch 原生 FSDP | | 张量并行 | `tp_size` | 跨 GPU 切分层 | | 流水线并行 | `pp_size` | 切分模型阶段 | | 数据并行 | `dp_size` | 复制模型,切分数据 | | 序列并行 | `sequence_parallel` | 切分长序列 | | 专家并行 | `ep_size` | MoE 专家分布 |