支持的模型

Twinkle 支持任何兼容 HuggingFace Transformers 或 Megatron-LM 的模型。以下是经过测试的模型列表。

语言模型

模型系列 模型 ID 参数量 特性
Qwen 3.5 Qwen/Qwen3.5-0.6B ~ Qwen/Qwen3.5-235B-A22B 0.6B–235B MoE、思考模式
Qwen 2.5 Qwen/Qwen2.5-0.5B ~ Qwen/Qwen2.5-72B 0.5B–72B Dense
DeepSeek V4 deepseek-ai/DeepSeek-V4 685B MoE 自定义 DSML 编码
DeepSeek R1 deepseek-ai/DeepSeek-R1 685B MoE 推理
LLaMA 3 meta-llama/Llama-3.3-70B-Instruct 8B–70B Dense
Mistral mistralai/Mistral-7B-v0.3 7B Dense
Yi 01-ai/Yi-1.5-34B 6B–34B Dense
GLM-4 THUDM/glm-4-9b-chat 9B Dense
InternLM 2.5 internlm/internlm2_5-7b-chat 7B–20B Dense

视觉语言模型

模型系列 模型 ID 特性
Qwen 3.5 VL Qwen/Qwen3.5-VL-3B ~ Qwen/Qwen3.5-VL-72B 图片、视频
Qwen 2.5 VL Qwen/Qwen2.5-VL-7B-Instruct 图片、视频
InternVL 2.5 OpenGVLab/InternVL2_5-8B 图片

嵌入模型

模型系列 模型 ID 训练方法
Qwen3 Embedding Qwen/Qwen3-Embedding-0.6B InfoNCE 对比学习
GTE thenlper/gte-large-zh InfoNCE 对比学习

模型加载

from twinkle.model import TransformersModel

# 从 ModelScope 加载(ms:// 前缀)
model = TransformersModel(model_id='ms://Qwen/Qwen3.5-4B')

# 从 HuggingFace 加载(hf:// 前缀)
model = TransformersModel(model_id='hf://meta-llama/Llama-3.3-70B-Instruct')

# 本地路径
model = TransformersModel(model_id='/path/to/model')

框架支持

框架 类名 适用场景
Transformers TransformersModel 通用训练(SFT、RLHF、DPO)
Transformers + Multi-LoRA MultiLoraTransformersModel 多租户训练
Megatron-LM MegatronModel 大规模分布式预训练
Megatron + Multi-LoRA MultiLoraMegatronModel 大规模多租户

精度支持

模式 说明
bf16 BFloat16 混合精度(推荐 A100/H100)
fp16 Float16 混合精度(适用于旧 GPU)
fp8 FP8 精度(H100 + Transformer Engine)
no 全精度(仅用于调试)

并行策略

策略 配置键 说明
FSDP strategy=accelerate Accelerate 管理的 FSDP(默认)
原生 FSDP strategy=native_fsdp PyTorch 原生 FSDP
张量并行 tp_size 跨 GPU 切分层
流水线并行 pp_size 切分模型阶段
数据并行 dp_size 复制模型,切分数据
序列并行 sequence_parallel 切分长序列
专家并行 ep_size MoE 专家分布