支持的模型

Twinkle 支持任何兼容 HuggingFace Transformers 或 Megatron-LM 的模型。以下是经过测试的模型列表。

语言模型

模型系列	模型 ID	参数量	特性
Qwen 3.5	`Qwen/Qwen3.5-0.6B` ~ `Qwen/Qwen3.5-235B-A22B`	0.6B–235B	MoE、思考模式
Qwen 2.5	`Qwen/Qwen2.5-0.5B` ~ `Qwen/Qwen2.5-72B`	0.5B–72B	Dense
DeepSeek V4	`deepseek-ai/DeepSeek-V4`	685B MoE	自定义 DSML 编码
DeepSeek R1	`deepseek-ai/DeepSeek-R1`	685B MoE	推理
LLaMA 3	`meta-llama/Llama-3.3-70B-Instruct`	8B–70B	Dense
Mistral	`mistralai/Mistral-7B-v0.3`	7B	Dense
Yi	`01-ai/Yi-1.5-34B`	6B–34B	Dense
GLM-4	`THUDM/glm-4-9b-chat`	9B	Dense
InternLM 2.5	`internlm/internlm2_5-7b-chat`	7B–20B	Dense

视觉语言模型

模型系列	模型 ID	特性
Qwen 3.5 VL	`Qwen/Qwen3.5-VL-3B` ~ `Qwen/Qwen3.5-VL-72B`	图片、视频
Qwen 2.5 VL	`Qwen/Qwen2.5-VL-7B-Instruct`	图片、视频
InternVL 2.5	`OpenGVLab/InternVL2_5-8B`	图片

嵌入模型

模型系列	模型 ID	训练方法
Qwen3 Embedding	`Qwen/Qwen3-Embedding-0.6B`	InfoNCE 对比学习
GTE	`thenlper/gte-large-zh`	InfoNCE 对比学习

模型加载

from twinkle.model import TransformersModel

# 从 ModelScope 加载（ms:// 前缀）
model = TransformersModel(model_id='ms://Qwen/Qwen3.5-4B')

# 从 HuggingFace 加载（hf:// 前缀）
model = TransformersModel(model_id='hf://meta-llama/Llama-3.3-70B-Instruct')

# 本地路径
model = TransformersModel(model_id='/path/to/model')

框架支持

框架	类名	适用场景
Transformers	`TransformersModel`	通用训练（SFT、RLHF、DPO）
Transformers + Multi-LoRA	`MultiLoraTransformersModel`	多租户训练
Megatron-LM	`MegatronModel`	大规模分布式预训练
Megatron + Multi-LoRA	`MultiLoraMegatronModel`	大规模多租户

精度支持

模式	说明
`bf16`	BFloat16 混合精度（推荐 A100/H100）
`fp16`	Float16 混合精度（适用于旧 GPU）
`fp8`	FP8 精度（H100 + Transformer Engine）
`no`	全精度（仅用于调试）

并行策略

策略	配置键	说明
FSDP	`strategy=accelerate`	Accelerate 管理的 FSDP（默认）
原生 FSDP	`strategy=native_fsdp`	PyTorch 原生 FSDP
张量并行	`tp_size`	跨 GPU 切分层
流水线并行	`pp_size`	切分模型阶段
数据并行	`dp_size`	复制模型，切分数据
序列并行	`sequence_parallel`	切分长序列
专家并行	`ep_size`	MoE 专家分布