# HCCLCheckpointEngine 使用 HCCL 进行昇腾 NPU 间权重传输的检查点引擎。 ## 使用示例 ```python from twinkle.checkpoint_engine import HCCLCheckpointEngine engine = HCCLCheckpointEngine(bucket_size=512<<20) # 使用方式与 NCCLCheckpointEngine 相同 ``` ## 特性 - **NPU 优化**: 专为昇腾 NPU 优化的权重传输 - **高效通信**: 使用 HCCL 实现 NPU 间高速通信 - **兼容接口**: 与 NCCLCheckpointEngine 保持一致的接口 ## 适用场景 HCCLCheckpointEngine 专门用于昇腾 NPU 环境: - 使用华为昇腾 NPU 进行训练 - 需要在 NPU 间同步模型权重 - 大规模 NPU 集群部署 ## 环境变量 - `TWINKLE_CKPT_HCCL_META_TIMEOUT_S`: 控制 HCCL CheckpointEngine 元数据握手通道(ZMQ REQ/REP)的超时时间(秒)。 默认值为 `300`。该值应设置为大于 `0` 的整数。 > 在昇腾 NPU 环境中,HCCLCheckpointEngine 提供了与 NCCL 相当的性能。