# 多模态奖励

用于评估多模态视觉问答（VQA）任务的奖励函数。

## MultiModalAccuracyReward

评估多模态 VQA 答案的正确性，支持回退到符号数学验证。

```python
from twinkle.reward import MultiModalAccuracyReward

reward_fn = MultiModalAccuracyReward()
rewards = reward_fn(generated_trajectories, ground_truth_trajectories)
# rewards: List[float], 1.0 表示正确, 0.0 表示错误
```

奖励函数的工作流程:
1. 从补全文本中提取模型的答案
2. 使用精确字符串匹配与真实答案比较
3. 当字符串匹配失败时回退到 `math_verify` 进行符号表达式比较

> 专为 CLEVR 等视觉推理任务设计，答案可能是数字、布尔值或短文本。