多模态奖励
用于评估多模态视觉问答(VQA)任务的奖励函数。
MultiModalAccuracyReward
评估多模态 VQA 答案的正确性,支持回退到符号数学验证。
from twinkle.reward import MultiModalAccuracyReward
reward_fn = MultiModalAccuracyReward()
rewards = reward_fn(generated_trajectories, ground_truth_trajectories)
# rewards: List[float], 1.0 表示正确, 0.0 表示错误
奖励函数的工作流程:
从补全文本中提取模型的答案
使用精确字符串匹配与真实答案比较
当字符串匹配失败时回退到
math_verify进行符号表达式比较
专为 CLEVR 等视觉推理任务设计,答案可能是数字、布尔值或短文本。