我有一个现实需求,我们在训练大模型,在训练完成后,我们需要将模型在各种测试集上进行推理,再根据推理结果计算各种评测指标,有的评测指标是按单行计算再总的计算平均,有的是所有行在一起计算平均,设计到各种指标,需要评测的key的位置也不尽相同,比如有的是key, 有的是key1.*.key2,有的甚至更多层嵌套,还设计到gt标签所在的位置。我们现在有实现好的推理流程框架,想要你帮我设计一个评测框架,这个项目将评测指标计算,文件处理,怎么进行单个指标并合并计算形成总指标,输出哪些指标等都全面包含并解耦(可能还有我没想到的方面),方便新的文件结构或者增加新的评测指标等。请仔细思考,帮我像一个python代码搭建方式,并给出我能够实现这个功能的正确无误的代码,确保代码正确,无bug。
最后修改:2025 年 11 月 20 日
如果觉得我的文章对你有用,请随意赞赏