prompt

博主： mistyrain
发布时间：2025 年 11 月 20 日
236 次浏览
暂无评论
360字数
分类：默认分类

我有一个现实需求，我们在训练大模型，在训练完成后，我们需要将模型在各种测试集上进行推理，再根据推理结果计算各种评测指标，有的评测指标是按单行计算再总的计算平均，有的是所有行在一起计算平均，设计到各种指标，需要评测的key的位置也不尽相同，比如有的是key, 有的是key1.*.key2，有的甚至更多层嵌套，还设计到gt标签所在的位置。我们现在有实现好的推理流程框架，想要你帮我设计一个评测框架，这个项目将评测指标计算，文件处理，怎么进行单个指标并合并计算形成总指标，输出哪些指标等都全面包含并解耦（可能还有我没想到的方面），方便新的文件结构或者增加新的评测指标等。请仔细思考，帮我像一个python代码搭建方式，并给出我能够实现这个功能的正确无误的代码，确保代码正确，无bug。

最后修改：2025 年 11 月 20 日

如果觉得我的文章对你有用，请随意赞赏

发表评论取消回复
使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款

评论 *

私密评论

名称 *

🎲

邮箱 *

地址

prompt

发表评论取消回复
使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款

欢迎使用 Typecho

常用代码复用

新电脑配置

zotero通过ondrive进行同步--软链接方式

已经终止的GPU进程无法根据nvidia-smi命令的PID杀死的问题解决方案

欢迎使用 Typecho

prompt

zotero通过ondrive进行同步--软链接方式

常用代码复用

修复windows右下角网络连接图标显示小地球，onedrive无法正常同步的问题

prompt

发表评论 取消回复 使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款

prompt

发表评论取消回复
使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款