纯模型精度测评

在本地环境加载模型与数据集,通过统一推理流程比对输出与参考答案,评估模型固有准确率。自定义批量大小、序列长度等参数,适用于Huggingface Transformers推理框架。

测试准备

在执行服务化推理前,需要满足以下条件:

  • 可用的模型权重:确保本地已有需测试的模型权重文件,开源权重可从🔗 huggingface社区获取。

  • 数据集任务准备:从📚 开源数据集中选择数据集,并且在数据集对应的"详细介绍"文档中选择要执行的数据集任务。参考选取的数据集任务对应的"详细介绍"文档准备好数据集文件,建议将开源数据集手动放置在默认目录 ais_bench/datasets/下,程序将在任务执行时自动加载数据集文件。

  • 模型任务准备:从📚 本地模型后端中选择要执行的模型任务。

主要功能

纯模型精度测评场景下主要功能与服务化精度测评场景相似。

纯模型多任务测评

参考服务化精度多任务测评使用方法

纯模型多任务并行测评

参考服务化精度多任务并行测评使用方法

⚠️ 注意:纯模型精度测评多任务并行会占用不同GPU单元,并行任务所需的GPU单元应小于等于可使用的GPU总数。

纯模型中断续测

在纯模型精度测评过程中,如遇任务中断,可通过 --reuse 参数指定任务时间戳目录,继续未完成的推理任务,实现断点续测。该功能无需重复运行全部任务,仅对未完成部分进行补充推理。使用详情可参考服务化精度中断续测使用方法

⚠️ 注意,纯模型精度测评当前不支持失败用例自动重测。

纯模型合并子数据集推理

参考服务化精度合并子数据集推理使用方法

其他功能

纯模型推理结果重评估

参考服务化精度推理结果重评估使用方法