纯模型精度测评

在本地环境加载模型与数据集，通过统一推理流程比对输出与参考答案，评估模型固有准确率。自定义批量大小、序列长度等参数，适用于Huggingface Transformers推理框架。

测试准备

在执行服务化推理前，需要满足以下条件：

可用的模型权重：确保本地已有需测试的模型权重文件，开源权重可从🔗 huggingface社区获取。
数据集任务准备：从📚 开源数据集中选择数据集，并且在数据集对应的"详细介绍"文档中选择要执行的数据集任务。参考选取的数据集任务对应的"详细介绍"文档准备好数据集文件，建议将开源数据集手动放置在默认目录 ais_bench/datasets/下，程序将在任务执行时自动加载数据集文件。
模型任务准备：从📚 本地模型后端中选择要执行的模型任务。