运行模式说明

精度评测场景

all 模式

在 all 模式下,评测工具会执行完整的推理 → 评估 → 汇总流程:

graph LR;
  A[基于给定数据集执行推理] --> B((推理结果))
  B --> C[基于推理结果进行评估]
  C --> D((精度数据))
  D --> E[基于精度数据生成汇总报告]
  E --> F((呈现结果))

命令示例:

ais_bench --models vllm_api_general --datasets gsm8k_gen --mode all

生成结构目录结构:

outputs/default/
├── 20250220_120000/        # 每个实验对应一个时间戳文件夹
├── 20250220_183030/
│   ├── configs/            # 已转储的配置文件(可包含多次实验的配置)   ├── logs/
│      ├── eval/           # 评估阶段日志      └── infer/          # 推理阶段日志   ├── predictions/        # 推理结果数据   ├── results/            # 每个任务的评估结果   └── summary/            # 单次实验的汇总报告
└── ...

infer模式

infer 模式下,仅执行推理阶段并保存输出结果:

graph LR;
  A[基于给定数据集执行推理] --> B((推理结果))

命令示例:

ais_bench --models vllm_api_general --datasets gsm8k_gen --mode infer

生成结构目录结构:

outputs/default/
├── 20250220_120000/
├── 20250220_183030/
│   ├── configs/
│   ├── logs/
│      └── infer/
│   └── predictions/        # 仅包含推理结果
└── ...

eval模式

eval 模式下,基于已有的推理结果执行评估与报告生成,需要使用 --reuse 参数:

graph LR;
  B((推理结果)) --> C[基于推理结果进行评估]
  C --> D((精度数据))
  D --> E[基于精度数据生成汇总报告]
  E --> F((呈现结果))

命令示例:

ais_bench --models vllm_api_general --datasets gsm8k_gen --mode eval --reuse

生成结构目录结构:

outputs/default/
├── 20250220_120000/
├── 20250220_183030/
│   ├── configs/
│   ├── logs/
│      ├── eval/           # 新增 eval 日志      └── infer/
│   ├── predictions/
│   └── results/            # 新增评估结果文件
└── ...

viz模式

viz 模式下,仅基于已有的精度数据生成并展示汇总报告,同样需使用 --reuse 参数:

graph LR;
  D((精度数据)) --> E[基于精度数据生成汇总报告]
  E --> F((呈现结果))

命令示例:

ais_bench --models vllm_api_general --datasets gsm8k_gen --mode viz --reuse

生成结构目录结构:

outputs/default/
├── 20250220_120000/
├── 20250220_183030/
│   ├── configs/
│   ├── logs/
│      ├── eval/
│      └── infer/
│   ├── predictions/
│   ├── results/
│   └── summary/            # 新增汇总报告(viz 输出)
└── ...

性能评测场景

perf模式

perf 模式下,评测工具会执行完整的性能采样 → 计算 → 汇总流程,并生成可视化报告

graph LR;
  A[基于给定数据集执行推理] --> B((性能打点数据))
  B --> C[基于打点数据进行指标计算]
  C --> D((性能数据))
  D --> E[基于性能数据生成汇总报告]
  E --> F((呈现结果))

⚠️ 注意: 性能评测场景下,--models 仅支持流式服务化推理 API(参考 服务化推理API后端),例如 vllm_api_general_stream

命令示例:

ais_bench --models vllm_api_general_stream --datasets synthetic_gen --mode perf

生成目录结构示例:

outputs/default/
├── 20200220_120000/
├── 20230220_183030/
│   ├── configs/
│   ├── logs/
│      └── performance/          # 性能测评日志   └── performance/              # 性能测评结果       └── vllm-api-general-stream/
│           ├── syntheticdataset.csv        # 单次推理请求性能数据           ├── syntheticdataset.json       # 端到端性能数据           ├── syntheticdataset_details.h5  # 完整打点中的ITL数据           ├── syntheticdataset_details.json  # 完整打点明细           └── syntheticdataset_plot.html     # 实时并发与请求可视化页面
└── ...
  • 性能打点基于 syntheticdataset.csvsyntheticdataset.json

perf_viz 模式

perf_viz 模式下,仅基于已有的性能数据生成并展示汇总报告,需要使用 --reuse 参数:

graph LR;
  D((性能数据)) --> E[基于性能数据生成汇总报告]
  E --> F((呈现结果))

命令示例:

ais_bench --models vllm_api_general_stream --datasets synthetic_gen --mode perf_viz --reuse

说明perf_viz 将读取最近一次实验文件夹内的 syntheticdataset.csvsyntheticdataset.json,并根据 性能指标介绍 生成可视化结果。

性能测评结果参考:性能指标介绍