运行模式说明

精度评测场景

all 模式

在 all 模式下，评测工具会执行完整的推理 → 评估 → 汇总流程：

graph LR;
  A[基于给定数据集执行推理] --> B((推理结果))
  B --> C[基于推理结果进行评估]
  C --> D((精度数据))
  D --> E[基于精度数据生成汇总报告]
  E --> F((呈现结果))

命令示例：

ais_bench --models vllm_api_general --datasets gsm8k_gen --mode all

生成结构目录结构：

outputs/default/
├── 20250220_120000/        # 每个实验对应一个时间戳文件夹
├── 20250220_183030/
│   ├── configs/            # 已转储的配置文件（可包含多次实验的配置）
│   ├── logs/
│   │   ├── eval/           # 评估阶段日志
│   │   └── infer/          # 推理阶段日志
│   ├── predictions/        # 推理结果数据
│   ├── results/            # 每个任务的评估结果
│   └── summary/            # 单次实验的汇总报告
└── ...

infer模式

在 infer 模式下，仅执行推理阶段并保存输出结果：

graph LR;
  A[基于给定数据集执行推理] --> B((推理结果))

命令示例：

ais_bench --models vllm_api_general --datasets gsm8k_gen --mode infer

生成结构目录结构：

outputs/default/
├── 20250220_120000/
├── 20250220_183030/
│   ├── configs/
│   ├── logs/
│   │   └── infer/
│   └── predictions/        # 仅包含推理结果
└── ...

eval模式

在 eval 模式下，基于已有的推理结果执行评估与报告生成，需要使用 --reuse 参数：

graph LR;
  B((推理结果)) --> C[基于推理结果进行评估]
  C --> D((精度数据))
  D --> E[基于精度数据生成汇总报告]
  E --> F((呈现结果))

命令示例：

ais_bench --models vllm_api_general --datasets gsm8k_gen --mode eval --reuse

生成结构目录结构：

outputs/default/
├── 20250220_120000/
├── 20250220_183030/
│   ├── configs/
│   ├── logs/
│   │   ├── eval/           # 新增 eval 日志
│   │   └── infer/
│   ├── predictions/
│   └── results/            # 新增评估结果文件
└── ...

viz模式

在 viz 模式下，仅基于已有的精度数据生成并展示汇总报告，同样需使用 --reuse 参数：

graph LR;
  D((精度数据)) --> E[基于精度数据生成汇总报告]
  E --> F((呈现结果))

命令示例：

ais_bench --models vllm_api_general --datasets gsm8k_gen --mode viz --reuse

生成结构目录结构：

outputs/default/
├── 20250220_120000/
├── 20250220_183030/
│   ├── configs/
│   ├── logs/
│   │   ├── eval/
│   │   └── infer/
│   ├── predictions/
│   ├── results/
│   └── summary/            # 新增汇总报告（viz 输出）
└── ...

性能评测场景

perf模式

在 perf 模式下，评测工具会执行完整的性能采样 → 计算 → 汇总流程，并生成可视化报告：

graph LR;
  A[基于给定数据集执行推理] --> B((性能打点数据))
  B --> C[基于打点数据进行指标计算]
  C --> D((性能数据))
  D --> E[基于性能数据生成汇总报告]
  E --> F((呈现结果))

⚠️ 注意：性能评测场景下，--models 仅支持流式服务化推理 API（参考服务化推理API后端），例如 vllm_api_general_stream。

命令示例：

ais_bench --models vllm_api_general_stream --datasets synthetic_gen --mode perf

生成目录结构示例：

outputs/default/
├── 20200220_120000/
├── 20230220_183030/
│   ├── configs/
│   ├── logs/
│   │   └── performance/          # 性能测评日志
│   └── performance/              # 性能测评结果
│       └── vllm-api-general-stream/
│           ├── syntheticdataset.csv        # 单次推理请求性能数据
│           ├── syntheticdataset.json       # 端到端性能数据
│           ├── syntheticdataset_details.h5  # 完整打点中的ITL数据
│           ├── syntheticdataset_details.json  # 完整打点明细
│           └── syntheticdataset_plot.html     # 实时并发与请求可视化页面
└── ...

性能打点基于 syntheticdataset.csv 和 syntheticdataset.json。

perf_viz 模式

在 perf_viz 模式下，仅基于已有的性能数据生成并展示汇总报告，需要使用 --reuse 参数：

graph LR;
  D((性能数据)) --> E[基于性能数据生成汇总报告]
  E --> F((呈现结果))

命令示例：

ais_bench --models vllm_api_general_stream --datasets synthetic_gen --mode perf_viz --reuse

说明：perf_viz 将读取最近一次实验文件夹内的 syntheticdataset.csv 与 syntheticdataset.json，并根据性能指标介绍生成可视化结果。

性能测评结果参考：性能指标介绍