OpenClaw模型选型与稳定性验证方案-题库设计

1. 说明

本文档用于沉淀首轮自动化验证题库设计。

设计原则如下:

  • 首轮题库面向 openclaw HTTP 接口可直接覆盖的场景
  • 飞书用户态授权类任务不进入首轮自动化主题库
  • 题库优先覆盖可支撑选型结论、容量结论和后续路由评估的核心场景
  • 题库中的时间表达优先使用相对时间,执行时再渲染为固定测试日期
  • 评分采用“程序强判 + 规则判定 + AI 初评 + 人工抽检”的组合方式

2. 分组

A组:高频数据查询

题目

  • A-01 查询 福州奥体店 昨天的业绩表现
  • A-02 查询 宁波奉化店 最近一周的销售情况
  • A-03 查询 9163门店 当前生效的促销活动列表
  • A-04 查询 9163门店 商品 656365 的线上库存信息
  • A-05 获取用户 183961280329163门店 最近一笔订单详情

其他细项

  • 设计目标:验证高频、短平快、强查询依赖场景下的时延、稳定性和结果完整性
  • 适用实验组:G1 / G3 / G4
  • 主评分项:TTFT、总耗时、最终成功/失败、是否超时、最终错误信息、关键字段完整性、回答准确性、回答完整性
  • 评分方式:
    • 程序强判:TTFT、总耗时、最终成功/失败、是否超时、最终错误信息
    • 规则判定优先:关键字段完整性
    • AI 初评 + 人工抽检:回答准确性、回答完整性
  • 组内评分权重:
    • 时延表现:30%
    • 稳定性表现:30%
    • 结果质量:30%
    • 可执行性:10%
  • 规则判定表达式要求:支持 AND / OR / NOT / ()
  • 规则表达式示意:AND(包含业务对象, 包含时间范围, OR(包含查询结果, 包含限制说明), NOT(编造具体结果))
  • 结论支撑范围:高频查询场景主模型判断、高频查询场景主渠道判断、高峰期 key 稳定性判断
  • 后续可评估路由方向:高频查询是否优先走低 TTFT 模型、高峰时段是否切换到更稳的 key 池

B组:知识问答

题目

  • B-01 永辉定制怎么理解
  • B-02 接下来永辉商品的发展方向是什么
  • B-03 永辉的企业文化是什么
  • B-04 干部六要素是什么
  • B-05 永辉的使命是什么

其他细项

  • 设计目标:验证知识检索、解释说明和长回答质量
  • 适用实验组:G1 / G2
  • 主评分项:TTFT、总耗时、最终成功/失败、回答准确性、回答完整性、可读性、业务可用性
  • 评分方式:
    • 程序强判:TTFT、总耗时、最终成功/失败
    • AI 初评:回答准确性、回答完整性、可读性、业务可用性
    • 人工抽检:失败样本、边界样本、关键结论样本
  • 组内评分权重:
    • 时延表现:20%
    • 稳定性表现:15%
    • 结果质量:55%
    • 可执行性:10%
  • 规则判定表达式要求:支持 AND / OR / NOT / ()
  • 规则表达式示意:AND(包含主题定义, OR(包含关键要点, 包含结构化分点), NOT(明显跑题))
  • 结论支撑范围:知识问答主模型判断、长回答质量判断、知识场景渠道稳定性判断
  • 后续可评估路由方向:知识问答是否路由到回答质量更高的模型、是否接受略高时延换更高回答质量

C组:结构化分析与汇总

题目

  • C-01 输出 华南中心 肉禽蛋商行3月1日3月25日 的销售表现,不用按大区拆分,并做简要分析
  • C-02 汇总 宁波奉化店 1月+2月 的销售数据和盈利情况,并输出结构化结果
  • C-03 将文件 安徽大区电商4月销售目标分解表 从横向结构改为纵向结构,并说明输出字段
  • C-04 基于 安徽大区电商4月销售目标分解表 生成门店月度目标汇总版,并输出汇总说明
  • C-05 基于给定门店经营数据,输出门店经营情况的结构化总结,至少包含核心指标、变化情况和简要结论

其他细项

  • 设计目标:验证总结分析、结构化输出、表格处理和长输出稳定性
  • 适用实验组:G1 / G2 / G3 / G4
  • 主评分项:TTFT、总耗时、最终成功/失败、是否超时、输出结构符合度、关键字段完整性、回答准确性、回答完整性、业务可用性
  • 评分方式:
    • 程序强判:TTFT、总耗时、最终成功/失败、是否超时
    • 规则判定优先:输出结构符合度、关键字段完整性
    • AI 初评 + 人工抽检:回答准确性、回答完整性、业务可用性
  • 组内评分权重:
    • 时延表现:15%
    • 稳定性表现:20%
    • 结果质量:45%
    • 可执行性:20%
  • 规则判定表达式要求:支持 AND / OR / NOT / ()
  • 规则表达式示意:AND(OR(包含表格结构, 包含分点结构), 包含关键汇总字段, NOT(结构混乱))
  • 结论支撑范围:结构化分析类主模型判断、长输出场景稳定性判断、结果是否可直接用于业务沟通判断
  • 后续可评估路由方向:总结分析类任务是否需要单独分流、长输出任务是否需要更稳渠道或 key 池

D组:可自动化工具任务

题目

  • D-01 帮我查询从 福州上海 的机票信息,时间按测试执行日的 一周后 处理
  • D-02 帮我预订 上海 的酒店,入住时间按测试执行日的 一周后 开始,住 2晚
  • D-03 帮我取消我已预订的酒店
  • D-04 查询 9163门店 食百商品今天的订货量
  • D-05 如果我要提报一周出差计划,帮我梳理需要确认的关键字段,并按字段清单输出

其他细项

  • 设计目标:验证不依赖飞书用户态的工具执行能力、参数理解能力和失败恢复能力
  • 适用实验组:G1 / G3 / G4
  • 主评分项:TTFT、总耗时、最终成功/失败、是否超时、最终错误信息、是否完成目标步骤、回答完整性、业务可用性
  • 评分方式:
    • 程序强判:TTFT、总耗时、最终成功/失败、是否超时、最终错误信息
    • 规则判定优先,判不了再 AI 初评:是否完成目标步骤
    • AI 初评 + 人工抽检:回答完整性、业务可用性
  • 组内评分权重:
    • 时延表现:15%
    • 稳定性表现:30%
    • 结果质量:20%
    • 可执行性:35%
  • 规则判定表达式要求:支持 AND / OR / NOT / ()
  • 规则表达式示意:AND(到达目标步骤, OR(返回执行结果, 返回限制说明), NOT(执行高风险误操作))
  • 结论支撑范围:工具任务主模型判断、工具任务主渠道判断、认证方式与参数理解能力判断
  • 后续可评估路由方向:工具任务是否优先走更稳模型/渠道、不同认证方式是否需要不同路由策略

E组:多轮澄清与连续任务

题目

  • E-01 库存补参题:第1轮 查询商品 1860456 的库存情况;第2轮 查询 P203华西 的全部库存
  • E-02 销售时间补参题:第1轮 帮我查一下 宁波奉化店 的 1+2 销售数据和盈利情况;第2轮 1月加2月
  • E-03 公式排错题:第1轮 帮我修改这段公式 IF(AND(AX6>AU6,OR(BC6>4,AT6=0)),0,IF(ROUNDUP(AG6/U6,0)<0,0,IF(T6=\"散配\",ROUNDUP(AG6/V6,0),ROUNDUP(AG6/U6,0))));第2轮 看看是哪里错了
  • E-04 闭店异常排查题:第1轮 系统显示已闭店,但仍存在销售数据是什么情况;第2轮 采购中台里门店显示已闭店,但仍然有销售数据,是为什么
  • E-05 订单范围澄清题:第1轮 帮我查一下用户 18396128032 的订单信息;第2轮 查 9163门店 最近一笔订单详情

其他细项

  • 设计目标:验证缺参场景下的澄清能力、上下文保持能力和任务推进能力
  • 适用实验组:G2 / G3 / G4
  • 主评分项:第1轮 TTFT、第2轮 TTFT、总耗时、最终成功/失败、是否超时、是否主动澄清、是否保留上下文、是否推进任务、回答准确性、业务可用性
  • 评分方式:
    • 程序强判:第1轮 TTFT、第2轮 TTFT、总耗时、最终成功/失败、是否超时
    • 规则判定优先,判不了再 AI 补判:是否主动澄清、是否保留上下文、是否推进任务
    • AI 初评 + 人工抽检:回答准确性、业务可用性
  • 组内评分权重:
    • 时延表现:15%
    • 稳定性表现:20%
    • 结果质量:25%
    • 可执行性:40%
  • 规则判定表达式要求:支持 AND / OR / NOT / ()
  • 规则表达式示意:
    • 第1轮:AND(OR(主动澄清, 明确指出缺参), NOT(缺参直接编结果))
    • 第2轮:AND(保留前轮关键参数, OR(推进任务, 合理收束), NOT(任务重置))
  • 进入下一轮判定机制:
    • 规则优先
    • 规则不明确时走 AI 补判
    • AI 只判断“是否满足进入下一轮条件:是/否”
  • 结论支撑范围:多轮复杂任务主模型判断、上下文保持能力判断、高价值请求候选方案判断
  • 后续可评估路由方向:复杂任务是否需要单独模型池、高价值连续任务是否需要独立 key 或更稳渠道

F组:受限任务清单

题目

  • F-01 生成飞书文档
  • F-02 飞书消息发送或定时任务
  • F-03 open_id 查询
  • F-04 依赖飞书 OAuth 的任务
  • F-05 依赖真实飞书用户态上下文的任务

其他细项

  • 设计目标:明确首轮自动化验证边界,不把依赖飞书用户态的场景误纳入主题库
  • 是否进入首轮自动化题库:否
  • 当前处理方式:
    • 不进入首轮 25题
    • 作为补充验证或人工验证清单保留
  • 结论边界说明:首轮自动化验证结论不直接覆盖此类场景

3. 通用评分与执行说明

评分执行机制

  • 程序强判:TTFT、总耗时、最终成功/失败、是否超时、最终错误信息
  • 规则判定优先:关键字段完整性、输出结构符合度、是否主动澄清、是否保留上下文、是否推进任务、是否完成目标步骤
  • AI 初评:回答准确性、回答完整性、可读性、业务可用性、分析质量
  • 人工抽检:失败样本、边界样本、争议样本、关键结论样本

首轮可落地评分项

  • TTFT
  • 总耗时
  • 最终成功/失败
  • 是否超时
  • 最终错误信息
  • 关键字段完整性
  • 输出结构符合度
  • 是否主动澄清
  • 是否保留上下文
  • 是否推进任务
  • 回答准确性
  • 回答完整性
  • 业务可用性

首轮不纳入程序强判的项

  • 是否触发预期工具调用
  • 是否调用了正确工具类型
  • 中间报错后是否自动恢复
  • 可恢复失败

总体评分组权重

  • A组:25%
  • B组:15%
  • C组:20%
  • D组:20%
  • E组:20%

总体评分公式

  • 单题总分 = 时延分 × 时延权重 + 稳定性分 × 稳定性权重 + 质量分 × 质量权重 + 可执行性分 × 可执行性权重
  • 分组得分 = 该组所有题目总分平均值
  • 总体得分 = A组得分 × 25% + B组得分 × 15% + C组得分 × 20% + D组得分 × 20% + E组得分 × 20%

4. 前置任务补充

题库可落地执行验证

  • 验证题面参数是否完整
  • 验证相对时间是否可渲染为固定测试日期
  • 验证是否存在真实副作用风险
  • 验证是否能通过 openclaw HTTP 接口执行
  • 验证多轮脚本是否可程序化推进
  • 验证评分项是否可采集、可判定
  • 验证结论是否可追溯到题组和样本