OpenClaw模型选型与稳定性验证方案-题库设计

1. 说明

本文档用于沉淀首轮自动化验证题库设计。

设计原则如下：

首轮题库面向 openclaw HTTP 接口可直接覆盖的场景
飞书用户态授权类任务不进入首轮自动化主题库
题库优先覆盖可支撑选型结论、容量结论和后续路由评估的核心场景
题库中的时间表达优先使用相对时间，执行时再渲染为固定测试日期
评分采用“程序强判 + 规则判定 + AI 初评 + 人工抽检”的组合方式

2. 分组

A组：高频数据查询

题目

A-01 查询 福州奥体店 昨天的业绩表现
A-02 查询 宁波奉化店 最近一周的销售情况
A-03 查询 9163门店 当前生效的促销活动列表
A-04 查询 9163门店 商品 656365 的线上库存信息
A-05 获取用户 18396128032 在 9163门店 最近一笔订单详情

其他细项

设计目标：验证高频、短平快、强查询依赖场景下的时延、稳定性和结果完整性
适用实验组：G1 / G3 / G4
主评分项：TTFT、总耗时、最终成功/失败、是否超时、最终错误信息、关键字段完整性、回答准确性、回答完整性
评分方式：
- 程序强判：TTFT、总耗时、最终成功/失败、是否超时、最终错误信息
- 规则判定优先：关键字段完整性
- AI 初评 + 人工抽检：回答准确性、回答完整性
组内评分权重：
- 时延表现：30%
- 稳定性表现：30%
- 结果质量：30%
- 可执行性：10%
规则判定表达式要求：支持 AND / OR / NOT / ()
规则表达式示意：AND(包含业务对象, 包含时间范围, OR(包含查询结果, 包含限制说明), NOT(编造具体结果))
结论支撑范围：高频查询场景主模型判断、高频查询场景主渠道判断、高峰期 key 稳定性判断
后续可评估路由方向：高频查询是否优先走低 TTFT 模型、高峰时段是否切换到更稳的 key 池

B组：知识问答

题目

B-01 永辉定制怎么理解
B-02 接下来永辉商品的发展方向是什么
B-03 永辉的企业文化是什么
B-04 干部六要素是什么
B-05 永辉的使命是什么

其他细项

设计目标：验证知识检索、解释说明和长回答质量
适用实验组：G1 / G2
主评分项：TTFT、总耗时、最终成功/失败、回答准确性、回答完整性、可读性、业务可用性
评分方式：
- 程序强判：TTFT、总耗时、最终成功/失败
- AI 初评：回答准确性、回答完整性、可读性、业务可用性
- 人工抽检：失败样本、边界样本、关键结论样本
组内评分权重：
- 时延表现：20%
- 稳定性表现：15%
- 结果质量：55%
- 可执行性：10%
规则判定表达式要求：支持 AND / OR / NOT / ()
规则表达式示意：AND(包含主题定义, OR(包含关键要点, 包含结构化分点), NOT(明显跑题))
结论支撑范围：知识问答主模型判断、长回答质量判断、知识场景渠道稳定性判断
后续可评估路由方向：知识问答是否路由到回答质量更高的模型、是否接受略高时延换更高回答质量

C组：结构化分析与汇总

题目

C-01 输出 华南中心 肉禽蛋商行 从 3月1日 到 3月25日 的销售表现，不用按大区拆分，并做简要分析
C-02 汇总 宁波奉化店 1月+2月 的销售数据和盈利情况，并输出结构化结果
C-03 将文件 安徽大区电商4月销售目标分解表 从横向结构改为纵向结构，并说明输出字段
C-04 基于 安徽大区电商4月销售目标分解表 生成门店月度目标汇总版，并输出汇总说明
C-05 基于给定门店经营数据，输出门店经营情况的结构化总结，至少包含核心指标、变化情况和简要结论

其他细项

设计目标：验证总结分析、结构化输出、表格处理和长输出稳定性
适用实验组：G1 / G2 / G3 / G4
主评分项：TTFT、总耗时、最终成功/失败、是否超时、输出结构符合度、关键字段完整性、回答准确性、回答完整性、业务可用性
评分方式：
- 程序强判：TTFT、总耗时、最终成功/失败、是否超时
- 规则判定优先：输出结构符合度、关键字段完整性
- AI 初评 + 人工抽检：回答准确性、回答完整性、业务可用性
组内评分权重：
- 时延表现：15%
- 稳定性表现：20%
- 结果质量：45%
- 可执行性：20%
规则判定表达式要求：支持 AND / OR / NOT / ()
规则表达式示意：AND(OR(包含表格结构, 包含分点结构), 包含关键汇总字段, NOT(结构混乱))
结论支撑范围：结构化分析类主模型判断、长输出场景稳定性判断、结果是否可直接用于业务沟通判断
后续可评估路由方向：总结分析类任务是否需要单独分流、长输出任务是否需要更稳渠道或 key 池

D组：可自动化工具任务

题目

D-01 帮我查询从 福州 到 上海 的机票信息，时间按测试执行日的 一周后 处理
D-02 帮我预订 上海 的酒店，入住时间按测试执行日的 一周后 开始，住 2晚
D-03 帮我取消我已预订的酒店
D-04 查询 9163门店 食百商品今天的订货量
D-05 如果我要提报一周出差计划，帮我梳理需要确认的关键字段，并按字段清单输出

其他细项

设计目标：验证不依赖飞书用户态的工具执行能力、参数理解能力和失败恢复能力
适用实验组：G1 / G3 / G4
主评分项：TTFT、总耗时、最终成功/失败、是否超时、最终错误信息、是否完成目标步骤、回答完整性、业务可用性
评分方式：
- 程序强判：TTFT、总耗时、最终成功/失败、是否超时、最终错误信息
- 规则判定优先，判不了再 AI 初评：是否完成目标步骤
- AI 初评 + 人工抽检：回答完整性、业务可用性
组内评分权重：
- 时延表现：15%
- 稳定性表现：30%
- 结果质量：20%
- 可执行性：35%
规则判定表达式要求：支持 AND / OR / NOT / ()
规则表达式示意：AND(到达目标步骤, OR(返回执行结果, 返回限制说明), NOT(执行高风险误操作))
结论支撑范围：工具任务主模型判断、工具任务主渠道判断、认证方式与参数理解能力判断
后续可评估路由方向：工具任务是否优先走更稳模型/渠道、不同认证方式是否需要不同路由策略

E组：多轮澄清与连续任务

题目

E-01 库存补参题：第1轮 查询商品 1860456 的库存情况；第2轮 查询 P203华西的全部库存
E-02 销售时间补参题：第1轮 帮我查一下宁波奉化店的 1+2 销售数据和盈利情况；第2轮 1月加2月
E-03 公式排错题：第1轮 帮我修改这段公式 IF(AND(AX6>AU6,OR(BC6>4,AT6=0)),0,IF(ROUNDUP(AG6/U6,0)<0,0,IF(T6=\"散配\",ROUNDUP(AG6/V6,0),ROUNDUP(AG6/U6,0))))；第2轮 看看是哪里错了
E-04 闭店异常排查题：第1轮 系统显示已闭店，但仍存在销售数据是什么情况；第2轮 采购中台里门店显示已闭店，但仍然有销售数据，是为什么
E-05 订单范围澄清题：第1轮 帮我查一下用户 18396128032 的订单信息；第2轮 查 9163门店最近一笔订单详情

其他细项

设计目标：验证缺参场景下的澄清能力、上下文保持能力和任务推进能力
适用实验组：G2 / G3 / G4
主评分项：第1轮 TTFT、第2轮 TTFT、总耗时、最终成功/失败、是否超时、是否主动澄清、是否保留上下文、是否推进任务、回答准确性、业务可用性
评分方式：
- 程序强判：第1轮 TTFT、第2轮 TTFT、总耗时、最终成功/失败、是否超时
- 规则判定优先，判不了再 AI 补判：是否主动澄清、是否保留上下文、是否推进任务
- AI 初评 + 人工抽检：回答准确性、业务可用性
组内评分权重：
- 时延表现：15%
- 稳定性表现：20%
- 结果质量：25%
- 可执行性：40%
规则判定表达式要求：支持 AND / OR / NOT / ()
规则表达式示意：
- 第1轮：AND(OR(主动澄清, 明确指出缺参), NOT(缺参直接编结果))
- 第2轮：AND(保留前轮关键参数, OR(推进任务, 合理收束), NOT(任务重置))
进入下一轮判定机制：
- 规则优先
- 规则不明确时走 AI 补判
- AI 只判断“是否满足进入下一轮条件：是/否”
结论支撑范围：多轮复杂任务主模型判断、上下文保持能力判断、高价值请求候选方案判断
后续可评估路由方向：复杂任务是否需要单独模型池、高价值连续任务是否需要独立 key 或更稳渠道

F组：受限任务清单

题目

F-01 生成飞书文档
F-02 飞书消息发送或定时任务
F-03 open_id 查询
F-04 依赖飞书 OAuth 的任务
F-05 依赖真实飞书用户态上下文的任务

其他细项

设计目标：明确首轮自动化验证边界，不把依赖飞书用户态的场景误纳入主题库
是否进入首轮自动化题库：否
当前处理方式：
- 不进入首轮 25题
- 作为补充验证或人工验证清单保留
结论边界说明：首轮自动化验证结论不直接覆盖此类场景

3. 通用评分与执行说明

评分执行机制

程序强判：TTFT、总耗时、最终成功/失败、是否超时、最终错误信息
规则判定优先：关键字段完整性、输出结构符合度、是否主动澄清、是否保留上下文、是否推进任务、是否完成目标步骤
AI 初评：回答准确性、回答完整性、可读性、业务可用性、分析质量
人工抽检：失败样本、边界样本、争议样本、关键结论样本

首轮可落地评分项

TTFT
总耗时
最终成功/失败
是否超时
最终错误信息
关键字段完整性
输出结构符合度
是否主动澄清
是否保留上下文
是否推进任务
回答准确性
回答完整性
业务可用性

首轮不纳入程序强判的项

是否触发预期工具调用
是否调用了正确工具类型
中间报错后是否自动恢复
可恢复失败

总体评分组权重

A组：25%
B组：15%
C组：20%
D组：20%
E组：20%

总体评分公式

单题总分 = 时延分 × 时延权重 + 稳定性分 × 稳定性权重 + 质量分 × 质量权重 + 可执行性分 × 可执行性权重
分组得分 = 该组所有题目总分平均值
总体得分 = A组得分 × 25% + B组得分 × 15% + C组得分 × 20% + D组得分 × 20% + E组得分 × 20%

4. 前置任务补充

题库可落地执行验证

验证题面参数是否完整
验证相对时间是否可渲染为固定测试日期
验证是否存在真实副作用风险
验证是否能通过 openclaw HTTP 接口执行
验证多轮脚本是否可程序化推进
验证评分项是否可采集、可判定
验证结论是否可追溯到题组和样本

wuwei share

探索

04-题库设计-openclaw模型选型与稳定性验证方案

OpenClaw模型选型与稳定性验证方案-题库设计

1. 说明

2. 分组

A组：高频数据查询

题目

其他细项

B组：知识问答

题目

其他细项

C组：结构化分析与汇总

题目

其他细项

D组：可自动化工具任务

题目

其他细项

E组：多轮澄清与连续任务

题目

其他细项

F组：受限任务清单

题目

其他细项

3. 通用评分与执行说明

评分执行机制

首轮可落地评分项

首轮不纳入程序强判的项

总体评分组权重

总体评分公式

4. 前置任务补充

题库可落地执行验证

关系图谱

目录

反向链接