OpenClaw模型选型与稳定性验证方案-题库设计
1. 说明
本文档用于沉淀首轮自动化验证题库设计。
设计原则如下:
- 首轮题库面向
openclawHTTP 接口可直接覆盖的场景 - 飞书用户态授权类任务不进入首轮自动化主题库
- 题库优先覆盖可支撑选型结论、容量结论和后续路由评估的核心场景
- 题库中的时间表达优先使用相对时间,执行时再渲染为固定测试日期
- 评分采用“程序强判 + 规则判定 + AI 初评 + 人工抽检”的组合方式
2. 分组
A组:高频数据查询
题目
A-01查询福州奥体店昨天的业绩表现A-02查询宁波奉化店最近一周的销售情况A-03查询9163门店当前生效的促销活动列表A-04查询9163门店商品656365的线上库存信息A-05获取用户18396128032在9163门店最近一笔订单详情
其他细项
- 设计目标:验证高频、短平快、强查询依赖场景下的时延、稳定性和结果完整性
- 适用实验组:
G1 / G3 / G4 - 主评分项:
TTFT、总耗时、最终成功/失败、是否超时、最终错误信息、关键字段完整性、回答准确性、回答完整性 - 评分方式:
- 程序强判:
TTFT、总耗时、最终成功/失败、是否超时、最终错误信息 - 规则判定优先:关键字段完整性
- AI 初评 + 人工抽检:回答准确性、回答完整性
- 程序强判:
- 组内评分权重:
- 时延表现:
30% - 稳定性表现:
30% - 结果质量:
30% - 可执行性:
10%
- 时延表现:
- 规则判定表达式要求:支持
AND / OR / NOT / () - 规则表达式示意:
AND(包含业务对象, 包含时间范围, OR(包含查询结果, 包含限制说明), NOT(编造具体结果)) - 结论支撑范围:高频查询场景主模型判断、高频查询场景主渠道判断、高峰期 key 稳定性判断
- 后续可评估路由方向:高频查询是否优先走低
TTFT模型、高峰时段是否切换到更稳的 key 池
B组:知识问答
题目
B-01永辉定制怎么理解B-02接下来永辉商品的发展方向是什么B-03永辉的企业文化是什么B-04干部六要素是什么B-05永辉的使命是什么
其他细项
- 设计目标:验证知识检索、解释说明和长回答质量
- 适用实验组:
G1 / G2 - 主评分项:
TTFT、总耗时、最终成功/失败、回答准确性、回答完整性、可读性、业务可用性 - 评分方式:
- 程序强判:
TTFT、总耗时、最终成功/失败 - AI 初评:回答准确性、回答完整性、可读性、业务可用性
- 人工抽检:失败样本、边界样本、关键结论样本
- 程序强判:
- 组内评分权重:
- 时延表现:
20% - 稳定性表现:
15% - 结果质量:
55% - 可执行性:
10%
- 时延表现:
- 规则判定表达式要求:支持
AND / OR / NOT / () - 规则表达式示意:
AND(包含主题定义, OR(包含关键要点, 包含结构化分点), NOT(明显跑题)) - 结论支撑范围:知识问答主模型判断、长回答质量判断、知识场景渠道稳定性判断
- 后续可评估路由方向:知识问答是否路由到回答质量更高的模型、是否接受略高时延换更高回答质量
C组:结构化分析与汇总
题目
C-01输出华南中心肉禽蛋商行从3月1日到3月25日的销售表现,不用按大区拆分,并做简要分析C-02汇总宁波奉化店1月+2月的销售数据和盈利情况,并输出结构化结果C-03将文件安徽大区电商4月销售目标分解表从横向结构改为纵向结构,并说明输出字段C-04基于安徽大区电商4月销售目标分解表生成门店月度目标汇总版,并输出汇总说明C-05基于给定门店经营数据,输出门店经营情况的结构化总结,至少包含核心指标、变化情况和简要结论
其他细项
- 设计目标:验证总结分析、结构化输出、表格处理和长输出稳定性
- 适用实验组:
G1 / G2 / G3 / G4 - 主评分项:
TTFT、总耗时、最终成功/失败、是否超时、输出结构符合度、关键字段完整性、回答准确性、回答完整性、业务可用性 - 评分方式:
- 程序强判:
TTFT、总耗时、最终成功/失败、是否超时 - 规则判定优先:输出结构符合度、关键字段完整性
- AI 初评 + 人工抽检:回答准确性、回答完整性、业务可用性
- 程序强判:
- 组内评分权重:
- 时延表现:
15% - 稳定性表现:
20% - 结果质量:
45% - 可执行性:
20%
- 时延表现:
- 规则判定表达式要求:支持
AND / OR / NOT / () - 规则表达式示意:
AND(OR(包含表格结构, 包含分点结构), 包含关键汇总字段, NOT(结构混乱)) - 结论支撑范围:结构化分析类主模型判断、长输出场景稳定性判断、结果是否可直接用于业务沟通判断
- 后续可评估路由方向:总结分析类任务是否需要单独分流、长输出任务是否需要更稳渠道或 key 池
D组:可自动化工具任务
题目
D-01帮我查询从福州到上海的机票信息,时间按测试执行日的一周后处理D-02帮我预订上海的酒店,入住时间按测试执行日的一周后开始,住2晚D-03帮我取消我已预订的酒店D-04查询9163门店食百商品今天的订货量D-05如果我要提报一周出差计划,帮我梳理需要确认的关键字段,并按字段清单输出
其他细项
- 设计目标:验证不依赖飞书用户态的工具执行能力、参数理解能力和失败恢复能力
- 适用实验组:
G1 / G3 / G4 - 主评分项:
TTFT、总耗时、最终成功/失败、是否超时、最终错误信息、是否完成目标步骤、回答完整性、业务可用性 - 评分方式:
- 程序强判:
TTFT、总耗时、最终成功/失败、是否超时、最终错误信息 - 规则判定优先,判不了再 AI 初评:是否完成目标步骤
- AI 初评 + 人工抽检:回答完整性、业务可用性
- 程序强判:
- 组内评分权重:
- 时延表现:
15% - 稳定性表现:
30% - 结果质量:
20% - 可执行性:
35%
- 时延表现:
- 规则判定表达式要求:支持
AND / OR / NOT / () - 规则表达式示意:
AND(到达目标步骤, OR(返回执行结果, 返回限制说明), NOT(执行高风险误操作)) - 结论支撑范围:工具任务主模型判断、工具任务主渠道判断、认证方式与参数理解能力判断
- 后续可评估路由方向:工具任务是否优先走更稳模型/渠道、不同认证方式是否需要不同路由策略
E组:多轮澄清与连续任务
题目
E-01库存补参题:第1轮查询商品 1860456 的库存情况;第2轮查询 P203华西 的全部库存E-02销售时间补参题:第1轮帮我查一下 宁波奉化店 的 1+2 销售数据和盈利情况;第2轮1月加2月E-03公式排错题:第1轮帮我修改这段公式 IF(AND(AX6>AU6,OR(BC6>4,AT6=0)),0,IF(ROUNDUP(AG6/U6,0)<0,0,IF(T6=\"散配\",ROUNDUP(AG6/V6,0),ROUNDUP(AG6/U6,0))));第2轮看看是哪里错了E-04闭店异常排查题:第1轮系统显示已闭店,但仍存在销售数据是什么情况;第2轮采购中台里门店显示已闭店,但仍然有销售数据,是为什么E-05订单范围澄清题:第1轮帮我查一下用户 18396128032 的订单信息;第2轮查 9163门店 最近一笔订单详情
其他细项
- 设计目标:验证缺参场景下的澄清能力、上下文保持能力和任务推进能力
- 适用实验组:
G2 / G3 / G4 - 主评分项:第1轮
TTFT、第2轮TTFT、总耗时、最终成功/失败、是否超时、是否主动澄清、是否保留上下文、是否推进任务、回答准确性、业务可用性 - 评分方式:
- 程序强判:第1轮
TTFT、第2轮TTFT、总耗时、最终成功/失败、是否超时 - 规则判定优先,判不了再 AI 补判:是否主动澄清、是否保留上下文、是否推进任务
- AI 初评 + 人工抽检:回答准确性、业务可用性
- 程序强判:第1轮
- 组内评分权重:
- 时延表现:
15% - 稳定性表现:
20% - 结果质量:
25% - 可执行性:
40%
- 时延表现:
- 规则判定表达式要求:支持
AND / OR / NOT / () - 规则表达式示意:
- 第1轮:
AND(OR(主动澄清, 明确指出缺参), NOT(缺参直接编结果)) - 第2轮:
AND(保留前轮关键参数, OR(推进任务, 合理收束), NOT(任务重置))
- 第1轮:
- 进入下一轮判定机制:
- 规则优先
- 规则不明确时走 AI 补判
- AI 只判断“是否满足进入下一轮条件:是/否”
- 结论支撑范围:多轮复杂任务主模型判断、上下文保持能力判断、高价值请求候选方案判断
- 后续可评估路由方向:复杂任务是否需要单独模型池、高价值连续任务是否需要独立 key 或更稳渠道
F组:受限任务清单
题目
F-01生成飞书文档F-02飞书消息发送或定时任务F-03open_id查询F-04依赖飞书OAuth的任务F-05依赖真实飞书用户态上下文的任务
其他细项
- 设计目标:明确首轮自动化验证边界,不把依赖飞书用户态的场景误纳入主题库
- 是否进入首轮自动化题库:否
- 当前处理方式:
- 不进入首轮
25题 - 作为补充验证或人工验证清单保留
- 不进入首轮
- 结论边界说明:首轮自动化验证结论不直接覆盖此类场景
3. 通用评分与执行说明
评分执行机制
- 程序强判:
TTFT、总耗时、最终成功/失败、是否超时、最终错误信息 - 规则判定优先:关键字段完整性、输出结构符合度、是否主动澄清、是否保留上下文、是否推进任务、是否完成目标步骤
- AI 初评:回答准确性、回答完整性、可读性、业务可用性、分析质量
- 人工抽检:失败样本、边界样本、争议样本、关键结论样本
首轮可落地评分项
TTFT- 总耗时
- 最终成功/失败
- 是否超时
- 最终错误信息
- 关键字段完整性
- 输出结构符合度
- 是否主动澄清
- 是否保留上下文
- 是否推进任务
- 回答准确性
- 回答完整性
- 业务可用性
首轮不纳入程序强判的项
- 是否触发预期工具调用
- 是否调用了正确工具类型
- 中间报错后是否自动恢复
- 可恢复失败
总体评分组权重
- A组:
25% - B组:
15% - C组:
20% - D组:
20% - E组:
20%
总体评分公式
- 单题总分 = 时延分 × 时延权重 + 稳定性分 × 稳定性权重 + 质量分 × 质量权重 + 可执行性分 × 可执行性权重
- 分组得分 = 该组所有题目总分平均值
- 总体得分 = A组得分 ×
25%+ B组得分 ×15%+ C组得分 ×20%+ D组得分 ×20%+ E组得分 ×20%
4. 前置任务补充
题库可落地执行验证
- 验证题面参数是否完整
- 验证相对时间是否可渲染为固定测试日期
- 验证是否存在真实副作用风险
- 验证是否能通过
openclawHTTP 接口执行 - 验证多轮脚本是否可程序化推进
- 验证评分项是否可采集、可判定
- 验证结论是否可追溯到题组和样本