OpenClaw模型选型与稳定性验证方案-执行准备
1. 说明
本文档用于承接下一阶段“执行准备与验证落地”的前置事项。
本阶段不再重复方案设计,而是聚焦:
- 把执行前必须完成的准备事项列清楚
- 明确每项准备的完成标准
- 明确依赖关系和并行关系
- 为后续正式验证执行提供进入条件
2. 阶段目标
当前阶段目标如下:
- 完成资源准备
- 完成程序准备
- 完成认证配置验证
- 完成题库可落地执行验证
- 明确进入正式验证执行阶段的条件
3. 执行准备项
3.1 资源准备
| 编号 | 事项 | 具体检查项 | 完成标准 | 依赖 | 当前状态 | 备注 |
|---|---|---|---|---|---|---|
| R-01 | 候选模型资源确认 | 确认 kimi / glm / minimax 是否都有可用账号或接入资源 | 三个模型均可发起验证请求 | 无 | 待开始 | |
| R-02 | 渠道资源确认 | 确认官方 / 订阅或 plan / 三方中转是否具备可测资源 | 已形成渠道资源清单 | R-01 | 待开始 | |
| R-03 | kimi 企业账号 key 准备 | 确认企业账号下可用 key 数量、使用限制、测试可用 key | 至少有一组可稳定测试的企业账号 key | R-01 | 待开始 | |
| R-04 | kimi 独立账号 key 准备 | 确认独立账号 key 可用性和测试权限 | 至少有一组可稳定测试的独立账号 key | R-01 | 待开始 | |
| R-05 | 共享凭证条件准备 | 为 G3 准备共享凭证实验条件 | 可支持 N openclaw + N agent + 1 credential | R-02 | 待开始 | |
| R-06 | 独立凭证条件准备 | 为 G4 准备独立凭证实验条件 | 可支持 N openclaw + N agent + N credential | R-02 | 待开始 | |
| R-07 | 执行环境准备 | 确认容器或虚拟机环境可用于自动化验证 | 具备可执行环境和基础网络/访问条件 | 无 | 待开始 |
完成标准汇总:
- 各模型、各渠道、各认证方式的可用资源清单确认完成
kimi企业账号 key 与独立账号 key 均可用于验证G3 / G4所需凭证条件可满足- 执行环境具备自动化运行条件
3.2 程序准备
| 编号 | 事项 | 具体检查项 | 完成标准 | 依赖 | 当前状态 | 备注 |
|---|---|---|---|---|---|---|
| P-01 | 请求调度方式确认 | 明确按题组、实验组、时段、并发档位如何调度 | 已确定执行调度方式 | 无 | 待开始 | |
| P-02 | 配置文件结构确认 | 明确题库配置、实验组配置、时段配置、并发配置结构 | 已形成统一配置结构 | P-01 | 待开始 | |
| P-03 | 日志字段设计 | 明确要记录的请求级字段和执行级字段 | 字段清单确认完成 | P-01 | 待开始 | |
| P-04 | 结果落盘结构设计 | 明确原始结果、评分结果、汇总结果如何落盘 | 已形成结果目录和字段结构 | P-03 | 待开始 | |
| P-05 | 程序实现 | 实现基础请求发起、结果记录、配置读取 | 可执行基础验证流程 | P-02,P-03,P-04 | 待开始 | |
| P-06 | 评分流程实现 | 实现程序强判和规则判定基础逻辑 | 可输出基础评分结果 | P-05 | 待开始 | |
| P-07 | 基础链路跑通 | 小规模跑通一组验证流程 | 能稳定发起请求并产出结果 | P-05,P-06 | 待开始 |
完成标准汇总:
- 能按题库配置发起自动化请求
- 能记录
TTFT、总耗时、最终成功/失败、超时、错误信息 - 能支持分组执行和结果输出
- 基础评分流程可以运行
3.3 认证配置验证
| 编号 | 事项 | 具体检查项 | 完成标准 | 依赖 | 当前状态 | 备注 |
|---|---|---|---|---|---|---|
| A-01 | API Key 接入验证 | 验证 API Key 在目标执行环境中可正常使用 | API Key 可稳定发起验证请求 | R-07 | 待开始 | |
| A-02 | OAuth 或订阅认证验证 | 验证订阅认证或 OAuth 是否可用于自动化 | 认证方式可用或限制已明确 | R-07 | 待开始 | |
| A-03 | 容器环境验证 | 验证容器环境中的认证配置可行性 | 容器环境验证结果明确 | A-01,A-02 | 待开始 | |
| A-04 | 虚拟机环境验证 | 验证虚拟机环境中的认证配置可行性 | 虚拟机环境验证结果明确 | A-01,A-02 | 待开始 | |
| A-05 | 认证信息注入机制确认 | 确认认证信息如何注入、加载和切换 | 注入方式明确 | A-03,A-04 | 待开始 | |
| A-06 | 认证刷新与失效处理确认 | 确认 token 或认证状态失效时的处理方式 | 刷新或失败策略明确 | A-05 | 待开始 |
完成标准汇总:
- 目标认证方式在执行环境中可稳定使用,或限制已明确
- 已明确认证配置限制与风险
- 已明确认证信息注入与失效处理方式
3.4 题库可落地执行验证
| 编号 | 事项 | 具体检查项 | 完成标准 | 依赖 | 当前状态 | 备注 |
|---|---|---|---|---|---|---|
| T-01 | 题面参数完整性检查 | 检查每道题是否具备可执行参数 | 题面参数完整或已补齐 | 04-题库设计 | 待开始 | |
| T-02 | 相对时间渲染检查 | 检查相对时间是否可转换为固定测试日期 | 时间渲染规则明确 | T-01 | 待开始 | |
| T-03 | 副作用风险检查 | 检查是否存在高风险真实操作 | 高风险题已识别并处理 | T-01 | 待开始 | |
| T-04 | 多轮脚本可执行检查 | 检查 E 组两轮脚本是否能程序化推进 | 多轮题进入下一轮条件可判定 | T-01 | 待开始 | |
| T-05 | 程序强判项可采集检查 | 检查 TTFT、总耗时、最终状态等是否可采集 | 程序强判项可采集 | P-07 | 待开始 | |
| T-06 | 规则判定项可执行检查 | 检查字段、结构、澄清、上下文规则是否可运行 | 规则判定可执行 | P-06,T-04 | 待开始 | |
| T-07 | 评分链路联调 | 跑通一组题库评分流程 | 能输出基础评分结果 | T-05,T-06 | 待开始 | |
| T-08 | 结论追溯性检查 | 检查题组、样本、评分结果是否能追溯到结论 | 结论可追溯链路明确 | T-07 | 待开始 |
完成标准汇总:
- 首轮执行题库可直接用于自动化验证
- 评分和结论链路可跑通
- 高风险题、受限题边界明确
4. 时间与并行关系
当前建议:
- 执行准备阶段按约
3天估算 - 各类准备项尽量并行推进
- 整体时间按最长路径估算,不按事项总和累加
并行关系如下:
- 资源准备、程序准备、认证配置验证、题库可落地执行验证可并行推进
- 但“正式验证执行”必须在上述关键项达到最低完成标准后再开始
5. 进入正式执行的条件
建议以下条件满足后再进入正式验证阶段:
- 核心资源已到位
- 核心认证方式已验证可用
- 自动化程序可稳定发起请求并记录结果
- 首轮题库已通过可落地执行验证
- 团队分工已明确
6. 后续衔接
本阶段完成后,进入:
- 正式验证执行
- 结果汇总
- 结论输出