OpenClaw模型选型与稳定性验证方案-需求分析

1. 目标说明

围绕公司 openclaw 的模型选型与部署决策,整理本次验证必须回答的问题,作为后续设计和验证方案的输入。

本次需求分析同时服务两个目标:

  • 支撑当前约 4000openclaw 的选型与容量决策
  • 为后续更大规模 openclaw 部署沉淀可复用的验证依据

2. 选型决策问题

  • openclaw 当前场景下,哪些候选模型可以进入一期选型比较范围
  • 同一模型通过不同购买渠道接入时,响应速度和稳定性是否存在显著差异
  • 官方渠道、订阅或 plan 类入口、三方中转,哪类渠道更适合作为主力选型方案
  • 在满足中文能力和稳定性的前提下,是否存在明显不适合纳入正式选型的模型或渠道组合
  • 是否需要同时准备主渠道和备用渠道,以降低时段性波动风险

3. 容量决策问题

  • 单账号、单 key 或单凭证在 openclaw 场景下是否存在可观测的容量上限
  • 当实例数增加时,瓶颈更可能出现在模型服务侧、账号侧还是凭证侧
  • 若要支撑约 4000openclaw 稳定使用,需要多少账号、凭证或实例
  • 横向增加多个账号或凭证后,响应时间和稳定性是否能线性或接近线性改善
  • 本次得到的容量结论,是否可以外推为后续更大规模 openclaw 部署的测算依据

4. 风险判断问题

  • 某些模型或渠道是否在白天高峰时段存在明显劣化风险
  • 某些认证方式是否更容易触发限流、排队或不稳定现象
  • 单一渠道或单一账号体系是否会形成明显单点风险
  • 同一模型在不同题目类型下是否会出现延迟表现大幅波动
  • 如果模型速度表现受题目差异影响较大,当前验证结论是否仍具备可复用性

5. 题目类型需求

模型响应时间会受问题内容影响,因此题目类型需要作为正式需求维度纳入后续设计。

建议至少覆盖以下类型:

  • 短问题短回答:用于观察轻量问答下的基础 TTFT
  • 长上下文问题:用于观察长输入对 TTFT 和总耗时的影响
  • 推理型问题:用于观察复杂问题对完整响应耗时的拉长程度
  • 结构化输出问题:用于观察表格、列表、JSON 等格式要求下的时延变化
  • 多轮连续对话问题:用于观察上下文累积后单轮响应是否持续变慢

6. 本文档用途

  • 作为 任务2:整理验证问题清单 的正式产出物
  • 作为后续 设计草案实验设计 的输入文档