OpenClaw模型选型与稳定性验证方案-背景需求

1. 项目背景

公司当前已在内部部署约 4000openclaw,后续若全员铺开,规模可能达到 60000 个。一期目标不是覆盖全量,而是先把现有约 4000openclaw 的模型服务体验稳定下来。

当前使用的是 kimi k2.5 套餐。现象上看,某些购买渠道在白天尤其是下午时段会明显变慢,首字时间可能上升到 15-30 秒,而在晚间首字时间可能回落到 5 秒以内。这种时段性波动会直接影响 openclaw 的业务体验,也会影响后续在公司内部的推广。

现阶段公司已经具备一定的模型接入基础。例如在 kimi k2.5 场景下,一个账号下已开通 100 个 key,但当前 openclaw 的使用方式,推测主要仍是多个实例共享同一个 key 或少量固定 key 的模式。该模式是否存在单 key 瓶颈、是否需要多账号分摊、不同购买方式是否存在显著差异,尚缺少系统性验证数据。

因此,当前问题已经不是单纯判断“哪个模型更快”,而是需要建立一套面向选型和部署决策的验证方案,回答公司后续在模型、渠道、账号数量和部署方式上的选择问题。

2. 当前目标

本次工作的当前目标有两层:

  • 支撑当前约 4000openclaw 的选型与容量决策
  • 为后续更大规模 openclaw 部署沉淀可复用的验证依据

3. 一期范围

一期验证目标是服务当前约 4000openclaw 的稳定使用,不以覆盖未来 60000 个全员规模为直接目标。

一期重点关注以下业务问题:

  • 候选模型在不同时间段内的体验是否稳定
  • 不同购买渠道之间是否存在明显差异
  • 单账号、单 key 或单凭证是否存在可观测的容量上限
  • 如果需要扩容,增加多个账号或凭证是否可以有效摊平瓶颈

一期暂不追求一次性建设完整平台,而是优先沉淀一套能够支撑当前选型判断的验证基础。

4. 本文档职责

本文档仅承接背景、目标和范围。

不在本文档中展开:

  • 验证问题拆解
  • 实验分组设计
  • 指标体系设计
  • 验证方法设计

上述内容分别进入后续的 需求分析设计方案 文档。