真正有价值的 Codex 工作,很少能刚好放进一个终端会话里。一次重构开始时很小,测试跑了二十分钟,然后 Agent 还需要再做一轮,而你的笔记本可能已经换网、合盖或断线了。
所以我们把 Codex CLI 后台任务 当成基础设施问题,而不是提示词技巧。目标很简单:让工作运行在稳定的位置,让人的控制界面保持轻量,并让恢复过程变得无聊可靠。
最小可靠形态
| 层 | 作用 | 避免的问题 |
|---|---|---|
| 持久主机 | 在 VPS 上运行,而不是在笔记本 shell 中运行 | Wi-Fi 中断、睡眠、本地资源争抢 |
| 会话包装 | 用 tmux、systemd 或任务运行器托住进程 | 终端丢失不等于工作丢失 |
| 日志流 | 保存 stdout、stderr 和检查点 | 复盘时不用猜 |
| 人工关卡 | push、部署或删除前必须审查 | 让自动化保持可控 |
实践中,一个小 VPS、Tailscale、tmux、仓库 checkout 和 Codex CLI 就足够。Office Claws 把同样的结构包装成桌面管理器:每个 Agent 有可见的工位、可访问的主机,以及查看运行状态的位置。
基础 tmux 模式
ssh office-claws-agent
cd ~/work/product-api
tmux new -s codex-billing-refactor
codex "refactor invoice generation, run the billing tests, and summarize risky changes"如果笔记本断开,重新连接即可:
ssh office-claws-agent
tmux attach -t codex-billing-refactor状态留在 VPS 上:仓库、shell 历史、测试产物、日志和 Codex 进程。笔记本只是窗口。
让任务可观察
mkdir -p ~/agent-logs
script -f ~/agent-logs/billing-refactor.$(date +%F-%H%M).log长任务最好要求 Agent 留下检查点:
- 修改前写
PLAN.md - 每个阶段后更新
STATUS.md - 测试输出放在
artifacts/ - commit 前写最终风险摘要
给 Codex 一个边界清晰的任务
目标:降低 payment 包中 checkout 测试的不稳定性。
允许:修改测试和 fixture,运行 npm test -- payment。
不允许:修改生产 billing 逻辑或 push 分支。
停止条件:如果需要改动超过 8 个文件,先总结并停止。
结束前:列出运行的测试、改动文件和剩余风险。这比一句「修复 flaky tests」更可靠,因为它定义了审查边界。
什么时候升级为专用 Agent
短任务用普通 shell 就好。当任务可能超过当前会话、仓库很大、需要并行运行多个 Codex 任务、涉及凭据或基础设施、或者需要审计记录时,就应该使用专用远程 Agent。
Office Claws 正适合这个场景:创建主机,通过 Tailscale 连接,并提供可视化控制平面。想了解更大的迁移背景,可以看 OpenClaw vs Codex 对比;价格页面 列出了 self-hosted 和 managed 选项。
结论
Codex CLI 在前台已经很强。要让它可靠地在后台工作,需要稳定主机、可恢复会话、清晰日志和人工审查关卡。