Agentic 生产级工程实践的 4 个坑

最近跑完一个 figma 设计稿转目标代码的小项目，攒了一些真实感受，分享出来。

#1 不要让大模型做 dirty work，token 很贵，attention 很宝贵

这里说的并不是让人来承担 dirty work 的工作，而是在真正的”生产线”上，尽可能将一切影响 Agent 的脏活和分散 Agent 注意力的脏活，给变成脚本，变成代码。

例如：脚手架工程、sdk 的路径配置、一些固定流程的外部工具调用

让 LLM 的注意力放在最重要的流程上，尽可能的让 LLM 做需要推理和决策的核心任务

当长流程已经远超出了 LLM 的上下文窗口之后，大模型会不可抑制地出现”跳过某些步骤”的行为。

长上下文导致早期指令（比如 skill 里写的约束）所获得的注意力权重被稀释，模型不是”主动决定”跳过，而是在概率层面上”遗忘”了那条约束。

在最后的评分步骤中，我明确写了需要用对比工具进行”打分->反馈->修改”这样的 loop 循环，但往往可能会遗忘反馈这个步骤。

这时我们只能将流程拆散，但拆散流程是有代价的，在两个节点之间传递的上下文就要更多。

可观测性 Observability 是指可以看见 Agent 的每一个 decision、tool call 以及 result。

像 Claude Code、Codex 这种 Coding Agent 在 REPL 交互模式下，基本可以看见每一步的执行流程，但是需要人一直参与。在所谓的”流水线”上，Agent 的运行是一个黑盒，如果没有可观测性，只会一味地消耗 token，永远无法对流程进行改善和优化。

在批量跑测试集时，这个消耗会成倍放大。如果无法观察到问题出在哪里，那就是白白消耗了 token。下图是我跑测试集的截图，我用了 LangSmith 去观察流程中 Agent 的行为。

LangSmith 测试集运行记录，可以看到大量 RuntimeError 和高延迟的 trace

有些你没有亲自跑通过的路，AI 也不会知道正确的方向。

如果陷入了无法前进的境地，请自己深度思考并实践一次，将正确的流程跑通。不要一味依赖 LLM 去寻找路径和计划方案，人不该只是监督者，更应该是深度思考者和引导者。

在思考如何将绝对布局转化为自适应布局时，LLM 提出的方案总是达不到想要的效果。于是我尝试着自己动手改写一遍，最后总结成通用性较强的步骤。