WORK INSIGHTS
Agentic 生产级工程实践的 4 个坑
从 Figma 设计稿转目标代码的项目中攒下的 4 个真实经验
Kieran Zhang
天行健,君子以自强不息
最近跑完一个 figma 设计稿转目标代码的小项目,攒了一些真实感受,分享出来。
#1 不要让大模型做 dirty work,token 很贵,attention 很宝贵
这里说的并不是让人来承担 dirty work 的工作,而是在真正的”生产线”上,尽可能将一切影响 Agent 的脏活和分散 Agent 注意力的脏活,给变成脚本,变成代码。
例如:脚手架工程、sdk 的路径配置、一些固定流程的外部工具调用
让 LLM 的注意力放在最重要的流程上,尽可能的让 LLM 做需要推理和决策的核心任务
#2 skill 不是银弹,是软约束
当长流程已经远超出了 LLM 的上下文窗口之后,大模型会不可抑制地出现”跳过某些步骤”的行为。
长上下文导致早期指令(比如 skill 里写的约束)所获得的注意力权重被稀释,模型不是”主动决定”跳过,而是在概率层面上”遗忘”了那条约束。
在最后的评分步骤中,我明确写了需要用对比工具进行”打分->反馈->修改”这样的 loop 循环,但往往可能会遗忘反馈这个步骤。
这时我们只能将流程拆散,但拆散流程是有代价的,在两个节点之间传递的上下文就要更多。
#3 可观测性,让测试集变得有价值
可观测性 Observability 是指可以看见 Agent 的每一个 decision、tool call 以及 result。
像 Claude Code、Codex 这种 Coding Agent 在 REPL 交互模式下,基本可以看见每一步的执行流程,但是需要人一直参与。在所谓的”流水线”上,Agent 的运行是一个黑盒,如果没有可观测性,只会一味地消耗 token,永远无法对流程进行改善和优化。
在批量跑测试集时,这个消耗会成倍放大。如果无法观察到问题出在哪里,那就是白白消耗了 token。下图是我跑测试集的截图,我用了 LangSmith 去观察流程中 Agent 的行为。

#4 不要只做监督者,要深度思考
有些你没有亲自跑通过的路,AI 也不会知道正确的方向。
如果陷入了无法前进的境地,请自己深度思考并实践一次,将正确的流程跑通。不要一味依赖 LLM 去寻找路径和计划方案,人不该只是监督者,更应该是深度思考者和引导者。
在思考如何将绝对布局转化为自适应布局时,LLM 提出的方案总是达不到想要的效果。于是我尝试着自己动手改写一遍,最后总结成通用性较强的步骤。