type
Post
status
Published
date
Feb 24, 2026
slug
article-gpt-5-3-codex-第一次敢把整条开发流水线全交给ai-2026最新-ww13
summary
📌 来自:matt shumer | 💡 如果你愿意为结果等上几个小时,GPT‑5.3‑Codex 真的可以独立把一整条开发、测试、部署链路自己跑完。
GPT‑5.3‑Codex 把「写代码模型」直接拉升到「全自动工程师」的层级:你只需要定义目标和验证标准,就可以按下开始键走开几个小时。它在判断力、长程稳定性、代码质量和工具闭环上的表现,远远超过了以往的模型。代价是速度和一些小小的体验问题,但对于复杂、高风险任务,这已经足以改变你的工作方式。 | 🔑 关键词:Blog、matt shumer | 🤖 由GPT-5.1分析生成
tags
Blog
matt shumer
category
博客文章
icon
📝
password
本文是对 matt shumer 的学习笔记。所有观点归原作者所有,建议阅读原文获取完整内容。
💡 如果你愿意为结果等上几个小时,GPT‑5.3‑Codex 真的可以独立把一整条开发、测试、部署链路自己跑完。
GPT‑5.3‑Codex 把「写代码模型」直接拉升到「全自动工程师」的层级:你只需要定义目标和验证标准,就可以按下开始键走开几个小时。它在判断力、长程稳定性、代码质量和工具闭环上的表现,远远超过了以往的模型。代价是速度和一些小小的体验问题,但对于复杂、高风险任务,这已经足以改变你的工作方式。
从“写代码助手”到“全自动工程师”的飞跃
这代模型的变化,不只是更聪明、更快,而是开始拥有接近人类的 判断力。你不再需要喂步骤,而是描述结果和约束,它就能把事做完,而且大多数时候,做得像你亲自上手一样。
模型进化:从 Sonnet 3.5 到 GPT‑5.3‑Codex
一年半前的 Sonnet 3.5,本质还是一个「英文转代码」工具:很好用,但你得手把手指挥,它几乎只会照着你说的做。后来几代模型逐渐变成「靠谱一点的初级工程师」,可以跑更大的任务,但你还是要靠 10~20 个 Prompt 去磨一个复杂功能,迭代依然费力。
GPT‑5 是第一次明显的相变,你可以开始给「大目标」而不是「小步骤」,但在大仓库、复杂约束里,仍然容易犯错,而且需要你非常详细地规定「怎么做」。Opus 4.5 再次跃迁,速度极快,大部分任务也能一把过,但它喜欢选「最快看起来像完成」的路径——打补丁、绕过根因、或者做出你不会在线上发版的方案,那最后 5~10% 的判断差异,会在几小时后的返工里狠狠反噬你。
GPT‑5.3‑Codex 把这最后一段路跨过去了。对长周期、充满约束、容错率极低的工程任务,它第一次让「按下开始就敢离开电脑」变成现实。
判断力:在模糊场景下做出“你会做的选择”
真正的升级,不在算力,而在 判断力。只要某类人类判断在互联网上有足够多的数据,模型就有机会学会这种判断。围绕工程决策、架构取舍、质量与速度的平衡,已经有海量真实案例被写进数据里。
当你的需求留有解释空间时,GPT‑5.3‑Codex 往往会选你自己也会选的那条路。它补全缺失上下文时的默认假设,普遍更接近一个有经验工程师的思路,而不是「按字面、求过关」。在复杂项目里,这种「在模糊处做对假设」的能力,比表面的聪明更关键。
正因为如此,在歧义较多的任务下,GPT‑5.3‑Codex 的假设质量明显比之前的模型高很多,真正减少了后期返工。
多智能体协作:第一次感觉“各司其职”
在多 Agent 场景中,这种判断力体现得更明显。用 AgentRelay 这类框架把多个 GPT‑5.3‑Codex 实例串起来后,你会看到一种以前很少出现的协作模式:代理之间沟通简洁高效,会主动拆分为不同工作流,各自负责一块,然后汇合出一个更好的整体结果。
用同样的框架跑 Opus 时,更多是「为了对话而对话」,是否真的比单模型好,很难说清。GPT‑5.3‑Codex 的多 Agent 协作则明显提速,每个 Agent 也更专注,整体产出质量肉眼可见地提升。这种模式很快会变成常态工作流的一部分。
让 AI 真正“自己干完活”:验证与长程稳定性
要把一个模型变成真正的 Agent,有一个方法完爆其他所有技巧:一开始就给它强约束的 验证 和测试。
强验证与测试:从好模型到真实 Agent
当你一开始就给出清晰的通过/失败条件、具体测试用例和验收标准时,GPT‑5.3‑Codex 可以在这个目标上连续迭代数小时而不走神。它不会中途漂移,不会写着写着忘记最初的约束,而是会一直推到所有测试变绿、所有验收条件满足为止。
如果你不写测试,它依然很好用;但一旦有了测试,它会立刻跃迁到「另一类工具」。现在几乎所有现代编码 Agent 都能从测试中受益,但 GPT‑5.3‑Codex 在利用验证与测试做目标迭代上的效果,明显高于同代模型。
长时间运行:可以放心走开的第一次
在复杂工程任务上,这是第一款你可以启动一次运行,然后心安理得去做别的事的模型。它不会随着时间推移逐渐劣化,不会干到一半选择放弃、草草收尾。只要验证条件清晰,基本就会一路做到底。
代价是速度。和 Opus 4.5 比起来,GPT‑5.3‑Codex 明显更慢,一次运行常常要好几个小时,有的任务甚至跑了 超过 8 小时 才结束。但对于那些你「真的不想搞砸」的事情,这种稳定性换来的信任感完全值得那点时间税。
自动利用工具与上下文:本地技能、空闲时间也不浪费
另一个细节是,它会主动发现并利用本地技能和工具,而不需要你每次都提示「看看有没有现成的 skill」。很多模型不会自然扫描可用能力,GPT‑5.3‑Codex 则会,而且只在真正有帮助的时候才调用,而不是「看到就乱用」。
当命令行在跑某个进程、短时间内没什么可操作空间时,它也不会傻等着。经常会顺手去补文档、梳理上下文,或者把顺路的小问题修掉。其他模型如果你不明确指令,通常就会干等;GPT‑5.3‑Codex 更倾向于「做那个此刻最显然有价值、又不越界」的事。
代码质量、跨仓库与部署:打通完整开发闭环
能力强到能跑完一整条流水线,意义远不止省几个敲键盘的小时,更重要的是整体工程质量和工作方式的改变。
更好的代码与架构:几周后才真正显形
代码质量的提升,往往要过几周你才会完全体会到。GPT‑5.3‑Codex 产出的代码和架构,整体上比 Opus 4.5 更干净:临时补丁更少,遗留死代码更少,随着仓库演进积累下来的细微 Bug 也更少。
关键在于,它并不是「勉强把事情做完」,而是通常会把代码库整理到一个更健康的状态——这在长时间、多批次改动下尤其难得。很多模型一旦改动面变大,就容易把仓库搅乱;GPT‑5.3‑Codex 在长时运行里仍能维持比较好的整洁度。
跨仓库协作与 Railway 闭环部署
只把它锁在单仓库里,用法其实还算保守。给它更广的机器访问权限之后,你会发现一种全新的工作流:你可以直接说「在这台机器上找到负责 X 相关 API 的仓库」,它会自己去找、读代码、摸清模式,然后在当前仓库里按正确方式复用,必要时还会回到那个仓库里做修改、提交,再回到主线继续工作,而不迷路。
结合 Railway CLI 后,它甚至可以跑完一个项目的完整生命周期。你只需要说「准备好以后,把它部署到 Railway 上,并确保一切正常」,剩下它自己搞定:改代码、推代码、部署、访问真实生产 URL、tail 日志、根据真实运行情况继续迭代,直到线上环境真的稳定工作。其他模型已经能在环路里的某些环节自我纠错,比如 Opus 用日志反馈调整,Gemini 3 Pro 在 Antigravity 里用浏览器迭代等等,但 GPT‑5.3‑Codex 给人的感觉更像一个真闭环——几乎每次都能自己跑通。
结果就是:你可以在空仓库开始一个新项目,写好需求和测试,按下开始键,走开一两个小时(有时更久),回来时看到的是多个已经推到 GitHub 的新代码库、在 Railway 上跑着的新部署,以及彼此配合流畅的整个系统。
新的日常工作流:写 Prompt、设验证、然后走开
在这种能力下,你的日常工作流会自然重排。更合理的做法变成:一开始就写极其详细的 Prompt,定义清晰的验证规则和测试用例,然后让它跑。真正需要你亲自投入的大量微操作,逐渐都被前置到「目标和约束设计」阶段。
GPT‑5.3‑Codex 可能是第一个让「全自动开发」在操作层面真正可行的编码模型。速度依然是硬伤,但凭借更好的判断、更稳的长程行为,加上强验证时惊人的可靠性,它会自然成为你处理大部分重任务的首选。
实战决策:什么时候用 Codex,什么时候别用
能力再强,你依然需要一条清晰的「模型选择规则」,否则要么白白浪费性能,要么在不合适的场景踩坑。
决策规则:Codex vs Opus vs Gemini
如果你追求的是「快」而不是「深」,比如临时脚本、小功能验证、快速迭代,Opus 4.5 依然是很好的默认选择。它的响应更快、UI 和样式能力也明显比 GPT‑5.3‑Codex 强,而在纯前端视觉、交互动效这类场景,Gemini 3 Pro 目前依然体验更好。
一旦任务变成长周期、约束多、牵涉多仓库、多环境,或者你明确知道「这事绝对不能错」,就该直接上 GPT‑5.3‑Codex。现在更合理的做法,甚至是把一堆本来会丢给 Opus 的小问题,一起打包成一个大需求交给 Codex,让它跑一个小时集中解决。
关于 reasoning mode,OpenAI 默认推荐 Medium,已经很强了。但只要你打算按下开始就离开电脑,Extra High 就更合理——这是那种「可以慢一点,但要做对」的设置,和 GPT‑5.3‑Codex 的定位非常契合。
不那么“好玩”的一面:强大带来的空窗期
有趣的是,能力变强之后,使用体验并不是线性变好。因为 GPT‑5.3‑Codex 一次运行往往就能覆盖掉过去需要多次运行才能解决的大部分问题,你会突然发现:在它跑的这几个小时里,你不太知道自己该做什么。
用 Claude 或传统模型时,你还会平行开一堆小任务、补刀主任务里它做不完的部分;而当一个运行已经能包揽所有工作时,你更多是在等待。这是一个心理和节奏上的适应过程——效率提高了,但即时反馈和「参与感」反而减少了。
Prompt/Agent 设计与可见性:几个需要提前知道的小坑
如果你自己经常设计 Agent、搭建多模型工作流,要注意一点:GPT‑5.3‑Codex 并不是最擅长做 Prompt 架构和 Agent 流程设计的模型。它有时会对「什么该进 Prompt、Agent 流程如何分层」做出不够周全的决策,甚至会无意间破坏你本来设计好的 Agent 流。
在这些场景下,用 Opus 来打磨 Prompt、规划 Agent,再把清晰的方向交给 GPT‑5.3‑Codex 去「建系统、干活」,是更稳妥的组合。当然,如果你能提前给出非常明确的验证标准和行为测试,它也可以靠「不断迭代直到全绿」的方式,把一开始设计得不够好的 Agent 磨到可用。
在可见性上,还有几点小瑕疵:运行时的状态叙述有时会断掉一段时间,让你中途不太清楚它在做什么;UI 里的任务勾选列表有时要等到运行结束才会整体刷新。运行结束后的总结又常常过于充满行话,对「更偏感觉式写代码」的人不太友好,哪怕是有扎实基础的工程师,也经常需要再追问一句「帮我用白话讲讲我现在有哪些变化」。
如果你在 Mac 上用 Codex App,本体体验其实不错:同时管理多个运行、本地/云端混合、支持 worktree/branch,都很实用,只是中途状态更新的 UI 还有一些小 Bug。总体来说,现在真正值得你关注的重心,还是模型本身带来的工作方式改变。
📌 关键收获
总结
如果你愿意在一开始花时间写清需求和测试,并接受「它会慢慢做,但几乎一定能做好」,GPT‑5.3‑Codex 是第一款可以真正承担起整条开发流水线的编码模型。把快节奏的小事留给 Opus 或其他模型,把长周期、复杂、关键的任务交给 Codex,你的个人产能和代码质量都会在几周内出现非常明显的跃升。
🎯 适合谁读
适合经常写代码、维护多仓库或自己搭建 AI Agent 工作流的工程师和独立开发者阅读。
💬 原文金句
有了清晰测试,它不再只是一个强大的模型,而是变成了另一个层级的工具。
想了解更多细节? 查看原文 →
- Author:EcomGrace
- URL:http://ecomgrace.com/article/article-gpt-5-3-codex-%E7%AC%AC%E4%B8%80%E6%AC%A1%E6%95%A2%E6%8A%8A%E6%95%B4%E6%9D%A1%E5%BC%80%E5%8F%91%E6%B5%81%E6%B0%B4%E7%BA%BF%E5%85%A8%E4%BA%A4%E7%BB%99ai-2026%E6%9C%80%E6%96%B0-ww13
- Copyright:All articles in this blog, except for special statements, adopt BY-NC-SA agreement. Please indicate the source!
