The future of agentic coding with Claude Code
Sep 2, 2025, Video: The future of agentic coding with Claude Code (YouTube)
个人经历与开场
- 演讲者 Alex 回忆起自己最早学习编程的经历:在中学数学课上用 TI-83 Plus 计算器编写 BASIC 程序,把考试答案存进去。
- Alex 自我介绍:负责 Anthropic 的 Claude Relations。
- 嘉宾 Boris 自我介绍:Anthropic 技术团队成员,Claude Code 的创建者。
- 主题引入:过去 12 个月软件工程领域特别是编码方式发生了巨大变化,尤其是与 AI 结合的部分。
回顾一年前的编码现状
- 一年前的开发主要依赖 IDE 的自动补全,以及简单的 Chat 应用辅助,需要手动复制粘贴代码。
- AI 在当时更多是“功能性工具”而非深度融入的开发环节。
- 大约一年前,出现了“agent”模式,逐渐成为开发工作流的一部分。
- 与传统手动文本编辑相比,现在开发更多依赖 AI 代理来编写和修改代码。
早期 Claude Code 的尝试
- 最初版本使用 Sonnet 3.5 模型,效果有限,Boris 自己也只在大约 10% 的代码中使用。
- 尽管模型和框架(harness)都很初级,但在核心团队试用中已经展现出价值。
- 过去一年模型快速进步:从 Sonnet 3.7、Claude 4.0 到 Opus 4.1,能力显著提升。
- harness(即 Claude Code 本身)不断优化,提供了上下文管理、工具调用、权限系统等,让模型真正能在开发中发挥作用。
模型与产品的共同进化
- Anthropic 内部所有人(包括研究员)都日常使用 Claude Code。
- 使用过程中的限制和痛点直接反馈到模型和产品改进中。
- 例如:早期模型在长时间连续编辑时容易偏离目标;后来版本能更长时间保持稳定。
- 改进方式不是理论化的测试,而是研究人员实际用 Claude Code 编程并从体验中提炼改进方向。
评估与反馈循环
- Boris 强调他评估模型的新方法:直接用它完成日常开发工作,看效果如何。
- 日常开发涉及新代码编写、修 bug、读 Slack 消息、回应 GitHub issue 等,这些都能检验模型能力。
- 虽然有内部评测基准(如 SWE-bench、T-bench),但效果有限。最重要的仍是“使用体验和直觉”(vibes)。
- 关键做法:建立单一的内部反馈渠道(Slack 频道),并保证反馈能迅速得到回应和修复,从而形成正向循环。
- 这种快速迭代机制,让内部反馈源源不断,推动了 Claude Code 的演进。
Claude Code 当前状态与功能扩展
初衷:尽可能简单、可 hack。
最早的扩展方式:在仓库中加入 CLAUDE.md 文件,为模型提供额外上下文。
之后逐步增加:
- 更复杂的设置系统与权限系统。
- 钩子(hooks),允许用户在更多环节扩展 Claude Code。
- MCP(Model Context Protocol)作为扩展点。
- Slash commands(斜杠命令)和子代理(subagents),支持用户自定义。
这些机制让 Claude Code 不仅适用于代码开发,还能作为更通用的 agent SDK。
未来展望(6–24 个月)
开发者的工作模式将出现分化:
- 一部分是“亲手编码”,但更多通过 Claude 来修改文本。
- 另一部分是让 Claude 主动执行、提出改动,再由开发者决定是否接受。
长期来看,Claude 会从执行具体任务逐渐过渡到完成更高层级的目标(如构建完整应用)。
工程师的角色将从“文本编辑者”转变为“目标制定者与审查者”。
对学习与职业发展的建议
- 回忆从 TI-83 计算器到复杂现代技术栈的转变,强调过去门槛过高,而 agent 正在降低进入门槛。
- Agents 让开发更注重“想法和产品”,而不是繁琐的底层细节。
- 代码不再是稀缺资产,可以随时重写。
- 但仍需掌握基本功:语言、编译器、运行时、系统设计等。
- 同时要培养创造力,有想法就可以快速实现,甚至启动创业。
Claude Code 使用技巧与最佳实践
初学者建议:一开始不要让 Claude Code 写代码,而是先用它来理解代码库,提问、探索历史,熟悉它作为研究助手的角色。
分三类任务处理:
- 简单任务:让 Claude 一次性生成(如直接在 GitHub issue 上 @Claude 生成 PR)。
- 中等任务:先进入“计划模式”,与 Claude 确认计划后再自动执行。
- 复杂任务:开发者主导,Claude 辅助研究、原型和测试,最终代码主要由人完成。
建议根据任务复杂度灵活调整 Claude 的使用方式,而不是“一刀切”。
结尾
- 总结对未来 agentic coding 的期待:更多自主性、更强的工具化、更低的门槛。
- 强调 Claude Code 的使命:不仅仅是写代码,而是成为开发者真正的智能伙伴。
[00:00–00:24] 开场与个人经历(TI-83 计算器 + BASIC)
[00:25–00:44] 嘉宾与主题
- 主持人 Alex(Anthropic 的 Claude Relations),嘉宾 Boris(Claude Code 的创建者,Anthropic 技术成员)。主题:Claude Code 与软件工程的未来,过去 12 个月变化极快。
[00:45–01:01] “回顾过去一年”问题抛出
- Alex 请 Boris 总结:一年来编码方式发生了什么变化、当前处于什么阶段。
[01:02–01:24] 一年前的典型工作流
- 开发主要靠 IDE 自动补全 + 聊天应用,频繁复制粘贴;AI 当时只是辅助工具,不在“内环”。
[01:25–01:47] 代理(agent)进入“内环”
- 近一年最显著变化:编码时开始“用代理”,而非直接在 IDE 中逐字符编辑;从“按 Tab”变为“模型替你写”。
[01:48–02:20] 从手动编辑到“由模型操刀”的趋势
- 正在向更“放手”的方式过渡:告诉代理目标,由它大规模编辑甚至搭建应用。
[02:21–02:47] 去年为何做不到
- 两个原因:模型能力不足;“脚手架/外层框架”(scaffolding/harness)不完善(即在模型之上用于调度、工具、上下文的那层)。
[02:48–03:08] Claude Code 极早期
- 首发时仍用 Sonnet 3.5(非升级版),效果“能用但有限”,Boris 自己约 10% 代码用它。
[03:09–03:25] 内测采纳
- 刚发给核心团队,第二天就看到工程师在用;虽早期但已“有点用”。
[03:26–03:40] 早期“不够好但有价值”
- 模型与 harness 都不完善,但已能提供帮助。
[03:41–04:02] 模型与 harness 的一年进步
[04:03–04:29] “马与马鞍”类比
- 模型像马;工程师需要“鞍”(harness/scaffolding)来正确引导。
[04:30–04:55] harness 的构成
[04:56–05:19] 让模型“看见”一切上下文
- harness 把上下文与工具输送给模型,显著影响表现;过去一年在“如何为模型构建”上积累了方法。
[05:20–05:36] “共同进化(coevolve)”的由来
- 不是纯训练层面的“设定”,而是自然产生:Anthropic 内部包含研究员在内“人人用 Claude Code”。
[05:37–05:54] 从日常使用中发现上限
- 例如:字符串替换失败属“模型能力问题”,可据此改进。
[05:55–06:12] 自主运行“续航”变长
- 让模型“自己跑”:从 3.5 只能短时间不跑偏,到新模型可更久稳定;源于人机配合中反复“纠偏→教学”的经验。
[06:13–06:29] 如何评估新模型/新功能
- Boris:最好的评估是“我就用它做当天真实工作”。
[06:30–06:52] 真实工作覆盖多能力
- 写新代码、修 bug、读 Slack、回 GitHub issue;越来越多事情模型能做;通过 MCP 拉取上下文、读消息、接 Sentry 日志辅助调试等。2 (Anthropic, Sentry_docs)
[06:53–07:10] “产品化评测”很难
- 虽尝试做 product evals,但最有效信号仍来自“真实使用”。
[07:11–07:34] 基准存在但“手感”(vibes)更关键
[07:35–08:09] 开发者常问:如何做提示词测试?
- Claude Code 采用紧耦合的“用中反馈”循环,比固定评测套件更即时。
[08:10–08:32] “现在基本靠 vibes”
- 模型在 SWE-bench 上表现已很高,业内在寻找更难/更新的评测(如 T-Bench),但要全面覆盖工程现实仍困难。4 (SWE-bench, Terminal-Bench)
[08:33–09:07] 为什么内部 dogfooding 做得好
- 产品思路:极致倾听用户、降低反馈门槛。
[09:08–09:26] 单一 Slack 反馈通道
- 所有反馈集中到一个频道;减少“反馈进黑洞”的感觉。
[09:27–09:43] 快速修复→持续反馈“火水管”
- Boris 常抽块时间集中修复并逐条回复,形成正反馈,频道至今信息“水管爆炸”。
[09:44–10:22] 保持谦逊与用户导向
- 在 AI 新领域“没人真懂”,边做边发现,唯有持续倾听用户需求。
[10:23–10:50] 现状:简单且可 hack
[11:09–11:24] CLAUDE.md 的位置与版本控制
[11:24–12:00] 扩展点大幅增加
[12:01–12:23] Slash 命令示例
[12:24–12:52] 代理 vs Slash 命令
[12:53–13:08] 底层模型持续受益
[13:09–13:31] 6–12 个月后的日常
- 仍有“亲手编码”,但更多是让 Claude 操作文本,你做规划与审阅。
[13:32–13:51] 从“少手写”到“模型主动”
- 模型会主动提出/完成修改,你负责取舍。
[13:52–14:35] 12–24 个月后的目标导向
- 代理将更少关注具体小任务,更多面向“按月度目标推进”的高层规划。
[14:36–14:56] 抽象层级上移
- 从“改某个文件”→“提交一个 PR”→“围绕构建一个 App 的目标推进”。
[14:57–15:21] 回到 TI-83 的启蒙
- 强调“能快速动手、即时反馈”的快乐与动机来源。
[15:22–16:04] 过去门槛太高 vs 代理降低门槛
- 传统 Web 堆栈(React、Next.js、多重构建与部署)太复杂;代理让“有想法就能快速做”。
[16:05–16:28] 代码可反复重写,代码“不再珍贵”
- 仍有“手写代码的乐趣”(同事周末写 C++ 取乐),但更重要的是“做成的东西”。
[16:29–17:33] 给学习者的建议
- 仍需基本功(语言、编译器、运行时、Web 架构、系统设计),同时要更具创意:现在你可以把产品/创业想法很快做出来。
[17:34–17:58] 最佳实践提问
- Alex 询问:作为创建者,Claude Code 的 tips 是什么?
[17:59–18:18] Tip 1:初学者先“问”,别一上来就让它写
- 先用它提问/探索代码库(例如:如何添加 logger?为何函数如此设计?看 Git 历史找答案)。
[18:19–18:39] 用作研究助手→再逐步写代码
- 先适应“代理代你做研究”的心智,再让它写代码。
[18:40–19:08] Tip 2:按难度分三类任务
[19:09–19:23] Easy 任务实操
[19:24–19:40] Medium 任务实操
[19:41–19:58] Hard 任务实操
- 人在驾驶位,Claude 做研究、原型、单测;主要实现仍由人完成。
[19:59–20:15] 收尾
- 互致感谢,结束对话。
参考与扩展阅读(按出现主题聚合)
- https://docs.anthropic.com/en/docs/claude-code/overview “Claude Code 概览(官方文档)”
- https://docs.anthropic.com/en/docs/mcp “Model Context Protocol(Anthropic 文档)";https://modelcontextprotocol.io/ “MCP 官方站点”
- https://docs.anthropic.com/en/docs/claude-code/github-actions “Claude Code GitHub Actions(@claude 生成 PR/修复)”
- https://www.swebench.com/ “SWE-bench(真实开源 Issue 修复基准)";https://github.com/SWE-bench/SWE-bench “SWE-bench GitHub”
- https://github.com/laude-institute/terminal-bench “Terminal-Bench(真实终端环境代理评测)";https://www.tbench.ai/news/announcement “T-Bench 公告”
- https://www.anthropic.com/news/claude-opus-4-1 “Claude Opus 4.1 发布与能力提升”
- https://docs.anthropic.com/en/docs/claude-code/slash-commands “Claude Code 自定义 Slash 命令”
- https://docs.anthropic.com/en/docs/claude-code/sub-agents “Claude Code Subagents(子代理)”
- https://www.anthropic.com/engineering/claude-code-best-practices “Claude Code 最佳实践(工程博文)”
- https://www.claudelog.com/mechanics/auto-accept-permissions/ “Plan / Auto-accept 模式与权限一键通过(键盘切换)”
- https://docs.anthropic.com/en/release-notes/api “Anthropic 发布说明与最新模型”
- https://en.wikibooks.org/wiki/How_to_Program_a_TI-83_Plus/Intro “TI-83 Plus 上的 TI-BASIC 入门(Wikibooks)”
- https://docs.sentry.io/product/explore/logs/ “Sentry Logs(结构化日志,用于调试与观测)”
以上梳理严格依据你提供的 Transcript,外链仅用于补充“术语/机制/评测基准/集成方式”等概念说明,以便交叉验证与延伸阅读。