The future of agentic coding with Claude Code

发布于: September 2, 2025

Sep 2, 2025, Video: The future of agentic coding with Claude Code (YouTube)

个人经历与开场
- 演讲者 Alex 回忆起自己最早学习编程的经历：在中学数学课上用 TI-83 Plus 计算器编写 BASIC 程序，把考试答案存进去。
- Alex 自我介绍：负责 Anthropic 的 Claude Relations。
- 嘉宾 Boris 自我介绍：Anthropic 技术团队成员，Claude Code 的创建者。
- 主题引入：过去 12 个月软件工程领域特别是编码方式发生了巨大变化，尤其是与 AI 结合的部分。
回顾一年前的编码现状
- 一年前的开发主要依赖 IDE 的自动补全，以及简单的 Chat 应用辅助，需要手动复制粘贴代码。
- AI 在当时更多是“功能性工具”而非深度融入的开发环节。
- 大约一年前，出现了“agent”模式，逐渐成为开发工作流的一部分。
- 与传统手动文本编辑相比，现在开发更多依赖 AI 代理来编写和修改代码。
早期 Claude Code 的尝试
- 最初版本使用 Sonnet 3.5 模型，效果有限，Boris 自己也只在大约 10% 的代码中使用。
- 尽管模型和框架（harness）都很初级，但在核心团队试用中已经展现出价值。
- 过去一年模型快速进步：从 Sonnet 3.7、Claude 4.0 到 Opus 4.1，能力显著提升。
- harness（即 Claude Code 本身）不断优化，提供了上下文管理、工具调用、权限系统等，让模型真正能在开发中发挥作用。
模型与产品的共同进化
- Anthropic 内部所有人（包括研究员）都日常使用 Claude Code。
- 使用过程中的限制和痛点直接反馈到模型和产品改进中。
- 例如：早期模型在长时间连续编辑时容易偏离目标；后来版本能更长时间保持稳定。
- 改进方式不是理论化的测试，而是研究人员实际用 Claude Code 编程并从体验中提炼改进方向。
评估与反馈循环
- Boris 强调他评估模型的新方法：直接用它完成日常开发工作，看效果如何。
- 日常开发涉及新代码编写、修 bug、读 Slack 消息、回应 GitHub issue 等，这些都能检验模型能力。
- 虽然有内部评测基准（如 SWE-bench、T-bench），但效果有限。最重要的仍是“使用体验和直觉”（vibes）。
- 关键做法：建立单一的内部反馈渠道（Slack 频道），并保证反馈能迅速得到回应和修复，从而形成正向循环。
- 这种快速迭代机制，让内部反馈源源不断，推动了 Claude Code 的演进。
Claude Code 当前状态与功能扩展
- 初衷：尽可能简单、可 hack。
- 最早的扩展方式：在仓库中加入 CLAUDE.md 文件，为模型提供额外上下文。
- 之后逐步增加：
  - 更复杂的设置系统与权限系统。
  - 钩子（hooks），允许用户在更多环节扩展 Claude Code。
  - MCP（Model Context Protocol）作为扩展点。
  - Slash commands（斜杠命令）和子代理（subagents），支持用户自定义。
- 这些机制让 Claude Code 不仅适用于代码开发，还能作为更通用的 agent SDK。
未来展望（6–24 个月）
- 开发者的工作模式将出现分化：
  - 一部分是“亲手编码”，但更多通过 Claude 来修改文本。
  - 另一部分是让 Claude 主动执行、提出改动，再由开发者决定是否接受。
- 长期来看，Claude 会从执行具体任务逐渐过渡到完成更高层级的目标（如构建完整应用）。
- 工程师的角色将从“文本编辑者”转变为“目标制定者与审查者”。
对学习与职业发展的建议
- 回忆从 TI-83 计算器到复杂现代技术栈的转变，强调过去门槛过高，而 agent 正在降低进入门槛。
- Agents 让开发更注重“想法和产品”，而不是繁琐的底层细节。
- 代码不再是稀缺资产，可以随时重写。
- 但仍需掌握基本功：语言、编译器、运行时、系统设计等。
- 同时要培养创造力，有想法就可以快速实现，甚至启动创业。
Claude Code 使用技巧与最佳实践
- 初学者建议：一开始不要让 Claude Code 写代码，而是先用它来理解代码库，提问、探索历史，熟悉它作为研究助手的角色。
- 分三类任务处理：
  - 简单任务：让 Claude 一次性生成（如直接在 GitHub issue 上 @Claude 生成 PR）。
  - 中等任务：先进入“计划模式”，与 Claude 确认计划后再自动执行。
  - 复杂任务：开发者主导，Claude 辅助研究、原型和测试，最终代码主要由人完成。
- 建议根据任务复杂度灵活调整 Claude 的使用方式，而不是“一刀切”。
结尾
- 总结对未来 agentic coding 的期待：更多自主性、更强的工具化、更低的门槛。
- 强调 Claude Code 的使命：不仅仅是写代码，而是成为开发者真正的智能伙伴。

[00:00–00:24] 开场与个人经历（TI-83 计算器 + BASIC）
- Alex 回忆他在中学数学课用 TI-83 Plus 计算器写 BASIC，把考试答案编进计算器，由此感受到“随手能 hack 的快乐”。（补充阅读：TI-83/84 上的 TI-BASIC 入门教程与手册）12 (Wikibooks)
[00:25–00:44] 嘉宾与主题
- 主持人 Alex（Anthropic 的 Claude Relations），嘉宾 Boris（Claude Code 的创建者，Anthropic 技术成员）。主题：Claude Code 与软件工程的未来，过去 12 个月变化极快。
[00:45–01:01] “回顾过去一年”问题抛出
- Alex 请 Boris 总结：一年来编码方式发生了什么变化、当前处于什么阶段。
[01:02–01:24] 一年前的典型工作流
- 开发主要靠 IDE 自动补全 + 聊天应用，频繁复制粘贴；AI 当时只是辅助工具，不在“内环”。
[01:25–01:47] 代理（agent）进入“内环”
- 近一年最显著变化：编码时开始“用代理”，而非直接在 IDE 中逐字符编辑；从“按 Tab”变为“模型替你写”。
[01:48–02:20] 从手动编辑到“由模型操刀”的趋势
- 正在向更“放手”的方式过渡：告诉代理目标，由它大规模编辑甚至搭建应用。
[02:21–02:47] 去年为何做不到
- 两个原因：模型能力不足；“脚手架/外层框架”（scaffolding/harness）不完善（即在模型之上用于调度、工具、上下文的那层）。
[02:48–03:08] Claude Code 极早期
- 首发时仍用 Sonnet 3.5（非升级版），效果“能用但有限”，Boris 自己约 10% 代码用它。
[03:09–03:25] 内测采纳
- 刚发给核心团队，第二天就看到工程师在用；虽早期但已“有点用”。
[03:26–03:40] 早期“不够好但有价值”
- 模型与 harness 都不完善，但已能提供帮助。
[03:41–04:02] 模型与 harness 的一年进步
- 模型：从 3.7、4.0 到 Opus 4.1，面向“代理式编码”的能力显著提升；harness（也就是 Claude Code 本身）也进化很大。6 (Anthropic, Anthropic)
- 关键点：不能“直接用模型”，必须通过“马具（harness）”来驾驭。
[04:03–04:29] “马与马鞍”类比
- 模型像马；工程师需要“鞍”（harness/scaffolding）来正确引导。
[04:30–04:55] harness 的构成
- harness = Claude Code：系统提示词、上下文管理、工具、可插入 MCP 服务器、设置、权限等。1 (Anthropic)
[04:56–05:19] 让模型“看见”一切上下文
- harness 把上下文与工具输送给模型，显著影响表现；过去一年在“如何为模型构建”上积累了方法。
[05:20–05:36] “共同进化（coevolve）”的由来
- 不是纯训练层面的“设定”，而是自然产生：Anthropic 内部包含研究员在内“人人用 Claude Code”。
[05:37–05:54] 从日常使用中发现上限
- 例如：字符串替换失败属“模型能力问题”，可据此改进。
[05:55–06:12] 自主运行“续航”变长
- 让模型“自己跑”：从 3.5 只能短时间不跑偏，到新模型可更久稳定；源于人机配合中反复“纠偏→教学”的经验。
[06:13–06:29] 如何评估新模型/新功能
- Boris：最好的评估是“我就用它做当天真实工作”。
[06:30–06:52] 真实工作覆盖多能力
- 写新代码、修 bug、读 Slack、回 GitHub issue；越来越多事情模型能做；通过 MCP 拉取上下文、读消息、接 Sentry 日志辅助调试等。2 (Anthropic, Sentry_docs)
[06:53–07:10] “产品化评测”很难
- 虽尝试做 product evals，但最有效信号仍来自“真实使用”。
[07:11–07:34] 基准存在但“手感”（vibes）更关键
- 有 SWE-bench、T-Bench 等，但覆盖不了工程复杂性；真实手感更灵敏。4 (SWE-bench, GitHub)
[07:35–08:09] 开发者常问：如何做提示词测试？
- Claude Code 采用紧耦合的“用中反馈”循环，比固定评测套件更即时。
[08:10–08:32] “现在基本靠 vibes”
- 模型在 SWE-bench 上表现已很高，业内在寻找更难/更新的评测（如 T-Bench），但要全面覆盖工程现实仍困难。4 (SWE-bench, Terminal-Bench)
[08:33–09:07] 为什么内部 dogfooding 做得好
- 产品思路：极致倾听用户、降低反馈门槛。
[09:08–09:26] 单一 Slack 反馈通道
- 所有反馈集中到一个频道；减少“反馈进黑洞”的感觉。
[09:27–09:43] 快速修复→持续反馈“火水管”
- Boris 常抽块时间集中修复并逐条回复，形成正反馈，频道至今信息“水管爆炸”。
[09:44–10:22] 保持谦逊与用户导向
- 在 AI 新领域“没人真懂”，边做边发现，唯有持续倾听用户需求。
[10:23–10:50] 现状：简单且可 hack
- Claude Code 目标：最简与可扩展；最初的扩展点是仓库内的 CLAUDE.md 文件，作为持久上下文。1 (Anthropic)
[11:09–11:24] CLAUDE.md 的位置与版本控制
- 可在根或子目录；通常提交进代码库，随仓库一起演进。1 (Anthropic)
[11:24–12:00] 扩展点大幅增加
- 引入更复杂的设置与权限系统、hooks、MCP、slash commands、subagents 等。1 7 (Anthropic)
[12:01–12:23] Slash 命令示例
- 自定义“提交”命令，内含“如何写好 commit message”，并预先允许 git commit Bash 命令以免每次确认。7 (Anthropic)
[12:24–12:52] 代理 vs Slash 命令
- 代理可看作“带分叉上下文窗口”的 slash 命令；两者是同一事物的两面；SDK 也可用于非编码类代理。8 (Anthropic, Anthropic)
[12:53–13:08] 底层模型持续受益
- 更强自主性、更好遵循指令、更好记忆，统统反哺这些扩展能力。11 (Anthropic, Anthropic)
[13:09–13:31] 6–12 个月后的日常
- 仍有“亲手编码”，但更多是让 Claude 操作文本，你做规划与审阅。
[13:32–13:51] 从“少手写”到“模型主动”
- 模型会主动提出/完成修改，你负责取舍。
[13:52–14:35] 12–24 个月后的目标导向
- 代理将更少关注具体小任务，更多面向“按月度目标推进”的高层规划。
[14:36–14:56] 抽象层级上移
- 从“改某个文件”→“提交一个 PR”→“围绕构建一个 App 的目标推进”。
[14:57–15:21] 回到 TI-83 的启蒙
- 强调“能快速动手、即时反馈”的快乐与动机来源。
[15:22–16:04] 过去门槛太高 vs 代理降低门槛
- 传统 Web 堆栈（React、Next.js、多重构建与部署）太复杂；代理让“有想法就能快速做”。
[16:05–16:28] 代码可反复重写，代码“不再珍贵”
- 仍有“手写代码的乐趣”（同事周末写 C++ 取乐），但更重要的是“做成的东西”。
[16:29–17:33] 给学习者的建议
- 仍需基本功（语言、编译器、运行时、Web 架构、系统设计），同时要更具创意：现在你可以把产品/创业想法很快做出来。
[17:34–17:58] 最佳实践提问
- Alex 询问：作为创建者，Claude Code 的 tips 是什么？
[17:59–18:18] Tip 1：初学者先“问”，别一上来就让它写
- 先用它提问/探索代码库（例如：如何添加 logger？为何函数如此设计？看 Git 历史找答案）。
[18:19–18:39] 用作研究助手→再逐步写代码
- 先适应“代理代你做研究”的心智，再让它写代码。
[18:40–19:08] Tip 2：按难度分三类任务
- Easy：一条提示基本能搞定。
- Medium：先Plan 模式对齐计划，再切Auto-accept自动执行。10 (ClaudeLog)
- Hard：人主导、Claude 配合（做代码研究/原型/单测等）。
[19:09–19:23] Easy 任务实操
- 直接在 GitHub issue/PR 上 @Claude 让它生成 PR，解放终端。3 (Anthropic)
[19:24–19:40] Medium 任务实操
- 终端内切 Plan 模式（Shift+Tab），计划确认好再 Auto-accept 执行。10 (ClaudeLog)
[19:41–19:58] Hard 任务实操
- 人在驾驶位，Claude 做研究、原型、单测；主要实现仍由人完成。
[19:59–20:15] 收尾
- 互致感谢，结束对话。

参考与扩展阅读（按出现主题聚合）

https://docs.anthropic.com/en/docs/claude-code/overview “Claude Code 概览（官方文档）”
https://docs.anthropic.com/en/docs/mcp “Model Context Protocol（Anthropic 文档）"；https://modelcontextprotocol.io/ “MCP 官方站点”
https://docs.anthropic.com/en/docs/claude-code/github-actions “Claude Code GitHub Actions（@claude 生成 PR/修复）”
https://www.swebench.com/ “SWE-bench（真实开源 Issue 修复基准）"；https://github.com/SWE-bench/SWE-bench “SWE-bench GitHub”
https://github.com/laude-institute/terminal-bench “Terminal-Bench（真实终端环境代理评测）"；https://www.tbench.ai/news/announcement “T-Bench 公告”
https://www.anthropic.com/news/claude-opus-4-1 “Claude Opus 4.1 发布与能力提升”
https://docs.anthropic.com/en/docs/claude-code/slash-commands “Claude Code 自定义 Slash 命令”
https://docs.anthropic.com/en/docs/claude-code/sub-agents “Claude Code Subagents（子代理）”
https://www.anthropic.com/engineering/claude-code-best-practices “Claude Code 最佳实践（工程博文）”
https://www.claudelog.com/mechanics/auto-accept-permissions/ “Plan / Auto-accept 模式与权限一键通过（键盘切换）”
https://docs.anthropic.com/en/release-notes/api “Anthropic 发布说明与最新模型”
https://en.wikibooks.org/wiki/How_to_Program_a_TI-83_Plus/Intro “TI-83 Plus 上的 TI-BASIC 入门（Wikibooks）”
https://docs.sentry.io/product/explore/logs/ “Sentry Logs（结构化日志，用于调试与观测）”

以上梳理严格依据你提供的 Transcript，外链仅用于补充“术语/机制/评测基准/集成方式”等概念说明，以便交叉验证与延伸阅读。

Tags: Claude-Code