The future of agentic coding with Claude Code

Sep 2, 2025, Video: The future of agentic coding with Claude Code (YouTube)


  • 个人经历与开场

    • 演讲者 Alex 回忆起自己最早学习编程的经历:在中学数学课上用 TI-83 Plus 计算器编写 BASIC 程序,把考试答案存进去。
    • Alex 自我介绍:负责 Anthropic 的 Claude Relations。
    • 嘉宾 Boris 自我介绍:Anthropic 技术团队成员,Claude Code 的创建者。
    • 主题引入:过去 12 个月软件工程领域特别是编码方式发生了巨大变化,尤其是与 AI 结合的部分。
  • 回顾一年前的编码现状

    • 一年前的开发主要依赖 IDE 的自动补全,以及简单的 Chat 应用辅助,需要手动复制粘贴代码。
    • AI 在当时更多是“功能性工具”而非深度融入的开发环节。
    • 大约一年前,出现了“agent”模式,逐渐成为开发工作流的一部分。
    • 与传统手动文本编辑相比,现在开发更多依赖 AI 代理来编写和修改代码。
  • 早期 Claude Code 的尝试

    • 最初版本使用 Sonnet 3.5 模型,效果有限,Boris 自己也只在大约 10% 的代码中使用。
    • 尽管模型和框架(harness)都很初级,但在核心团队试用中已经展现出价值。
    • 过去一年模型快速进步:从 Sonnet 3.7、Claude 4.0 到 Opus 4.1,能力显著提升。
    • harness(即 Claude Code 本身)不断优化,提供了上下文管理、工具调用、权限系统等,让模型真正能在开发中发挥作用。
  • 模型与产品的共同进化

    • Anthropic 内部所有人(包括研究员)都日常使用 Claude Code。
    • 使用过程中的限制和痛点直接反馈到模型和产品改进中。
    • 例如:早期模型在长时间连续编辑时容易偏离目标;后来版本能更长时间保持稳定。
    • 改进方式不是理论化的测试,而是研究人员实际用 Claude Code 编程并从体验中提炼改进方向。
  • 评估与反馈循环

    • Boris 强调他评估模型的新方法:直接用它完成日常开发工作,看效果如何。
    • 日常开发涉及新代码编写、修 bug、读 Slack 消息、回应 GitHub issue 等,这些都能检验模型能力。
    • 虽然有内部评测基准(如 SWE-bench、T-bench),但效果有限。最重要的仍是“使用体验和直觉”(vibes)。
    • 关键做法:建立单一的内部反馈渠道(Slack 频道),并保证反馈能迅速得到回应和修复,从而形成正向循环。
    • 这种快速迭代机制,让内部反馈源源不断,推动了 Claude Code 的演进。
  • Claude Code 当前状态与功能扩展

    • 初衷:尽可能简单、可 hack。

    • 最早的扩展方式:在仓库中加入 CLAUDE.md 文件,为模型提供额外上下文。

    • 之后逐步增加:

      • 更复杂的设置系统与权限系统。
      • 钩子(hooks),允许用户在更多环节扩展 Claude Code。
      • MCP(Model Context Protocol)作为扩展点。
      • Slash commands(斜杠命令)和子代理(subagents),支持用户自定义。
    • 这些机制让 Claude Code 不仅适用于代码开发,还能作为更通用的 agent SDK。

  • 未来展望(6–24 个月)

    • 开发者的工作模式将出现分化:

      • 一部分是“亲手编码”,但更多通过 Claude 来修改文本。
      • 另一部分是让 Claude 主动执行、提出改动,再由开发者决定是否接受。
    • 长期来看,Claude 会从执行具体任务逐渐过渡到完成更高层级的目标(如构建完整应用)。

    • 工程师的角色将从“文本编辑者”转变为“目标制定者与审查者”。

  • 对学习与职业发展的建议

    • 回忆从 TI-83 计算器到复杂现代技术栈的转变,强调过去门槛过高,而 agent 正在降低进入门槛。
    • Agents 让开发更注重“想法和产品”,而不是繁琐的底层细节。
    • 代码不再是稀缺资产,可以随时重写。
    • 但仍需掌握基本功:语言、编译器、运行时、系统设计等。
    • 同时要培养创造力,有想法就可以快速实现,甚至启动创业。
  • Claude Code 使用技巧与最佳实践

    • 初学者建议:一开始不要让 Claude Code 写代码,而是先用它来理解代码库,提问、探索历史,熟悉它作为研究助手的角色。

    • 分三类任务处理

      • 简单任务:让 Claude 一次性生成(如直接在 GitHub issue 上 @Claude 生成 PR)。
      • 中等任务:先进入“计划模式”,与 Claude 确认计划后再自动执行。
      • 复杂任务:开发者主导,Claude 辅助研究、原型和测试,最终代码主要由人完成。
    • 建议根据任务复杂度灵活调整 Claude 的使用方式,而不是“一刀切”。

  • 结尾

    • 总结对未来 agentic coding 的期待:更多自主性、更强的工具化、更低的门槛。
    • 强调 Claude Code 的使命:不仅仅是写代码,而是成为开发者真正的智能伙伴。

  • [00:00–00:24] 开场与个人经历(TI-83 计算器 + BASIC)

    • Alex 回忆他在中学数学课用 TI-83 Plus 计算器写 BASIC,把考试答案编进计算器,由此感受到“随手能 hack 的快乐”。(补充阅读:TI-83/84 上的 TI-BASIC 入门教程与手册)12 (Wikibooks)
  • [00:25–00:44] 嘉宾与主题

    • 主持人 Alex(Anthropic 的 Claude Relations),嘉宾 Boris(Claude Code 的创建者,Anthropic 技术成员)。主题:Claude Code 与软件工程的未来,过去 12 个月变化极快。
  • [00:45–01:01] “回顾过去一年”问题抛出

    • Alex 请 Boris 总结:一年来编码方式发生了什么变化、当前处于什么阶段。
  • [01:02–01:24] 一年前的典型工作流

    • 开发主要靠 IDE 自动补全 + 聊天应用,频繁复制粘贴;AI 当时只是辅助工具,不在“内环”。
  • [01:25–01:47] 代理(agent)进入“内环”

    • 近一年最显著变化:编码时开始“用代理”,而非直接在 IDE 中逐字符编辑;从“按 Tab”变为“模型替你写”。
  • [01:48–02:20] 从手动编辑到“由模型操刀”的趋势

    • 正在向更“放手”的方式过渡:告诉代理目标,由它大规模编辑甚至搭建应用。
  • [02:21–02:47] 去年为何做不到

    • 两个原因:模型能力不足;“脚手架/外层框架”(scaffolding/harness)不完善(即在模型之上用于调度、工具、上下文的那层)。
  • [02:48–03:08] Claude Code 极早期

    • 首发时仍用 Sonnet 3.5(非升级版),效果“能用但有限”,Boris 自己约 10% 代码用它。
  • [03:09–03:25] 内测采纳

    • 刚发给核心团队,第二天就看到工程师在用;虽早期但已“有点用”。
  • [03:26–03:40] 早期“不够好但有价值”

    • 模型与 harness 都不完善,但已能提供帮助。
  • [03:41–04:02] 模型与 harness 的一年进步

    • 模型:从 3.7、4.0 到 Opus 4.1,面向“代理式编码”的能力显著提升;harness(也就是 Claude Code 本身)也进化很大。6 (Anthropic, Anthropic)
    • 关键点:不能“直接用模型”,必须通过“马具(harness)”来驾驭。
  • [04:03–04:29] “马与马鞍”类比

    • 模型像马;工程师需要“鞍”(harness/scaffolding)来正确引导。
  • [04:30–04:55] harness 的构成

    • harness = Claude Code:系统提示词、上下文管理、工具、可插入 MCP 服务器、设置、权限等。1 (Anthropic)
  • [04:56–05:19] 让模型“看见”一切上下文

    • harness 把上下文与工具输送给模型,显著影响表现;过去一年在“如何为模型构建”上积累了方法。
  • [05:20–05:36] “共同进化(coevolve)”的由来

    • 不是纯训练层面的“设定”,而是自然产生:Anthropic 内部包含研究员在内“人人用 Claude Code”。
  • [05:37–05:54] 从日常使用中发现上限

    • 例如:字符串替换失败属“模型能力问题”,可据此改进。
  • [05:55–06:12] 自主运行“续航”变长

    • 让模型“自己跑”:从 3.5 只能短时间不跑偏,到新模型可更久稳定;源于人机配合中反复“纠偏→教学”的经验。
  • [06:13–06:29] 如何评估新模型/新功能

    • Boris:最好的评估是“我就用它做当天真实工作”。
  • [06:30–06:52] 真实工作覆盖多能力

    • 写新代码、修 bug、读 Slack、回 GitHub issue;越来越多事情模型能做;通过 MCP 拉取上下文、读消息、接 Sentry 日志辅助调试等。2 (Anthropic, Sentry_docs)
  • [06:53–07:10] “产品化评测”很难

    • 虽尝试做 product evals,但最有效信号仍来自“真实使用”。
  • [07:11–07:34] 基准存在但“手感”(vibes)更关键

    • 有 SWE-bench、T-Bench 等,但覆盖不了工程复杂性;真实手感更灵敏。4 (SWE-bench, GitHub)
  • [07:35–08:09] 开发者常问:如何做提示词测试?

    • Claude Code 采用紧耦合的“用中反馈”循环,比固定评测套件更即时。
  • [08:10–08:32] “现在基本靠 vibes”

    • 模型在 SWE-bench 上表现已很高,业内在寻找更难/更新的评测(如 T-Bench),但要全面覆盖工程现实仍困难。4 (SWE-bench, Terminal-Bench)
  • [08:33–09:07] 为什么内部 dogfooding 做得好

    • 产品思路:极致倾听用户、降低反馈门槛。
  • [09:08–09:26] 单一 Slack 反馈通道

    • 所有反馈集中到一个频道;减少“反馈进黑洞”的感觉。
  • [09:27–09:43] 快速修复→持续反馈“火水管”

    • Boris 常抽块时间集中修复并逐条回复,形成正反馈,频道至今信息“水管爆炸”。
  • [09:44–10:22] 保持谦逊与用户导向

    • 在 AI 新领域“没人真懂”,边做边发现,唯有持续倾听用户需求。
  • [10:23–10:50] 现状:简单且可 hack

    • Claude Code 目标:最简与可扩展;最初的扩展点是仓库内的 CLAUDE.md 文件,作为持久上下文。1 (Anthropic)
  • [11:09–11:24] CLAUDE.md 的位置与版本控制

    • 可在根或子目录;通常提交进代码库,随仓库一起演进。1 (Anthropic)
  • [11:24–12:00] 扩展点大幅增加

    • 引入更复杂的设置与权限系统、hooksMCPslash commandssubagents 等。17 (Anthropic)
  • [12:01–12:23] Slash 命令示例

    • 自定义“提交”命令,内含“如何写好 commit message”,并预先允许 git commit Bash 命令以免每次确认。7 (Anthropic)
  • [12:24–12:52] 代理 vs Slash 命令

    • 代理可看作“带分叉上下文窗口”的 slash 命令;两者是同一事物的两面;SDK 也可用于非编码类代理。8 (Anthropic, Anthropic)
  • [12:53–13:08] 底层模型持续受益

    • 更强自主性、更好遵循指令、更好记忆,统统反哺这些扩展能力。11 (Anthropic, Anthropic)
  • [13:09–13:31] 6–12 个月后的日常

    • 仍有“亲手编码”,但更多是让 Claude 操作文本,你做规划与审阅。
  • [13:32–13:51] 从“少手写”到“模型主动”

    • 模型会主动提出/完成修改,你负责取舍。
  • [13:52–14:35] 12–24 个月后的目标导向

    • 代理将更少关注具体小任务,更多面向“按月度目标推进”的高层规划。
  • [14:36–14:56] 抽象层级上移

    • 从“改某个文件”→“提交一个 PR”→“围绕构建一个 App 的目标推进”。
  • [14:57–15:21] 回到 TI-83 的启蒙

    • 强调“能快速动手、即时反馈”的快乐与动机来源。
  • [15:22–16:04] 过去门槛太高 vs 代理降低门槛

    • 传统 Web 堆栈(React、Next.js、多重构建与部署)太复杂;代理让“有想法就能快速做”。
  • [16:05–16:28] 代码可反复重写,代码“不再珍贵”

    • 仍有“手写代码的乐趣”(同事周末写 C++ 取乐),但更重要的是“做成的东西”。
  • [16:29–17:33] 给学习者的建议

    • 仍需基本功(语言、编译器、运行时、Web 架构、系统设计),同时要更具创意:现在你可以把产品/创业想法很快做出来。
  • [17:34–17:58] 最佳实践提问

    • Alex 询问:作为创建者,Claude Code 的 tips 是什么?
  • [17:59–18:18] Tip 1:初学者先“问”,别一上来就让它写

    • 先用它提问/探索代码库(例如:如何添加 logger?为何函数如此设计?看 Git 历史找答案)。
  • [18:19–18:39] 用作研究助手→再逐步写代码

    • 先适应“代理代你做研究”的心智,再让它写代码。
  • [18:40–19:08] Tip 2:按难度分三类任务

    • Easy:一条提示基本能搞定。
    • Medium:先Plan 模式对齐计划,再切Auto-accept自动执行。10 (ClaudeLog)
    • Hard:人主导、Claude 配合(做代码研究/原型/单测等)。
  • [19:09–19:23] Easy 任务实操

    • 直接在 GitHub issue/PR 上 @Claude 让它生成 PR,解放终端。3 (Anthropic)
  • [19:24–19:40] Medium 任务实操

    • 终端内切 Plan 模式(Shift+Tab),计划确认好再 Auto-accept 执行。10 (ClaudeLog)
  • [19:41–19:58] Hard 任务实操

    • 人在驾驶位,Claude 做研究、原型、单测;主要实现仍由人完成。
  • [19:59–20:15] 收尾

    • 互致感谢,结束对话。

参考与扩展阅读(按出现主题聚合)

以上梳理严格依据你提供的 Transcript,外链仅用于补充“术语/机制/评测基准/集成方式”等概念说明,以便交叉验证与延伸阅读。