近日,Anthropic 举办了首届开发者大会 "Code with Claude",首席产品官 Mike Kriger 和 CEO 兼联合创始人 Dario Amade 等人发表了主题演讲,分享了 Anthropic 在 AI 领域的最新进展以及如何赋能开发者构建强大的 AI Agent。
Anthropic 的愿景是构建强大、有益且值得信赖的 AI 系统。本次大会的核心承诺是赋能开发者,变革工作方式和公司建设模式。这种变革在于增强而非取代人类创造力。AI Agent 正在改变我们的工作和创新方式,通过移除限制人类生产力的瓶颈来扩展我们能构建的东西。
大会内容包括三场技术深度探讨、五场由使用 Anthropic 平台的领先公司分享的应用案例,以及提供实践经验的办公时间与工作坊。
重磅发布:Claude 4 Opus 和 Sonnet
大会最激动人心的消息之一是正式发布 Claude 4 Opus 和 Claude 4 Sonnet。CEO Dario Amade 宣布,从发布的那一刻起,这两款新模型已在其所有相关产品服务上可用。
- Claude 4 Opus:这是 Anthropic 最强大、最智能的模型。它特别针对编码和 Agent 任务而设计。Opus 在 Sweetbench、Terminal Bench 等基准测试中达到了最先进的水平。尽管基准测试无法完全体现其能力,但预览客户发现 Opus 可以自主完成需要人类花费六七小时的任务。Anthropic 的高级工程师们也对其带来的生产力提升感到惊讶。Dario 甚至分享了一个他第一次被 Claude 生成的内部总结、文档和想法“骗到”的例子,他误以为是团队成员写的,直到仔细看到署名才发现是 Claude。
- Claude 4 Sonnet:这是 Anthropic 的中等级别模型。Sonnet 4 相较于 Sonnet 3.5 是一个显著的改进,且成本保持不变,同时智能程度更高。许多客户正在直接从 3.5 切换到 4。虽然它在某些编码基准测试上的表现与 Opus 一样好,但 Sonnet 4 更精简、更专注于特定任务。它尤其解决了 Sonnet 3.5 中存在的“过度热情”问题,即倾向于做超出要求的事情。Sonnet 4 非常适合日常编码任务、应用开发和结对编程,也是高吞吐量用例的理想选择。它完美平衡了效率和性能,可被视为“永远在线的编码伙伴”。
Mike Kriger 强调,Cloud 4 的目标是构建能够安全地引入新模型能力、持续推进编码和 AI Agent 边界、并成为您的虚拟协作伙伴的强大 AI。Opus 4 擅长理解代码库并规划添加内容,在迁移和代码重构等方面极其有效和准确。对于最复杂的 Agent 工作流,Opus 4 是正确的选择。如果您在使用其他模型时遇到了瓶颈,Opus 4 可能会带来惊喜。
这两款模型都是混合模型,拥有两种模式:近乎即时响应和需要更深入推理时的扩展思考。即使是非编码和非数学用例,也有许多客户使用深度推理模式。
Claude 4 Opus 和 Sonnet 目前已在 Claude、Claude Code、Anthropic API、Amazon Bedrock 和 Google Cloud 的 Vert.ex AI 上可用。免费层级用户目前只能使用 Sonnet。
增强 AI Agent 能力的新特性
新模型为构建 AI Agent 带来了关键的新能力:
- 它们可以在推理过程中使用工具,例如网络搜索。
- 它们可以并行处理多个工具。
- 当被授予访问本地文件的权限时,它们可以跨会话维护记忆,随时间构建知识。
这些并非渐进式改进,而是从根本上改变了 AI Agent 的可能性。Anthropic 认为,凭借正确的底层模型和平台工具,AI Agent 可以前所未有的规模将人类想象力转化为切实的现实。特别是对于初创公司和开发者,AI Agent 可以帮助他们并行运行实验、从用户那里学习并更快地构建产品。
Mike Kriger 分享了他使用 Claude 构建 Alexa 演示的经历,强调了 Claude 在极短时间内实现复杂任务的能力。Anthropic 的经济研究也证实,AI 在大多数用例中是增强而非取代人类工作,更多是关于任务而非整个角色。优秀的 AI Agent 应该擅长三种能力:
- 情境智能 (Contextual Intelligence):理解用户和组织的独特情境,并从经验中持续学习,理解“为什么”和“如何”,从而随时间学习和个性化,获得情境、情景和组织记忆。正如 Mike 所说,您与 Agent 的第一百个任务应该比第一个更好。
- 长期执行 (Long-running Execution):无需持续管理即可处理复杂的、长达数小时的任务,并在需要时与其他 Agent 和人类协作。
- 真正的协作 (Genuine Collaboration):进行有意义的对话,适应您的工作风格,并为其行为提供透明的理由。
真正的 Agent 能力意味着智能的自主性,同时保持清晰的检查点和人类对关键决策的监督。
面向开发者的关键能力和工具
Anthropic 宣布了四项相互关联的能力,以增强 Agent 的情境理解和扩展能力:
- 代码执行工具 (Code Execution Tool):通过 API 提供,为 Claude 提供了一个可以运行代码的环境。这使得 Claude 可以作为数据分析师,将原始数据转化为可视化洞察。Claude 不再只是写代码,现在它可以执行代码,查看结果,并迭代地优化结果和代码,以更好地突出数据中的模式。它能处理长达数小时的任务,节省开发者大量时间。Rocketin 提到他们让 Claude 独立运行了令人难以置信的七小时并保持了性能。
- 模型情境协议 (Model Context Protocol - MCP):现已通过 API 提供,是 AI Agent 的通用翻译器和连接器。它无需为每次集成编写定制代码,即可无缝连接到现有系统。MCP 已被 Microsoft、Google、OpenAI、Block、Atlassian、Zapier、Linear 等公司采用。GitHub 的 Mario Rodriguez 将 MCP 类比为网络的 HTTP 协议,强调其重要性,认为它是将知识引入智能模型的方式。通过 MCP,Agent 可以访问 Sentry 应用错误、触发 Zapier 工作流或创建 Asana 任务。
- 网络搜索 (Web Search):赋予 Claude 实时访问当前信息的能力。这是一种智能数据增强,使 Claude 能够对当前事件、市场趋势和新兴技术进行推理。与 MCP 结合使用时尤其强大,例如,可以搜索内部知识源,获得新见解,然后通过网络搜索进行情境化。
- 文件 API (Files API):现已在 API 中提供,简化了开发者访问和存储文档的方式。Anthropic 还发布了一个 Cookbook 来帮助开发者直接在应用中构建记忆功能。新的 Claude 4 模型在自我管理记忆方面有显著改进,结合 Files API,可以用很少的额外开销实现记忆功能。Claude 可以读取和写入记忆文件,并随时间维护情境。
此外,平台更新还包括:
- Claude Code:Anthropic 的 Agent 编码工具,现已从研究预览版转为通用版本。它最初是 Anthropic 内部的一个实验项目。目前大多数 Anthropic 员工日常使用 Claude Code,它已将技术新员工的上手时间从两三周缩短到两三天。
- IDE 集成:Claude Code 现在直接集成到 VS Code 和 JetBrains 中,提供完整的 Diff 视图和 Agent 工作流管理。开发者可以在编辑器中查看 Claude Code 提出的修改建议,批准每次编辑或使用自动接受模式。
- Claude Code SDK:现已发布,允许开发者基于与 Claude Code 相同的核心 Agent 构建自己的应用。一个例子是在 GitHub 中运行 Claude Code。开发者可以在 GitHub Pull Request 或 Issue 中标记 @Claude,它将回应评审意见、修改代码或实现测试覆盖率。这使得 Claude Code 可以在终端、远程环境(如 GitHub)和 IDE 中作为虚拟队友工作。Cat Woo 演示了使用 Claude Code 在 Excalidraw 项目中实现一个表格组件,该任务通常需要数天手动完成,而 Claude Code 在 90 分钟内就完成了,包括编写代码、测试和提交 PR。
- Prompt Caching:这是 Anthropic 最受欢迎的 API 功能之一。它允许客户提供更多情境和背景知识,并将成本降低高达 90%,延迟降低高达 85%。今天,Prompt Caching 的 TTL(生存时间)从 5 分钟延长到 1 小时,这大大降低了长期运行 Agent 工作流的成本。
这些能力相互补充,形成了连贯的 Agent 构建故事。Claude 现在可以执行代码、理解系统、访问实时网络信息,为在完整情境下运行 Agent 奠定了基础,即使是长期运行的任务。通过 Files API,它可以在整个执行过程中维护记忆和情境。
安全与可信赖的 AI Agent
构建高性能、可靠的 Agent 至关重要,但没有责任感的 Agent 可能是危险的,尤其是在涉及自我改进的产品以及企业环境中严格的安全和合规要求时。广泛采用 Agent 需要提高模型的辨别力和判断力,特别是在保密性、决策和协调方面。Anthropic 的每项功能都包含了架构安全检查点和控制。Agent 在重大决策时暂停,允许用户定义需要人工批准的操作。它们针对利用(如提示注入)具有鲁棒性,并通过清晰的反馈循环和可观察行为实现透明设计。信任 Agent 自主行动,开发者就能专注于创新而非缓解问题。
Mike Kriger 还强调了可解释性 (Interpretability),即理解 AI 模型内部运作的科学。Dario Amade 最近撰写了关于理解 AI 系统工作方式的紧迫性的文章,将其比作对 AI 进行 MRI 扫描,以发现潜在问题(如欺骗)并进行纠正。Anthropic 的研究(如 Golden Gate Claude)直接驱动产品。用于创建 Golden Gate Claude 的技术未来可以帮助减少模型的有害行为或改善特定领域的模型性能。在企业中部署虚拟协作伙伴时,可解释性和可审计性将成为其工作的基础。
展望未来
Dario Amade 认为,Claude 4 是“有爱之机器 (Machines of Loving Grace)”愿景的一部分,这个愿景在很大程度上是未来几年的产品路线图。他特别对以下领域感到兴奋:
- Agent 自主性:未来,Agent 的自主性将大大提升,开发者能够让模型长时间自主完成任务。
- 网络安全任务:他认为模型可能已经达到了处理高端网络安全编码任务的门槛。
- 生物医学和科学研究:作为前生物学家,Dario 对使用模型进行详细的科学研究感到兴奋,特别是 Opus 模型在这方面可能表现出色。他认为计算生物学家将因这些模型而大大加速工作。通过 MCP 连接实验室设备进行研究也是一个有趣的可能性。
Dario Amade 分享了他使用 Claude 4 的突破性时刻,例如模型一次性解决了极其困难的性能工程任务。他也提到了模型开发中的“炼金术”时刻,即在最后时刻模型的能力突然“点亮”。
对于开发者,Dario Amade 的建议是“保持雄心壮志 (Be ambitious)”。构建超出您认为可能的东西。即使当前模型未能完全实现,下一代模型(发布速度越来越快)可能会使其变为可能。他认为,有时“撞墙”是有益的,因为当模型最终足够强大时,您已经将所有其他部分构建到位,从而实现一个更强大的方案。
展望未来一年,Dario 对编码领域的进展感到兴奋。从 Claude Code 到 Agent 集群,软件生产成本可能会大幅下降。这将改变开发者、企业和初创公司的角色,以及用户体验,这些都是未知但令人兴奋的变化。
展望未来五年,他再次提到了生物学。尽管生物医学领域的革命需要更长时间,但他希望五年后,AI 能够帮助战胜现在存在的许多疾病。
大会以 Mike Kriger 的感谢和为现场参会者提供的 Max 20X 免费访问福利结束。
总之,Anthropic 在 Code with Claude 大会上展示了 Claude 4 模型、强大的开发者工具和平台能力,这些都旨在赋能开发者构建能够增强人类能力的下一代 AI Agent,开启一个 AI Agent 驱动的新时代。