Curated

过去几周大量使用Claude编程的几点随想

Andrej Karpathy|
来源

过去几周大量使用Claude编程的几点随想。

编程工作流。鉴于最近大语言模型编码能力的提升,我和许多人一样,在十一月还保持着约80%手动+自动补全编码和20%智能体辅助的比例,到十二月已迅速转变为80%智能体编码和20%编辑润色。也就是说,我现在真的主要在用英语编程了——有点不好意思地用文字告诉大语言模型该写什么代码……这多少伤了点自尊,但能以大规模“代码动作”操作软件的能力实在太过实用,尤其当你适应它、配置它、学会使用它、并真正理解它能做什么和不能做什么之后。这无疑是我近二十年编程生涯中基础工作流程的最大变革,而这一切只在几周内发生。我预计类似情况正发生在至少两位数百分比的工程师身上,而大众对此的认知度恐怕还停留在个位数百分比。

集成开发环境/智能体集群/易错性。在我看来,目前“不再需要集成开发环境”和“智能体集群”的炒作都言过其实。模型确实仍会犯错,如果你有任何真正在乎的代码,我建议你像鹰一样盯着它们,最好在旁边开一个宽敞的集成开发环境窗口。错误的性质已大不相同——不再是简单的语法错误,而是那种略显草率、匆忙的初级开发者可能犯的微妙概念性错误。最常见的一类是模型会替你做出错误假设,并且不加验证地一路执行下去。它们也不会管理自己的困惑,不会主动寻求澄清,不会指出不一致之处,不会呈现权衡方案,在该质疑时不会反驳,而且仍然有点过于阿谀奉承。在规划模式下情况有所改善,但确实需要一种轻量级的行内规划模式。它们还特别喜欢过度复杂化代码和应用程序接口,堆砌抽象层,不会自行清理无用代码等等。它们可能会用上千行代码实现一个低效、臃肿、脆弱的构造,然后得由你来问:“呃,你不能直接这样实现吗?”它们才会回答:“当然可以!”并立刻将其缩减到一百行。它们有时仍会作为副作用,更改或删除自己不喜欢的或未能充分理解的注释和代码,即使这些内容与手头任务无关。尽管我尝试通过CLAUDE.md中的指令进行简单修正,但上述问题依然存在。尽管有这些问题,这仍然是巨大的净进步,很难想象再回到手动编码。简而言之,每人都有自己的开发流程,我目前是在左侧开几个Ghostty窗口/标签页运行少量Claude会话,右侧用集成开发环境查看代码并进行手动编辑。

韧性。观察智能体不懈地攻克某个问题非常有趣。它们从不疲倦,从不气馁,只是不断尝试,而人类可能早就放弃改日再战了。看着它长时间挣扎于某个问题,却在三十分钟后最终获胜,这是一种“感受通用人工智能”的时刻。你会意识到耐力是工作的核心瓶颈,而手握大语言模型后,这一能力已被极大提升。

加速。如何衡量大语言模型辅助带来的“加速”并不明确。我确实感觉在原本要做的事情上效率净增,但主要影响是我完成了比原计划多得多的工作,因为:1)我可以编写各种以前不值得编码的东西;2)我可以处理以前因知识/技能问题而无法触及的代码。所以这当然是加速,但更可能是一种能力扩张。

杠杆效应。大语言模型极其擅长循环执行直至达成特定目标,这正是大部分“感受通用人工智能”魔力的所在。不要告诉它具体步骤,给它成功标准,然后看它行动。让它先写测试,再通过测试。让它通过浏览器MCP接入循环。先写出很可能正确的朴素算法,然后要求它在保持正确性的前提下进行优化。将你的方法从命令式转变为声明式,让智能体循环更久,从而获得杠杆效应。

乐趣。我没预料到的是,有了智能体,编程感觉更有趣了,因为大量填空式的枯燥工作被移除,剩下的是创造性的部分。我也感觉更少受阻/卡住(这可不有趣),并且体验到更多勇气,因为几乎总能找到与它携手取得积极进展的方法。我也从其他人那里看到相反的情绪;大语言模型编码将把工程师分为两类:主要喜欢编码的人和主要喜欢构建的人。

能力退化。我已经注意到自己手动编写代码的能力正开始缓慢退化。生成(写代码)和辨别(读代码)是大脑中两种不同的能力。很大程度上由于编程涉及大量主要是语法层面的细节,即使你写代码有困难,审阅代码也完全没问题。

垃圾信息末日。我预计2026年将成为GitHub、Substack、arXiv、X/Instagram乃至所有数字媒体的垃圾信息末日之年。我们还将看到更多人工智能炒作的“生产力表演”(这真的可能吗?),与真实、实际的改进并存。

问题。我心中的几个问题:

  • “10倍效率工程师”——平均与顶尖工程师的生产力比率——将何去何从?这个比率很可能会大幅增长。
  • 手握大语言模型,通才会越来越超越专才吗?大语言模型更擅长填空(微观)而非宏大战略(宏观)。
  • 未来的大语言模型编码会是什么感觉?像玩《星际争霸》?玩《异星工厂》?还是演奏音乐?
  • 社会有多大程度受数字知识工作的瓶颈制约?
  • 简而言之,这意味着什么? 大语言模型智能体能力(尤其是Claude和Codex)在2025年12月前后跨越了某种连贯性阈值,引发了软件工程及相关领域的相变。其智能部分突然感觉遥遥领先于其他所有方面——集成(工具、知识)、对新组织工作流程和过程的必要性、以及更广泛的扩散。2026年将是高能量的一年,整个行业将消化吸收这项新能力。