Karpathy 的 AutoResearch 项目最近挺火的

Karpathy 的 AutoResearch 项目最近挺火的。但说实话，大多数人只看到了"让 AI 自动跑实验"这个表面，没看懂背后的方法论其实可以应用到任何领域。

我花了点时间拆解这个项目，发现它其实提供了一套通用的实验思维框架。不只是搞机器学习的能用，做产品的、做营销的、甚至优化团队会议都能用上。

## 1. 让专家定标准，让系统去试错

传统做实验的方式是人类自己上：设计实验、执行、分析结果、决定下一步。Karpathy 的方案是倒过来的——人类只负责制定"什么是好"的标准，剩下的让系统自动完成。

这在 AutoResearch 里体现为 program.md（人类写的规则）和 http://train.py（AI 改动的代码）的分离。

但这个思路放到其他领域一样好用：

做广告的可以让设计师定义"好广告 = 点击率 > 5%，且符合品牌调性"，然后让系统或实习生批量生成 100 个标题+图片组合去测试。做产品的可以定义"好设计 = 用户完成率 > 80%，步骤不超过 3 个"，然后自动调整界面布局做 A/B 测试。

关键是把"判断权"和"执行权"分开。人类擅长定性判断，机器擅长大规模定量试错。

---

## 2. 时间盒约束：不要最优，要够快

Karpathy 有个洞察挺有意思：不要问"什么是最优解"，要问"在 5 分钟内能找到什么好解"。

AutoResearch 每次实验严格跑 5 分钟就停。这不是抠门，而是一种设计选择——约束会逼你找到更聪明的捷径。

不同类型的约束适用于不同场景：

- 时间盒（比如 5 分钟、1 小时、1 天）：适合需要快速迭代的领域，强制你试错而不是过度优化
- 预算盒（比如 100 元、1000 元）：适合商业实验，逼你选择高性价比方案
- 数量盒（比如 10 个版本、100 次尝试）：适合创意生成，强制多样性避免局部最优
- 样本盒（比如 100 个用户、1 个区域）：适合市场测试，降低失败成本

对比一下两种思路：

传统的做法是"我们花 3 个月做个完美版本再发布"——风险在于做完了可能发现没人要。

AutoResearch 的思路是"我们用 1 周做 10 个粗糙版本，每个测 100 个用户"——快速找到方向，失败成本极低。

---

## 3. 找到你的"北极星指标"