昨天,一家成立不到三年的多伦多芯片公司扔下了一颗核弹。他们不是做大模型的,不是做应用的,而是做了一件听起来很复古的事:把AI模型直接刻在芯片里。
这家公司叫 Taalas。他们做的芯片 HC1,运行 Llama 3.1 8B的速度是 17000 tokens/秒。作为对比,目前业界最快的 GPU 也就 2000 左右。十倍差距。
但这还不是最疯狂的。最疯狂的是,这块芯片只能跑这一个模型。不能换,不能改,不能升级。你买回家,它就永远只会做这一件事:以光速运行 Llama 3.1 8B。
Taalas 的赌注很简单:在这个所有人都追求灵活性的时代,他们选择了绝对的不灵活,换取绝对的效率。
要说清楚这件事为什么重要,得先理解过去几十年芯片发展的主线。从 CPU 到 GPU,再到各种 AI 加速器,所有人都在做同一件事:造一个通用的计算平台,然后用软件在上面跑各种模型。
这条路走到今天,遇到了一个硬边界。模型越来越大,内存带宽成了瓶颈。你把几百亿参数从显存搬到计算单元,这个过程消耗的能量和时间,已经比计算本身还要多了。
Taalas 的思路是:既然你每次都算同样的东西,为什么还要搬来搬去?直接把权重存在晶体管里不行吗?
他们真的这么做了。HC1 芯片里没有显存,没有 HBM,没有复杂的缓存层级。模型的每一个权重都对应着芯片上的特定晶体管,矩阵乘法通过电路的物理连接直接完成。你输入一个 token,电流流过这些预先设计好的路径,输出就是下一个 token 的预测。
这就像录音带和现场演奏的区别。传统芯片是每次都要重新演奏,Taalas 是把演奏录在磁带里,播放就行了。
这种设计带来了几个惊人的结果。
第一是速度。17000 tokens/秒意味着什么?你几乎感受不到延迟。不是"很快",是"瞬间"。有测试者说,按回车的瞬间,答案就已经完整出现在屏幕上,甚至看起来像是预先准备好的。
第二是功耗。传统 GPU 运行 AI 推理需要液冷,一个机柜动辄几十千瓦。Taalas 的芯片只要空气冷却,十张卡加起来才 2.5 千瓦。他们号称能效是 GPU 的十倍。
第三是成本。制造这样的芯片,他们说是传统方案的十分之一到二十分之一。