

你还在为AI响应慢、电费高而头疼吗?每次调用大模型都要等好几秒,服务器电费账单看得心惊肉跳?别急,芯片界刚刚发生了一场地震!
一家仅有24人的初创公司,竟然造出了让硅谷沸腾的逆天芯片!速度比当前最强芯片快10倍,功耗却只有十分之一!这到底是怎么做到的?
这家名为Taalas的公司,推出了一款代号为HC1的芯片,直接冲上了硅谷热榜!
峰值推理速度高达每秒17000个token!
什么概念呢?让我给你对比一下:
HC1的速度直接快10倍!更惊人的是,成本骤减20倍、功耗降低10倍!
这意味着什么?LLM真正来到了亚毫秒级的即时响应速度!实机效果简直让人惊叹!
但最颠覆的是技术方案——Taalas选择了迄今为止最极端的方式:
模型不再加载到内存里,而是直接刻在硅片上!
没错,芯片即模型!这种思路彻底改变了传统架构!
那么,HC1是如何做到这么大的性能飞跃的呢?
首先,它借鉴了2000年代初期的结构化ASIC芯片理念。这种芯片采用门阵列和固化IP,然后仅通过改变互连层就能使芯片适应特定的工作负载。
这样下来,结构化ASIC芯片不仅比全定制ASIC更便宜,也比FPGA性能更优!
HC1采用类似思路:
它放弃了大多数可编程功能,将模型连同权重一起通过基于掩模ROM的调用架构存储在芯片上,并保留一个可编程SRAM,用于保存微调后的权重和KV缓存。其余则全部通过掩模ROM固化执行。
这一策略能在设计成本相对可控的前提下,实现模型到芯片的快速转化,将芯片生产周期从原先的六个月缩短到两个月!
具体来说,HC1采用台积电N6工艺:
想象一下,一个服务器如果同时装配10颗HC1,功耗也才2.5kW,可以直接使用常规空气冷却机架部署!
这简直是数据中心运营商的福音!
你可能会问:如此激进的量化方式会不会影响性能?
研究团队也意识到了这一点,所以他们设计了巧妙的解决方案:
换句话说,就是将一个完整大模型通过物理硬连线进芯片中,省去了传统存算分离的成本,用灵活性换取极致的速度和效率!
除了Llama 3.1,Taalas也尝试将其它模型集成到HC1上!
例如对DeepSeekR1-671B的多芯片解决方案:
如果考虑到30颗芯片成本为每百万token是7.6美分,那么该方案成本也不到同等吞吐量的GPU方案的一半!
假设GPU更新周期为四年,而HC1每年都需要重新更换,总成本也仍然具备优势!
这家神奇的公司背后,是一支堪称梦之队的团队!
Taalas成立于两年前,由三位AMD前高管共同创立:
其中,Ljubiša Bajić不仅曾在AMD和英伟达担任高级职位,负责高性能GPU研发设计,还是Tenstorrent的创始人兼首任CEO!
在2020年,芯片教父Jim Keller也强势加入Tenstorrent,并接任CEO一职,而Ljubiša Bajić转任首席技术官CTO,专注于产品研发。
随后,他又创立了Taalas,试图通过类似硅基编译器的方式,直接将AI模型转化为硅芯片!
最让人惊叹的是创业成果:
这简直是创业界的奇迹!
目前Taalas已筹集2亿美元投资,预计将在春季基于HC1发布第二代变体,将集成一款中等规模的推理大模型。
随后预计将在冬季部署上线HC2,HC2密度更高、运行速度也会更快!
对于HC1,网友们的评价却是两极分化:
支持方认为:
质疑方认为:
无论评价如何,Taalas的HC1芯片无疑为芯片行业带来了新的思考:
HC1的出现,让我们看到了芯片设计的另一种可能性!它可能不是完美的解决方案,但绝对是值得关注的技术突破!
"有时候,颠覆不需要庞大的团队和巨额资金,只需要一个足够大胆的想法!"
你觉得这种"芯片即模型"的思路会成为未来的主流吗?还是只是特定场景下的优化方案?
欢迎在评论区分享你的看法!如果觉得这篇文章对你有启发,别忘了点赞和分享给更多朋友!
