找工位
空间入驻
小程序

24人团队造出逆天芯片!速度暴增10倍,功耗骤降90%

2026-02-23
文章转载自"淘工位"

芯片界杀出黑马!这家24人小公司让英伟达都坐不住了

你还在为AI响应慢、电费高而头疼吗?每次调用大模型都要等好几秒,服务器电费账单看得心惊肉跳?别急,芯片界刚刚发生了一场地震!

一家仅有24人的初创公司,竟然造出了让硅谷沸腾的逆天芯片!速度比当前最强芯片快10倍,功耗却只有十分之一!这到底是怎么做到的?

💡 芯片即模型:颠覆传统的极端方案

这家名为Taalas的公司,推出了一款代号为HC1的芯片,直接冲上了硅谷热榜!

峰值推理速度高达每秒17000个token!

什么概念呢?让我给你对比一下:

  • 当前公认最强的Cerebras,速度约为2000 token/s
  • SambaNova约为每秒900个token
  • Groq约为每秒600个
  • 英伟达Blackwell架构的B200为每秒350个

HC1的速度直接快10倍!更惊人的是,成本骤减20倍、功耗降低10倍!

这意味着什么?LLM真正来到了亚毫秒级的即时响应速度!实机效果简直让人惊叹!

但最颠覆的是技术方案——Taalas选择了迄今为止最极端的方式:

模型不再加载到内存里,而是直接刻在硅片上!

没错,芯片即模型!这种思路彻底改变了传统架构!

⚡️ 性能飞跃的秘密:结构化ASIC的智慧

那么,HC1是如何做到这么大的性能飞跃的呢?

首先,它借鉴了2000年代初期的结构化ASIC芯片理念。这种芯片采用门阵列和固化IP,然后仅通过改变互连层就能使芯片适应特定的工作负载。

这样下来,结构化ASIC芯片不仅比全定制ASIC更便宜,也比FPGA性能更优!

HC1采用类似思路:

  • 不改变底层电路
  • 只通过调整两层掩模
  • 就能低成本快速做出专用AI推理芯片

它放弃了大多数可编程功能,将模型连同权重一起通过基于掩模ROM的调用架构存储在芯片上,并保留一个可编程SRAM,用于保存微调后的权重和KV缓存。其余则全部通过掩模ROM固化执行。

这一策略能在设计成本相对可控的前提下,实现模型到芯片的快速转化,将芯片生产周期从原先的六个月缩短到两个月!

🌟 技术细节:小巧、开源、高效

具体来说,HC1采用台积电N6工艺:

  • 面积为815mm²,体积小巧
  • 完全开源
  • 单颗芯片即可满足8B模型需求
  • 每颗芯片典型功耗仅为250W

想象一下,一个服务器如果同时装配10颗HC1,功耗也才2.5kW,可以直接使用常规空气冷却机架部署!

这简直是数据中心运营商的福音!

🔄 灵活性与适应性:LaRA适配器的妙用

你可能会问:如此激进的量化方式会不会影响性能?

研究团队也意识到了这一点,所以他们设计了巧妙的解决方案:

  • 通过LaRA适配器进行重新训练
  • 可配置的上下文窗口
  • 让芯片的最低限度灵活性得以保留

换句话说,就是将一个完整大模型通过物理硬连线进芯片中,省去了传统存算分离的成本,用灵活性换取极致的速度和效率!

🚀 多模型支持:不止于Llama 3.1

除了Llama 3.1,Taalas也尝试将其它模型集成到HC1上!

例如对DeepSeekR1-671B的多芯片解决方案:

  • 将SRAM部分拆分到单独的芯片上
  • 每片HC1的存储密度提高到约20位参数
  • 总计需要30个定制HC1
  • 整体处理速度可达到每用户每秒12000个token

如果考虑到30颗芯片成本为每百万token是7.6美分,那么该方案成本也不到同等吞吐量的GPU方案的一半!

假设GPU更新周期为四年,而HC1每年都需要重新更换,总成本也仍然具备优势!

👥 梦之队背景:AMD前高管集结

这家神奇的公司背后,是一支堪称梦之队的团队!

Taalas成立于两年前,由三位AMD前高管共同创立:

  • Ljubiša Bajić:AMD前集成电路设计总监
  • Leila Bajić:AMD/ATI/Altera前技术经理和工程师
  • Drago Ignjatović:AMD前ASIC设计总监

其中,Ljubiša Bajić不仅曾在AMD和英伟达担任高级职位,负责高性能GPU研发设计,还是Tenstorrent的创始人兼首任CEO!

在2020年,芯片教父Jim Keller也强势加入Tenstorrent,并接任CEO一职,而Ljubiša Bajić转任首席技术官CTO,专注于产品研发。

随后,他又创立了Taalas,试图通过类似硅基编译器的方式,直接将AI模型转化为硅芯片!

💰 创业奇迹:小团队大成果

最让人惊叹的是创业成果:

  • 仅有24名成员的团队
  • 产品投入仅3000万美元
  • 创造出比通用AI芯片高出几个数量级的能效比

这简直是创业界的奇迹!

目前Taalas已筹集2亿美元投资,预计将在春季基于HC1发布第二代变体,将集成一款中等规模的推理大模型。

随后预计将在冬季部署上线HC2HC2密度更高、运行速度也会更快!

🤔 网友评价:两极分化的看法

对于HC1,网友们的评价却是两极分化:

支持方认为:

  • HC1的超低延迟将有益于推动具身智能等领域发展
  • 速度和功耗优势明显
  • 为AI应用提供了新的可能性

质疑方认为:

  • 高速推理的背后,可能存在推理深度不足的问题
  • 对于迭代周期相当迅速的大模型来说,硬编码可能会使芯片很容易过时
  • 这也是为什么当前芯片厂商都在普遍推出通用型芯片的原因之一

🎯 芯片行业的新风向

无论评价如何,TaalasHC1芯片无疑为芯片行业带来了新的思考:

  • 专用化 vs 通用化,哪个才是未来?
  • 速度和灵活性之间如何平衡?
  • 小团队能否持续颠覆大公司?

HC1的出现,让我们看到了芯片设计的另一种可能性!它可能不是完美的解决方案,但绝对是值得关注的技术突破!

"有时候,颠覆不需要庞大的团队和巨额资金,只需要一个足够大胆的想法!"

你觉得这种"芯片即模型"的思路会成为未来的主流吗?还是只是特定场景下的优化方案?

欢迎在评论区分享你的看法!如果觉得这篇文章对你有启发,别忘了点赞和分享给更多朋友!

注:图片来源于网络和AI创作

END

FOCUS ON US
关注我们了解更多最新资讯
图片