24人团队造出逆天芯片！速度暴增10倍，功耗骤降90%

2026-02-23 00:00:00

文章转载自"淘工位"

芯片界杀出黑马！这家24人小公司让英伟达都坐不住了

你还在为AI响应慢、电费高而头疼吗？每次调用大模型都要等好几秒，服务器电费账单看得心惊肉跳？别急，芯片界刚刚发生了一场地震！

一家仅有24人的初创公司，竟然造出了让硅谷沸腾的逆天芯片！速度比当前最强芯片快10倍，功耗却只有十分之一！这到底是怎么做到的？

💡 芯片即模型：颠覆传统的极端方案

这家名为Taalas的公司，推出了一款代号为HC1的芯片，直接冲上了硅谷热榜！

峰值推理速度高达每秒17000个token！

什么概念呢？让我给你对比一下：

当前公认最强的Cerebras，速度约为2000 token/s
SambaNova约为每秒900个token
Groq约为每秒600个
英伟达Blackwell架构的B200为每秒350个

HC1的速度直接快10倍！更惊人的是，成本骤减20倍、功耗降低10倍！

这意味着什么？LLM真正来到了亚毫秒级的即时响应速度！实机效果简直让人惊叹！

但最颠覆的是技术方案——Taalas选择了迄今为止最极端的方式：

模型不再加载到内存里，而是直接刻在硅片上！

没错，芯片即模型！这种思路彻底改变了传统架构！

⚡️ 性能飞跃的秘密：结构化ASIC的智慧

那么，HC1是如何做到这么大的性能飞跃的呢？

首先，它借鉴了2000年代初期的结构化ASIC芯片理念。这种芯片采用门阵列和固化IP，然后仅通过改变互连层就能使芯片适应特定的工作负载。

这样下来，结构化ASIC芯片不仅比全定制ASIC更便宜，也比FPGA性能更优！

HC1采用类似思路：

不改变底层电路
只通过调整两层掩模
就能低成本快速做出专用AI推理芯片

它放弃了大多数可编程功能，将模型连同权重一起通过基于掩模ROM的调用架构存储在芯片上，并保留一个可编程SRAM，用于保存微调后的权重和KV缓存。其余则全部通过掩模ROM固化执行。

这一策略能在设计成本相对可控的前提下，实现模型到芯片的快速转化，将芯片生产周期从原先的六个月缩短到两个月！

🌟 技术细节：小巧、开源、高效

具体来说，HC1采用台积电N6工艺：

面积为815mm²，体积小巧
完全开源
单颗芯片即可满足8B模型需求
每颗芯片典型功耗仅为250W

想象一下，一个服务器如果同时装配10颗HC1，功耗也才2.5kW，可以直接使用常规空气冷却机架部署！

这简直是数据中心运营商的福音！

🔄 灵活性与适应性：LaRA适配器的妙用

你可能会问：如此激进的量化方式会不会影响性能？

研究团队也意识到了这一点，所以他们设计了巧妙的解决方案：

通过LaRA适配器进行重新训练
可配置的上下文窗口
让芯片的最低限度灵活性得以保留

换句话说，就是将一个完整大模型通过物理硬连线进芯片中，省去了传统存算分离的成本，用灵活性换取极致的速度和效率！

🚀 多模型支持：不止于Llama 3.1

除了Llama 3.1，Taalas也尝试将其它模型集成到HC1上！

例如对DeepSeekR1-671B的多芯片解决方案：

将SRAM部分拆分到单独的芯片上
每片HC1的存储密度提高到约20位参数
总计需要30个定制HC1
整体处理速度可达到每用户每秒12000个token

如果考虑到30颗芯片成本为每百万token是7.6美分，那么该方案成本也不到同等吞吐量的GPU方案的一半！

假设GPU更新周期为四年，而HC1每年都需要重新更换，总成本也仍然具备优势！

👥 梦之队背景：AMD前高管集结

这家神奇的公司背后，是一支堪称梦之队的团队！

Taalas成立于两年前，由三位AMD前高管共同创立：

Ljubiša Bajić：AMD前集成电路设计总监
Leila Bajić：AMD/ATI/Altera前技术经理和工程师
Drago Ignjatović：AMD前ASIC设计总监

其中，Ljubiša Bajić不仅曾在AMD和英伟达担任高级职位，负责高性能GPU研发设计，还是Tenstorrent的创始人兼首任CEO！

在2020年，芯片教父Jim Keller也强势加入Tenstorrent，并接任CEO一职，而Ljubiša Bajić转任首席技术官CTO，专注于产品研发。

随后，他又创立了Taalas，试图通过类似硅基编译器的方式，直接将AI模型转化为硅芯片！

💰 创业奇迹：小团队大成果

最让人惊叹的是创业成果：

仅有24名成员的团队
产品投入仅3000万美元
创造出比通用AI芯片高出几个数量级的能效比

这简直是创业界的奇迹！

目前Taalas已筹集2亿美元投资，预计将在春季基于HC1发布第二代变体，将集成一款中等规模的推理大模型。

随后预计将在冬季部署上线HC2，HC2密度更高、运行速度也会更快！

🤔 网友评价：两极分化的看法

对于HC1，网友们的评价却是两极分化：

支持方认为：

HC1的超低延迟将有益于推动具身智能等领域发展
速度和功耗优势明显
为AI应用提供了新的可能性

质疑方认为：

高速推理的背后，可能存在推理深度不足的问题
对于迭代周期相当迅速的大模型来说，硬编码可能会使芯片很容易过时
这也是为什么当前芯片厂商都在普遍推出通用型芯片的原因之一

🎯 芯片行业的新风向

无论评价如何，Taalas的HC1芯片无疑为芯片行业带来了新的思考：

专用化 vs 通用化，哪个才是未来？
速度和灵活性之间如何平衡？
小团队能否持续颠覆大公司？

HC1的出现，让我们看到了芯片设计的另一种可能性！它可能不是完美的解决方案，但绝对是值得关注的技术突破！

"有时候，颠覆不需要庞大的团队和巨额资金，只需要一个足够大胆的想法！"

你觉得这种"芯片即模型"的思路会成为未来的主流吗？还是只是特定场景下的优化方案？

欢迎在评论区分享你的看法！如果觉得这篇文章对你有启发，别忘了点赞和分享给更多朋友！

注：图片来源于网络和AI创作

END

FOCUS ON US

关注我们了解更多最新资讯

上一篇：谷歌憋出王炸！3.1Pro推理能力翻倍，价格却纹丝不动

下一篇：一夜蒸发百亿！AI代码安全工具让传统网络安全股集体崩盘

热点资讯

历届鲁迅文学奖获奖作品名单

2024-09-02 00:00:00

【快讯】广州市委常委、黄埔区委书记陈杰一行调研蜜蜂科技BEEPLUS

2023-09-01 00:00:00

12年，从22亿到超过520亿，海底捞谋局千亿背后的战略解码

2024-05-16 00:00:00

2025年深圳注册公司全流程指南：一步到位

2025-05-20 00:00:00

【2024新一线城市名单出炉】三大角度解析《新一线城市魅力排行榜》榜单

2024-06-07 00:00:00

超过海尔、格力上千亿，3737亿的美的，全球第一背后的战略解码（万字深度长文）

2024-10-04 00:00:00

全网开骂的武汉“孕妇选美比赛”，撕开了当下社会最离谱的一幕

2024-11-18 00:00:00