2026年AI推理基础设施爆发:Baseten估值飙至130亿美元,Modal Labs紧追其后
2026年上半年,AI推理(Inference)赛道成为全球风险投资最炙手可热的战场。Baseten五个月内估值从50亿跃升至130亿美元,Modal Labs以25亿美元估值融资,Hebbia拿下7亿美元——一场围绕"AI最后一公里"的资本竞赛正在白热化。
AI推理赛道为何突然爆发?

2025年底到2026年初,一个显著的行业趋势开始显现:AI模型训练的"军备竞赛"逐渐让位于推理端的基础设施建设。原因并不复杂——当大语言模型(LLM)的能力趋于同质化,企业真正需要的不再是"更强的模型",而是"更快、更便宜地把模型跑起来"。
据TechCrunch报道,Baseten在2026年1月刚完成一轮3亿美元的E轮融资,估值50亿美元,其中一半来自英伟达的战略投资。仅仅五个月后,这家专注于开源AI推理的初创公司正在敲定一轮15亿美元的新融资,估值飙升至130亿美元。这种速度在科技融资史上极为罕见。
| 公司 | 融资轮次 | 金额 | 估值 | 关键投资方 |
|---|---|---|---|---|
| Baseten | E轮+(2026.1) | 3亿美元 | 50亿美元 | 英伟达、BVP |
| Baseten | 新一轮(2026.6) | 15亿美元 | 130亿美元 | 待确认 |
| Modal Labs | 新轮(2026.2) | 未披露 | 25亿美元 | General Catalyst |
| Hebbia | 新轮(2026.5) | 1.6亿美元 | 7亿美元 | a16z等 |
| Engram | 种子/A轮(2026.6) | 9800万美元 | 未披露 | Sequoia、Kleiner Perkins |
什么是AI推理?为什么它比训练更赚钱?
简单来说,AI推理就是"用已经训练好的模型来回答问题"。每次你在ChatGPT里输入一段文字,背后发生的就是一次推理调用。训练一个大模型可能花费数亿美元,但这个模型一旦上线,每天要处理数十亿次推理请求——这才是真正持续烧钱的地方。
从商业角度看,推理市场的规模远超训练市场。训练是"一次性投入",推理是"持续性收入"。这也是为什么Baseten这类专注推理基础设施的公司能获得如此高估值——它们本质上是AI时代的"水电煤"供应商。
# AI推理成本简化模型
def estimate_inference_cost(daily_requests, tokens_per_request, cost_per_1k_tokens):
daily_tokens = daily_requests * tokens_per_request
daily_cost = (daily_tokens / 1000) * cost_per_1k_tokens
monthly_cost = daily_cost * 30
return {
"daily_tokens": daily_tokens,
"daily_cost_usd": round(daily_cost, 2),
"monthly_cost_usd": round(monthly_cost, 2),
"annual_cost_usd": round(monthly_cost * 12, 2)
}
# 一个中型SaaS应用的推理成本估算
result = estimate_inference_cost(
daily_requests=1_000_000, # 日均100万次请求
tokens_per_request=500, # 每次500 tokens
cost_per_1k_tokens=0.002 # $0.002/1K tokens
)
# 输出: 月成本约 $30,000,年成本约 $360,000
Baseten:开源推理的"AWS时刻"

Baseten的核心竞争力在于对开源模型推理的深度优化。与OpenAI、Anthropic等闭源路线不同,Baseten押注的是Llama、Mistral、DeepSeek等开源模型的商业化部署。
这一策略正在被市场验证。随着Meta的Llama 4系列、DeepSeek-V3等开源模型在性能上逼近甚至超越部分闭源模型,越来越多的企业开始选择"开源模型+自托管推理"的路线。Baseten提供的正是这条路线所需的全套基础设施——从模型部署、自动扩缩容到GPU资源调度。
英伟达的战略投资也传递了一个重要信号:芯片巨头希望看到更多AI推理负载跑在自家GPU上,而Baseten恰好是推动这一目标的理想伙伴。
Modal Labs:开发者友好的推理平台
如果说Baseten走的是"企业级基础设施"路线,Modal Labs则更偏向"开发者体验"。这家初创公司提供了一个极简的云端推理平台,开发者只需几行Python代码就能部署和运行AI模型,无需管理任何底层基础设施。
Modal Labs在2026年2月与General Catalyst领投方洽谈新一轮融资,估值约25亿美元。虽然规模不及Baseten,但Modal Labs在开发者社区中的口碑极佳,被认为是"AI推理领域的Vercel"——简单、好用、上手快。
Hebbia与Engram:垂直场景的新玩家
除了通用推理基础设施,垂直场景的AI应用也在吸引大量资本。Hebbia专注于金融、法律、咨询等行业的复杂知识处理,2026年5月完成1.6亿美元融资,估值达7亿美元。其产品能够处理数百页的法律文件和财务报告,为专业人士提供深度分析辅助。
更引人注目的是Engram,这家由Wiz创始人Assaf Rappaport参与投资的初创公司,专注于AI"记忆层"技术——让企业AI系统能够跨会话、跨时间记住和检索信息。2026年6月,Engram获得由Sequoia Capital和Kleiner Perkins领投的9800万美元融资,标志着"AI记忆"这一细分赛道的正式崛起。
2026年下半年展望:推理市场的三大趋势
展望2026年下半年,AI推理市场将呈现三个明确趋势:
第一,价格战不可避免。 随着更多推理基础设施公司入场,以及开源模型持续降低推理成本,单位推理价格将快速下降。这对B端用户是利好,但对初创公司的利润率构成压力。
第二,推理芯片将走向专用化。 通用GPU并非推理的最优解。Groq的LPU、Cerebras的晶圆级芯片等专用推理芯片正在获得更多关注。英伟达也在通过投资Baseten等方式巩固其生态地位。
第三,边缘推理将开辟新战场。 随着端侧AI芯片(如苹果M系列、高通骁龙X)性能的提升,越来越多的推理任务将从云端迁移到设备端,这将重塑整个推理基础设施的市场格局。
对创业者的启示
对于正在考虑进入AI赛道的创业者,推理基础设施领域的机会窗口正在收窄——Baseten和Modal Labs已经建立了显著的先发优势。但在垂直场景(如医疗AI推理、工业质检推理、金融风控推理)和边缘推理领域,仍然存在大量未被满足的需求。
关键在于:不要试图做一个"通用推理平台"去和巨头竞争,而应该深入某个具体行业,理解其推理需求的特殊性(延迟要求、合规约束、数据隐私),然后构建针对性的解决方案。
结语
2026年的AI推理赛道,本质上是一场关于"AI民主化基础设施"的竞赛。当训练大模型的能力集中在少数巨头手中时,推理基础设施的开放性和可及性,将决定AI技术能否真正渗透到千行百业。Baseten、Modal Labs们的估值飙升,反映的不仅是资本的狂热,更是市场对"AI落地最后一公里"的坚定看好。
数据来源:TechCrunch(2026.6.18)、PYMNTS(2026.2)、Open Source For U(2026.6)、Calcalistech(2026.6)、EU-Startups(2026.6)
评论