加载中...
加载中...
过去两年,大模型被塑造成一种近乎“基础设施”的存在。
通过 API、订阅制、Token 计费,它们构建起一个看似稳固的商业闭环:
集中训练 → 云端推理 → 按使用付费
在这个叙事中,算力是稀缺的,模型是黑箱的,用户被锁定在平台中——
只要模型足够强,这个体系似乎就能无限延伸。
但这一经济模型,依赖一个极其脆弱、却长期被忽视的前提:
个人永远不可能拥有足够强的本地算力。
而这个前提,正在被硬件现实一点点摧毁。
设想这样一台“个人级”设备:
在这样的硬件条件下,今天“必须运行在云端”的开源 LLM——
无论是 70B、130B,还是 MoE、多模态模型——都可以在本地无限制使用:
即便这些本地模型在绝对能力上略逊于最前沿的商用 API,它们依然已经——
足够好。
而“足够好”,正是当前大模型经济模型的致命点。
大模型的真实需求,并不是“人类文明级别的推理”,而是高度日常化的:
在这些场景中:
能力从 90 分提升到 95 分,边际价值极低;
但成本、依赖性和隐私风险却显著增加。
一旦用户可以用“沉没成本”的方式,在本地无限使用模型:
此时,云端 LLM 唯一的优势只剩下:
“它是世界上最强的那个模型。”
但历史反复证明——
“最强”本身,从来不足以支撑一个面向大众的长期商业体系。
很多人下意识认为:
“你说的这种硬件,至少还要二三十年。”
这是一个典型的线性直觉错误。
对 LLM 来说,瓶颈正在从算力转向 内存容量与带宽。
现实时间表(个人 / 工作站级):
时间单机可用内存
2024–2025 128–256GB
2026–2027 512GB
2028–2029 1TB
2030+ 2–4TB
重要的是:
LLM 经济模型并不需要等到 1TB 才崩塌,512GB 已经足够。
如果把“1024 核心”理解为传统 CPU 核心,那确实很遥远。
但现实中,计算正在迅速异构化:
未来的“千核”,不是一个芯片,而是一整个 SoC 体系。
现实时间表:
时间等效计算规模
2025 100–200
2026–2027 300–500
2028 500–1000
2030+ >1000
到 2027–2028 年,本地运行“类 GPT-4 水平(非最强版)”
已经是工程问题,而不是幻想。
从 LLM 推理角度看:
PB 级存储更像是“数据洁癖”,不是刚需。
但即便如此,时间表也并不遥远:
时间本地存储
2025 50–100TB
2027 200–500TB
2029–2031 1PB(非主流,但可获得)
与操作系统、社交网络、电商平台不同,大模型存在结构性弱点:
开源模型永远在追赶,但——
追赶本身,就足以摧毁定价权。
在真实生产环境中,用户关心的是:
这些恰恰是本地模型的天然优势。
只要接口兼容、能力接近,迁移成本就会持续下降。
一旦本地模型“够用”,离开云端几乎没有心理负担。
需要强调:
被摧毁的不是大模型技术,而是它当前的商业叙事。
真正会崩塌的是:
这和云计算、CDN、数据库市场的历史高度相似:
一旦本地成本曲线下降,
中心化溢价就会迅速消失。
👉 VC 叙事开始破裂,但公司仍能维持。
👉 面向个人的 LLM API 经济模型基本死亡。
👉 大模型公司不再是“平台”,而是“供应商”。
历史一次次证明:
当计算能力从中心走向边缘,
商业权力也必然随之解构。
当个人设备拥有今天数据中心级别的能力,
大模型的命运不会例外。
它们终将从被租用的神谕,
变成本地运行的工具。
而当工具不再稀缺,
神话,也就结束了。