BITDEER
article

矿池能连全球矿机,为什么 DePIN 很难连全球 GPU 训练 AI?

2026.05.08

本文将用简单案例为你拆解比特币挖矿和 AI 大模型训练的两个核心问题:为什么矿池天然适合分布式,而 AI 大模型训练很难用同样方式分布式运行;以及为什么看似无形的大模型训练,会如此害怕网络延迟。

在 2026 年的算力市场中,DePIN(去中心化物理基础设施网络)概念的兴起,让不少刚刚接触跨界算力的运营者和投资者产生了一个极为自然的联想:既然加密矿池可以把分布在全球各地的成千上万台矿机连接起来共同挖矿,那么 DePIN 是不是也能用同样的逻辑,把散落在世界不同矿场、数据中心里的 GPU 组合起来,共同训练像大语言模型这样的高密度计算任务?

这个想法在逻辑推导上听起来合情合理,但在实际的工程落地中,它会遇到由网络延迟、带宽和同步机制共同形成的工程瓶颈。

比特币挖矿和 AI 大模型训练,本质上是两种对网络环境有着完全不同挑剔程度的计算任务。本文将用通俗、直白的话语,先为你拆解前两个核心问题:为什么矿池天然适合分布式,而 AI 大模型训练很难用同样方式分布式运行;以及为什么看似无形的大模型训练,会如此害怕网络延迟。

为什么矿池能分布式运行,而 AI 训练不一定能?

要看清两者的区别,我们不能只看服务器的外壳,而是要看它们在工作时,机器与机器之间到底是怎么交流的。

矿池连接的是“彼此独立的机器”

比特币矿机(ASIC芯片)干的活非常单一:在芯片内部疯狂地尝试不同的随机数,去碰撞符合网络难度要求的哈希结果。在这个过程中,每台矿机都是一个绝对独立的个体。

它不需要知道隔壁机架、或者大洋彼岸的另一台矿机正在算什么;不需要停下脚步去等待其他机器返回一个中间数据;计算全在芯片内部的逻辑单元里瞬间完成,没有复杂的中间数据流转;矿机唯一需要跟矿池交流的,就是每隔几秒钟,把自己算好的“有效份额”打包成一个极小的文本数据包上传上去。

所以,矿池网络对速度(延迟)的要求极低。哪怕你的矿场在偏远的山谷里,网络延迟有几百毫秒,只要连接不彻底断开,你的矿机就能源源不断地产生收益。

AI 训练连接的是“必须协同的 GPU”

AI 大模型的训练则是完全相反的逻辑。当你把几万张 GPU 连在一起训练一个大模型时,它们不是在各自跑各自的小任务,而是在共同雕刻一个巨大的雕塑。

现在的商用大模型动辄数万亿参数,单张 GPU 的显存根本装不下。工程师必须把模型拆成无数个小块,分给不同的 GPU 去拿。每张 GPU 只负责算其中一个步骤,或者一部分数学矩阵。显卡 A 算完的结果,必须立刻传给显卡 B;显卡 B 算完的梯度,又要和全网所有的显卡进行汇总、校对、更新,然后大家再一起进入下一轮计算。

这意味着,AI 训练不是简单地“把大家的算力加起来”,而是要让大量 GPU 在高速网络中保持频繁协同,尽量减少每轮计算后的同步等待时间。

独立计算 vs 强同步计算

我们可以用一个非常生活化的例子来打比方:

比特币挖矿就像是一群人各自在家里买彩票。 每个人自己摇号,互相不耽误。谁中奖了,直接给总部打个电话(提交区块)就行。所以这群人住得再远、交通再慢,都不影响大家买彩票的整体效率。

AI 大模型训练则像是一群人合写一本书。 每个人只负责写一个字或一句话。但残酷的规则是:每当大家写完手里的一句话,所有人必须停下笔,把各自写的字传给在座的所有人进行校对、统一,等所有人都确认无误后,大家才能同时落笔写下一句话。

在这个“合写一本书”的机制里,只要有一个人传字的速度慢了,哪怕其他人写得再快,全场所有人也只能咬着笔头原地死等。这就是强同步计算的霸道之处——前者不怕分散,后者极其害怕等待。

为什么大模型训练特别害怕网络延迟?

明白了两者的底层任务差异,我们就能进一步聊聊很多新手容易踩到的误区:为什么说 AI 训练不是只看 GPU 算得快不快?

算力只是基础,流动才是关键

很多人在评估 AI 算力中心时,往往喜欢数显卡的数量,盯着芯片的标称算力(FLOPS)或者显存有多大。但在大规模分布式训练中,“芯片算得快”只是第一步。

真正决定整个集群能发挥出几成威力的,是数据在不同 GPU 之间流动的速度。大模型训练本质上是一个“计算-通信-再计算”的循环。如果计算只花了几毫秒,而通信同步却要花几十毫秒,那么再贵、再先进的芯片,也可能把大量时间花在等待数据同步上。。

参数同步和梯度交换是核心瓶颈

在实际的 AI 训练过程中,有一个最核心的瓶颈叫做“梯度全量同步(AllReduce)”。

简单来说,当几千张显卡吞下不同的训练数据计算完一轮后,它们会各自得出一个“修改模型的意见”(即梯度)。为了让接下来的模型不跑偏,这几千张显卡必须通过网络相互交换意见,把所有的意见融合在一起,算出一个最终的“标准答案”,然后每张卡更新自己的参数,再喂下一批数据。

如果网络延迟高、带宽不足,GPU 会花大量时间等待同步数据,实际利用率可能明显下降。

数据中心内部网络和公网不是一个级别

为了解决这个等待的瓶颈,专业商用 AI 数据中心在网络建设上的投入也非常高,交换机、网卡、光模块和高速线缆都会成为重要成本项。

在专业 AI 数据中心里,GPU 之间不是简单“联网”,而是通过 NVLink、InfiniBand 或高性能 RoCE 网络紧密连接。服务器内部的 GPU 可以高速交换数据,机柜之间也会通过专用交换机和高速光纤保持低延迟通信。这样做的目的,是让大量 GPU 在训练大模型时尽量少等待、少空转,像一个整体系统一样协同工作。

但 DePIN 的模式不同。它往往试图把分布在不同城市、甚至不同国家的 GPU 通过公共互联网连接起来。公共互联网可以支持普通数据传输,却很难稳定满足大模型训练所需的低延迟、高带宽和高同步要求。

公共互联网的延迟通常在数十毫秒(千分之一秒)级别,并且伴随着不可控的丢包和网络抖动。

从微秒级到数十毫秒级,延迟差距可能达到数千倍甚至上万倍。 将一个需要微秒级同步的强耦合任务,丢进一个毫秒级延迟的公网环境里,物理规律决定的结果就是:整体训练效率可能明显下降,在极端情况下,训练时间和单位成本可能被显著拉高,导致项目在商业上失去吸引力。

工业级矿场为什么很难直接变成分布式 AI 训练节点?

既然明白了分布式 AI 训练对网络的苛刻要求,我们就能看清另一个务实的行业事实:为什么那些手里拥有充足、便宜电力的工业级传统矿场,在面对分布式 AI 转型时,会遭遇极大的物理门槛?

这是一个关于基础设施逻辑错位的硬伤。

传统矿场优先考虑电价

在过去十年的发展中,比特币矿场选址的第一原则永远是“寻找电力廉价且充沛的地区”。许多大型矿场坐落在远离大城市的深山、高原或荒漠。它们紧贴着廉价的水电站、风电场或者被废弃的页岩气断口。这种选址对挖矿非常明智。因为矿机不需要大量的外部数据吞吐,只要能连上互联网、按时提交哈希份额,即使网络延迟高一些,也完全不影响矿场的边际利润。

然而,AI 训练的基础设施逻辑是完全相反的。它首先需要的是靠近骨干网的低延迟节点,其次才是能源成本。一个在地理位置上极度偏远、甚至网络数据需要经过多次节点跳转才能到达核心骨干网的矿场,在起跑线上就很难适应 AI 强同步计算的要求。

外部网络成为第一道“物理瓶颈”

部分矿场虽然电力充足,但厂房由于早期规划限制,往往只接入了基础的商业光纤或普通的宽带网络。

在进行硬件二次转型时,问题并不是“矿场能不能上网”,而是“外部网络能不能提供稳定、无抖动、数吉比特(Gbps)级别的高带宽通道,来支撑全球节点之间频繁的梯度对齐”。公共互联网的多路径路由、高峰期拥堵和丢包抖动,会显著拉长大模型训练中的同步等待时间。对于这些矿场而言,外部网络的物理局限是第一道难以逾越的门槛。

机房内部网络的改造成本难以承受

退一步讲,即便外部骨干网的专线能够拉到矿场门口,机房内部的“二次重构”也是一项沉重的资本开支。

传统的 ASIC 矿机机房,机架内部通常只需要布设廉价的百兆千兆交换机和普通的网线,网络拓扑结构极为扁平、粗放。而要跑 AI 训练集群,机房内部必须进行系统性的升级,更换高性能交换机、高昂的配线开支,或是从原先半开放式、允许一定粉尘和温差的风冷厂房,升级为具备严格温湿度控制的高等级密闭智算机房。

这种改造不是简单的“插上 GPU 就能跑 AI”,而是一次几乎将机房推倒重来的系统级重构,其改造成本往往会超出中小型运营商的资金承受能力。

DePIN 在 AI 领域真的没有机会吗?

既然全球分散的 GPU 很难直接用来做大模型的强同步训练,这是否意味着 DePIN 模式在 AI 时代是否没有价值?需要说明的是,跨数据中心训练并不是理论上完全不可行。大型云厂商和 AI 基础设施公司正在通过专线网络、通信压缩和拓扑优化来探索这种模式。但这类方案依赖高度工程化的网络和调度系统,和普通 DePIN 节点通过公网松散连接并不是一回事。

关键在于,不是所有的 AI 计算任务,都需要像前沿大模型训练那样频繁、严密地同步数据。 只要放弃“用松散分布式节点训练超大模型”的过度乐观假设,将目光转向那些对成本敏感、对延迟宽容的二级计算场景,DePIN 在 AI 领域依然具备清晰的生存边界。

将重心转向“低优先级推理”

与训练阶段不同,AI 模型的推理阶段(即用户输入提示词,模型生成结果的过程)天然具备高度的独立性。在商用市场中,存在着海量对响应时间不那么敏感的“长尾推理任务”,像是批量离线文本处理、非实时内容审核、非实时的企业内部知识库问答、非即时响应的客服辅助系统等。

这些任务通常可以排队执行,不需要毫秒级的实时反馈。如果 DePIN 网络能够利用全球分散的、闲置的旧款 GPU,提供远低于商用公有云的算力租赁价格,那么对于预算有限、注重单位成本的企业客户来说,这就是一个极具吸引力的性价比选项。

批量渲染与视频转码

除了 AI 推理,还有大量传统的重度计算任务完美契合 DePIN 的分布式架构。诸如 3D 动画的影视级渲染、高动态视频的后期转码、以及部分基础的科学计算任务。这类任务的特点非常鲜明:任务可以被切成无数个独立的小块,各节点之间不需要任何中间交流,算完一帧直接提交一帧。 只要任务本身能够被安全地拆分且结果可被验证,分布式 GPU 网络就能发挥出低成本的堆叠优势。

寻找合理的微调与边缘任务

在特定条件下,小规模的模型微调(针对特定垂直行业的小模型训练)或者边缘 AI 计算任务,也是 DePIN 的潜在落地方向。因为这类任务的数据吞吐量和梯度同步频率远低于 frontier 大模型,对网络拓扑的压力在可控范围内。

总结来看,DePIN 在 AI 领域的真实定位,不是去替代那些最顶尖、最集中的高速智算中心,而是作为一门高弹性、高性价比的“成本套利工具”,去服务那些对成本极度敏感、对延迟相对宽容的二级计算需求。

不同算力任务对网络的要求有什么区别?

为了让你能更直观地看清算力资产在不同业务下的边界,我们可以通过下表,将各种算力任务对网络、延迟的依赖性以及其是否适合分布式架构进行横向对比:

业务类型核心计算任务网络带宽需求延迟容忍度是否适合全球分布式架构
比特币挖矿哈希穷举、寻找随机数、提交份额极低 (Kbps 级别)极高 (秒级延迟通常不影响核心产出)非常适合 (天然契合去中心化分布式架构)
AI 大模型训练梯度同步、参数频繁全量更新高(通常依赖高性能数据中心网络,规模越大要求越高)低(延迟越高,GPU 利用率和训练效率越容易下降)对强同步大模型训练不友好,需要具体评估
AI 边缘推理接收单次输入、实时生成输出结果中等 (取决于单次输入的数据量)中等至极低 (商业实时交互要求低延迟)部分适合 (主要取决于具体业务对响应时间的要求)
低优先级批量推理离线数据审核、大批文本向量化处理中等较高 (允许排队异步执行)比较适合 (成本敏感型任务的优选出口)
批处理 / 离线渲染3D画面分帧渲染、视频批量转码中等 (主要在任务下载与上传阶段)极高 (只要能按时交付结果即可)非常适合 (任务可完全拆分且互不干扰)
小规模模型微调局部参数微调、垂直领域行业模型训练中等至偏高中等 (取决于训练规模与同步机制)需要具体评估 (需在带宽与本地能效间做严谨对冲)

这个表格能够清晰地揭示一个行业本质:一项算力任务能否被分布式地分散到全球,并不取决于你拥有多少台机器,而是取决于这项计算任务本身,是否需要在微观上进行高频、强制的数据同步。

矿场做 DePIN 或 AI 转型前,应该先问哪些问题?

作为理性的运营商,在考虑将现有的基础设施切入 DePIN 或 AI 计算赛道前,应当首先通过以下四个核心问题进行系统性的审计,避免盲目跟风概念投资:

我的网络条件是否适合 AI 任务?

这是转型的第一步。你需要找专业团队评估:机房当前是否具备接入高质量骨干网的通道?外部总带宽在高峰期是否稳定?网络往返延迟(RTT)能否压到目标区间内?机房内部的布线和拓扑是否具备升级为高性能低延迟交换网络的可能?如果这些网络底座存在先天不足,应当果断放弃强同步训练任务。

我的电力条件适合哪类负载?

比特币挖矿是典型的“柔性负荷”,你可以随时参与电网的需求响应,通过停机让电来置换低价电力配额。但 AI 业务和企业级推理需要的是 24/7 毫无波动的刚性供电。你需要评估:你的供电协议是否允许长时间连续、不间断地满负荷运行 GPU?机房是否具备足够等级的备用冗余系统(如高标准备用电源)来应对突发断电?

我的硬件适合哪类任务?

在采购或利旧显卡时,不能只看算力跑分。必须逐项核对:硬件的显存容量是否达到了目标任务的最低门槛?内存带宽是否会成为数据流转的瓶颈?相关的计算框架和底层驱动在未来数年内是否还能得到官方的兼容与优化支持?高负荷运行后的二手硬件,其真实的故障率和备件采购成本是否在可承受范围内?

我的收益模型是否跑得通?

这也是最关键的一本账。转型的本质不是“能不能接入”,而是“收益能不能覆盖全部持有成本”。 运营商必须建立严密的财务模型,将区域电价、网络改造成本、设备折旧、实时任务订单的充足度、后期的人力维护开支以及可能带来的机会成本全部装进同一个模型里进行对冲精算。

矿池的成功,不能直接复制到 DePIN AI 训练

加密矿池之所以能用去中心化的方式连接全球大量矿机,核心在于 PoW(工作量证明)挖矿的任务结构对网络通信要求很低。每台机器各自为战,只需要定期上报结果。

但 AI 大模型训练不同,它在本质上是一个要求极高协同性的单体系统,对网络带宽、拓扑延迟和整体稳定性有着近乎苛刻的刚性依赖。因此,工业级矿场在考虑向 DePIN 或 AI 计算转型时,绝不能生搬硬套“矿池连接全球”的粗放逻辑。

在 2026 年的混合算力周期下,真正成熟的算力资产管理者,懂得顺应物理规律与财务边界:

  • 挖矿任务: 适合分布式、低通信、高柔性的长周期变现;
  • 大模型训练: 属于高度集中、超高带宽、微秒级延迟的专用智算中心;
  • DePIN 分布式网络: 应当务实地定位在低优先级推理、离线渲染、批处理以及部分轻量级微调等成本敏感型任务上。

在进行硬件重构或混合算力部署前,运营商应先把电价、网络改造成本、设备功耗、机房拓扑和预期在线率放进同一个模型中计算。对于矿场来说,真正的问题不是“能不能接入 DePIN”,而是“这类任务是否适合自己的电力、网络和硬件条件”。您可以使用 Bitdeer 挖矿计算器输入具体运维参数,从量化角度评估不同硬件与基础设施组合下的回本周期和长期 ROI。


挖矿人工智能初学者

本文提供的资讯仅供一般参考,并不构成也不应被理解为任何产品的广告、专业意见、要约、招揽或建议,也不涉及任何产品的交易。对于任何资讯的公正性、准确性、及时性、完整性或正确性,以及任何产品的未来回报、表现或结果,Bitdeer不作出任何明示或暗示的保证、陈述、担保或承诺。在适用法律允许的范围内,Bitdeer明确排除与本文提供的资讯有关的任何和所有责任,并且在任何情况下,Bitdeer都不对任何人因依赖本文的任何资讯而产生的任何损失或遭受的损害负责。