把AI数据中心送上太空绝对是个馊主意
最近一阵子,AI公司和航天公司频繁“牵手”,想把数据中心搬进太空。有些人甚至觉得这样能解决地面算力紧张的问题。可在真正做过航天电子的人眼里,这几乎注定是个烂主意。写下这篇分析的人曾是NASA工程师,后来又在Google工作多年,负责部署AI算力。他的结论非常直接,这件事没希望。
原因来自一个基本事实。能让数据中心正常运作的电子设备尤其是负责AI推理和训练的GPU和TPU所需要的环境,完全和太空环境对立。
先看能源问题。很多人以为太空“太阳能无限”。但并不是。要发电只有两种方式,太阳能电池板或核电。太阳能其实和地面差不多,穿过大气的损失并不大,所以你在太空里得到的单位面积发电量不会比在地球上高出几个数量级。国际空间站目前是地球轨道上最大的一组太阳能阵列,总面积约2500平方米,最理想情况也只有二十多万瓦电力。
核能也别想。轨道卫星用的不是核反应堆,而是放射性同位素热电机。它们只有几十瓦到一百多瓦的功率,连一块GPU都带不动,更别说成千上万。
能源不够只是开头。更致命的问题是散热。有人以为太空很冷,所以散热很容易,但这其实是最常见误解。太空是接近完全真空,根本没有空气流动。地面散热的主力机制是对流,用风扇吹散热片,或者用液冷把热量带到别处。但在太空里,没有空气,只有靠固体传导和辐射散热。
国际空间站的散热系统是液氨循环结合大型散热板。这套系统能处理约一万六千瓦的热量,也就是十几块高功耗GPU的级别。想让两百块GPU正常散热,就必须造一个面积超过五百平方米的巨大散热结构,比太阳能阵列还大上好几倍。结果就是,为了三排机架的数据量,你要造一个比国际空间站更庞大的怪物卫星。
如果这一切你都解决了,太空辐射会让你重新怀疑人生。轨道不同,辐射环境也不同。在低轨道还算温和,但到了中轨甚至外层轨道,就要面对太阳和宇宙射线不断轰击。高速粒子穿过半导体,会造成瞬态错误、单粒子翻转、甚至把晶体管直接烧死。
AI芯片在这点上属于最糟糕的材料。它们晶体管密度极高,结构极小,面积巨大,连普通计算机遇到的单粒子事件已经够可怕了,而GPU的敏感度要高得多。长期驻留太空,芯片会因为累积剂量效应逐渐变慢、功耗变高、最终不稳定。你想用屏蔽材料也不现实,屏蔽越厚,反冲粒子越多,反而更糟。
地面数据中心依赖的所有东西太阳能、电网供电、冷却系统、维护周期、芯片稳定性在太空里都变成难以跨越的工程深渊。要让这些昂贵的卫星长期工作,还得应对机械疲劳、姿态控制、电池老化、微陨石撞击。每一个环节都比在地面难百倍。
把AI算力搬去太空听上去像科幻,但工程上完全行不通。目前这些合作与宣传更像是赶风口的噱头。现实中,太空拥有的不是“无限能源和零成本冷却”,而是更强烈、更残酷、更难处理的物理条件。
当我们把复杂的技术幻想重新落在物理层面,事情会立刻变得朴素。地面数据中心的问题不能通过把它们送上天来解决。真正的技术突破,还是得发生在地球上,无论是芯片结构、散热方式还是能源效率。

