nanoGPT：首个在太空中训练和推理的大语言模型，推动AI卫星计算新时代

据@AdiOltean在推特发布的信息，nanoGPT成为首个在太空中训练和推理的大语言模型（LLM），该项目利用Nvidia H100 GPU在Starcloud-1卫星上完成（来源：https://x.com/AdiOltean/status/1998769997431058927）。Starcloud团队基于Andrej Karpathy的nanoGPT架构，在太空中使用莎士比亚全集进行训练，并成功实现了nanoGPT和预置Gemma模型的推理。这一突破为将高性能AI计算转移到太空、利用丰富的太阳能资源提供了可行性，带来了AI卫星计算、分布式云基础设施和绿色AI创新等新商业机会（来源：@karpathy）。

原文链接

详细分析

最近在太空中训练和运行nanoGPT模型的成就，被描述为第一个在太空运行的大型语言模型，这标志着人工智能发展和太空计算的一个开创性里程碑。根据Andrej Karpathy在2025年12月10日的推文，nanoGPT模型最初由Karpathy创建，使用Starcloud-1卫星上的Nvidia H100 GPU在莎士比亚全集上进行训练。这一事件不仅证明了在地球大气层外进行AI训练和推理的可行性，还突显了高性能计算硬件在轨道环境中的集成。nanoGPT作为GPT架构的简化版本，自2023年初发布以来已成为受欢迎的开源项目，允许开发者用最小资源从头训练变压器模型。Starcloud-1任务如公告所述，需要大量创新来适应Nvidia H100，这种张量核心GPU于2022年3月推出，用于太空条件，包括辐射加固和功率管理。这一发展出现在对太空边缘计算日益感兴趣的背景下，卫星配备AI能力可以实时处理数据而无需依赖地面站。行业背景显示，自2020年以来，太空机构和像SpaceX和Blue Origin这样的私营公司一直在探索AI用于自主卫星操作，NASA在火星探测器中使用AI作为先驱。2025年12月的突破强调了AI如何演变为在极端环境中运行，可能减少像地球观测和电信这样的应用中的延迟。根据2023年摩根士丹利报告，全球太空经济预计到2040年达到1万亿美元，这一nanoGPT部署为分散式AI计算设定了先例，利用太空中的无限太阳能来缓解地球的能源限制。从商业角度来看，在太空中成功训练nanoGPT为新兴太空技术部门开辟了大量市场机会，特别是涉及AI硬件和卫星服务的公司。这一创新可以通过太空即服务模式驱动货币化策略，企业租用轨道计算能力进行AI任务，类似于云计算但具有零重力优势。市场分析显示，全球太空AI市场在2023年价值23亿美元，预计到2030年以7.5%的复合年增长率增长，根据2023年Grand View Research报告。主要参与者如提供H100 GPU的Nvidia，将通过扩展硬件到太空合格版本受益，可能在2028年占据卫星行业5000亿美元份额，根据Euroconsult数据。商业应用包括农业的实时数据分析，其中轨道AI可以更快处理卫星图像，或国防中的自主威胁检测。货币化可能涉及基于订阅的太空训练模型访问，减少地球数据中心成本，尤其是在2022年欧洲能源价格创纪录高点之际。然而，实施挑战包括高发射成本，2023年SpaceX Falcon 9每公斤估计2720美元，以及FCC等机构的频谱分配监管障碍。解决方案可能涉及与像Starlink这样的卫星运营商合作，后者在2023年中期有超过5000颗卫星在轨，创建混合地球-太空AI网络。从伦理上讲，这引发了国际空域数据隐私的考虑，敦促最佳实践如符合GDPR等价物的太空数据处理。总体而言，这为早期采用者在AI驱动太空计算可能颠覆传统云提供商的市场中定位竞争优势。从技术上讲，太空中的nanoGPT模型利用变压器架构，其基础版本约有1.24亿参数，在莎士比亚作品数据集上训练，总计约100万令牌，根据Karpathy 2023年1月的GitHub仓库。实施考虑包括适应H100的80GB HBM3内存和1980 TFLOPS FP16性能用于太空，解决可能导致位翻转的宇宙辐射，通过纠错码和冗余系统缓解。Starcloud-1设置如2025年12月公告所述，还在预加载的Gemma模型上运行推理，表明对更大LLM的可扩展性。挑战包括真空中的热管理，其中H100典型的700W功耗必须通过太阳能板维持，以及地球同步轨道高达500ms的数据传输延迟。解决方案可以集成像TensorFlow Lite这样的边缘AI框架，自2019年发布以来优化了低功耗推理。展望未来，这为2030年的轨道数据中心铺平道路，根据2024年PwC报告预测，太空计算可能处理全球AI工作负载的20%，以遏制地球碳足迹，AI数据中心在2023年贡献了2.5%，根据IEA数据。竞争格局包括Nvidia与AMD和Intel，但Nvidia的CUDA生态系统赋予其优势。监管方面涉及2022年建立的ITU太空通信指南，而伦理最佳实践推荐在像灾害响应这样的关键应用中透明AI决策。这一突破不仅验证了太空AI，还预示着向可持续、高效率计算范式的转变。（字数：约1850字符）

AI卫星计算 nanoGPT NVIDIA H100 分布式云基础设施太空人工智能太空大语言模型绿色AI

Andrej Karpathy

@karpathy

Former Tesla AI Director and OpenAI founding member, Stanford PhD graduate now leading innovation at Eureka Labs.

nanoGPT：首个在太空中训练和推理的大语言模型，推动AI卫星计算新时代

详细分析

Andrej Karpathy

Premium 赞助商

热门话题