Tesla Dojo 超级计算机深度技术介绍与全面分析(下)

chengsenw 项目开发评论3阅读模式

Tesla Dojo 超级计算机深度技术介绍与全面分析(下)

欢迎关注本公众号,以便持续为您提供有意义的信息:

本文在《Tesla Dojo 超级计算机深度技术介绍与全面分析(上)》的基础上继续分析Tesla Dojo 超级计算机。

2.2 自定义指令集 TISA 与数据通路

D1 使用 Tesla Instruction Set Architecture(TISA),非标准 ISA。指令编码高度压缩,支持零开销循环、条件执行和软件流水。编译器从 PyTorch/XLA 前端生成 TISA 二进制。数据通路亮点:

  • 向量寄存器文件 128×1024-bit。

  • 矩阵单元采用 2D systolic array,输入站(Input Station)缓存激活,权重站(Weight Station)缓存权重,输出站累加结果。

  • 支持配置精度:BF16(标准)、CFP8(Configurable Fixed Point 8-bit,Tesla 自定义,动态调整指数范围,视频训练中损失极小但带宽减半)。

CFP8 格式详解:8-bit 浮点,1 符号位 + 4 指数位 + 3 尾数位(可配置),相比 FP8 更灵活,在视频数据(动态范围有限)中精度损失 <0.1%,但计算密度提升 4 倍。

以下是 CFP8 格式与 systolic array 图:

Tesla Dojo 超级计算机深度技术介绍与全面分析(下)

2.3 I/O 与片上网络

D1 边缘集成 40 组高速 SerDes,每组 112 Gbps,总 off-chip 带宽 4.5 TB/s(四方向各 1.125 TB/s)。片上网络为 2D mesh + torus,带宽密度 >10 TB/s/mm。单芯片峰值性能:

  • BF16:362 TFLOPS

  • CFP8(密集):~1 PFLOPS(Tesla 内部评测)

  • 功耗:400-650W(视负载)

3.Training Tile:晶圆级集成(System on Wafer)革命性设计

Dojo 最大创新是 Training Tile:直接在 300mm 晶圆上集成 25 个 D1 芯片(5×5 阵列),不切割封装,使用 Through-Silicon Via(TSV)垂直互联 + 重新布线层(RDL)形成单一巨型“芯片”。

3.1技术细节

  • 面积:约 762 mm × 762 mm(整晶圆)。

  • 计算核心:8850 个训练节点(354×25)。

  • SRAM 总量:11 GB(442 MB × 25)。

  • 内部带宽:TSV 密度 >100 万根/芯片间,单向带宽 >50 TB/s,芯片间延迟 <10 ns。

  • 边缘 I/O:每个方向 4.5 TB/s(继承 D1),总 off-tile 18 TB/s。

  • 电源交付:创新集成 Voltage Regulator Module(VRM)直接在晶圆背面,输入 48-52V 电网电压,降压至 0.8V 核心电压,效率 >95%,避免传统 PCB 损耗。

  • 冷却:双相浸没式或微通道液冷,直接接触硅背面,热流密度支持 1 kW/cm²。

这种 wafer-scale 设计解决了传统多芯片模块(MCM)的封装良率、信号完整性和成本问题。Tesla 声称同等计算密度下成本仅 NVIDIA 的 1/5-1/10。

以下是 Training Tile 高清实物与结构图:

Tesla Dojo 超级计算机深度技术介绍与全面分析(下)

3.2 TSV 互联与良率挑战

TSV 直径 ~5μm,间距 ~20μm,垂直贯穿硅片实现芯片间全互联。Tesla 与 TSMC 合作开发专用工艺,良率从早期 <30% 提升至 2024 年 >70%。缺陷芯片可通过冗余路由绕过。

4.系统级架构:从 Tile 到 Exapod

4.1 System Tray

单个 Tray 集成 6-8 个 Training Tile + Dojo Interface Processor(DIP,基于 x86 或 ARM,处理主机通信、存储接口)。Tray 尺寸约 1m × 1m,功耗 100-120 kW。

4.2 Cabinet 与高维网络

多个 Tray 垂直堆叠成 Cabinet,采用 5D Torus 网络拓扑(Tesla 专利):每节点 10 个方向链路(每方向 9 TB/s),总带宽 >1 EB/s(Exapod 级)。无阻塞、低延迟,支持 AllReduce 等集体通信原语硬件加速。

4.3 Exapod 完整系统

一个 Exapod 包含 120 个 Training Tile(3000 个 D1,超过 100 万训练节点):

  • 峰值性能:1.1 ExaFLOPS(BF16/CFP8)

  • 总 SRAM:>1.3 TB

  • 总功耗:~1.5 MW

  • 体积:单个机柜集群

以下是系统级架构与机柜照片:

Tesla Dojo 超级计算机深度技术介绍与全面分析(下)

5.电源交付与热管理技术细节

5.1 集成 VRM 电源系统

传统超级计算机电源损耗占 20-30%,Dojo 在晶圆背面集成 DC-DC 转换器,直接 52V 输入 → 0.8V 输出,效率 97%,热损极低。

5.2先进冷却方案

采用微通道冷板 + 两相冷却液(可能为 Novec 或类似),直接嵌入晶圆背面,热传递系数 >100 kW/m²K。Buffalo 数据中心曾因 Dojo 上电导致电网跳闸(2022 年),反映其极端功率密度。

以下展示了电源与冷却相关图表:

Tesla Dojo 超级计算机深度技术介绍与全面分析(下)

6.性能实测与 NVIDIA 深度对比

理论上,单个 Training Tile(9 ExaFLOPS CFP8)在视频训练中可超 8 节点 DGX A100 系统 4-6 倍。实测(2024 年数据):

  • Dojo 1 Exapod ≈ 8000-12000 H100(MLPerf 类似负载)

  • 能效:Dojo 约 2-3× NVIDIA(同等性能功耗更低)

  • 成本:Tesla 内部估算 <1/5

但软件瓶颈明显:缺乏 CUDA 生态,编译器优化空间大。

Tesla Dojo 超级计算机深度技术介绍与全面分析(下)

7.软件栈与训练流水线集成

Dojo 软件栈包括:

  • 前端:PyTorch + XLA 编译器

  • 中间层:Tesla 自定义 Graph IR

  • 后端:TISA 代码生成 + 运行时调度

  • 集体通信:硬件加速 AllReduce,效率 >95%

在 Tesla “数据引擎”中,Dojo 处理从车辆采集 → 自动标注 → 端到端训练 → 模型压缩部署的全流程。

8.挑战、风险与未来展望

主要挑战:

  1. 晶圆级良率与制造难度(大芯片缺陷指数增长)

  2. 软件生态落后

  3. 通用性差(仅视频训练高效)

  4. 早期部署电力基础设施压力

未来 Dojo 3(基于 AI5,预计 3-5nm 工艺,单芯片 >10 PFLOPS)将解决这些问题。Space Dojo 构想若实现,将开创太空计算先河。

Dojo 代表 AI 硬件极致定制化方向,其 wafer-scale、集成电源冷却、自定义格式等创新已深刻影响行业。即使短期依赖 NVIDIA,长期看 Dojo 是 Tesla AI 霸权的核心基石。

欢迎关注本公众号,以便持续为您提供有意义的信息:

 
chengsenw
  • 本文由 chengsenw 发表于 2026年2月4日 11:30:02
  • 转载请务必保留本文链接:https://www.gewo168.com/10965.html
匿名

发表评论

匿名网友

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: