(출처: 엔비디아)
엔비디아가 암페어 A100의 PCIe 버전을 공개했습니다. 본래 A100은 PCIe 카드 방식이 아니라 SXM4라는 새로운 폼펙터를 사용하고 있습니다. PCIe 보다 다 작은 크기에도 불구하고 더 많은 전력 공급과 대역폭 확보가 가능해 고성능 인공지능 연산용으로 유리합니다. 하지만 SXM4는 아직 대중적인 폼펙터라고 말하긴 어렵기 때문에 엔비디아는 PCIe 버전도 같이 출시했습니다.
PCIe 4.0 버전의 A100은 클럭을 다소 낮춰 SXM4 버전의 90% 정도 성능을 목표로 하고 있으며 250W TDP를 지니고 있습니다. 다만 NVLink 3의 대역폭 역시 낮을 것으로 보여 전체적인 성능은 여러 개의 A100을 사용하면 병목현상으로 SXM4 버전 대비 느릴 것으로 예상됩니다. 그래도 일반적인 서버 환경에서 사용할 수 있다는 점이 중요합니다.
참고로 PCIe 4.0 카드이지만, 방열판만 있고 독립 냉각팬은 없는 서버용 제품입니다. 서버 환경에서 강력한 시스템 냉각팬을 사용하기 때문입니다. (아래 사진 참조)
NVIDIA Accelerator Specification Comparison
| ||||||
A100
(PCIe) |
A100
(SXM4) |
V100
(PCIe) |
P100
(PCIe) | |||
FP32 CUDA Cores
|
6912
|
6912
|
5120
|
3584
| ||
Boost Clock
|
1.41GHz
|
1.41GHz
|
1.38GHz
|
1.3GHz
| ||
Memory Clock
|
2.4Gbps HBM2
|
2.4Gbps HBM2
|
1.75Gbps HBM2
|
1.4Gbps HBM2
| ||
Memory Bus Width
|
5120-bit
|
5120-bit
|
4096-bit
|
4096-bit
| ||
Memory Bandwidth
|
1.6TB/sec
|
1.6TB/sec
|
900GB/sec
|
720GB/sec
| ||
VRAM
|
40GB
|
40GB
|
16GB/32GB
|
16GB
| ||
Single Precision
|
19.5 TFLOPs
|
19.5 TFLOPs
|
14.1 TFLOPs
|
9.3 TFLOPs
| ||
Double Precision
|
9.7 TFLOPs
(1/2 FP32 rate) |
9.7 TFLOPs
(1/2 FP32 rate) |
7 TFLOPs
(1/2 FP32 rate) |
4.7 TFLOPs
(1/2 FP32 rate) | ||
INT8 Tensor
|
624 TOPs
|
624 TOPs
|
N/A
|
N/A
| ||
FP16 Tensor
|
312 TFLOPs
|
312 TFLOPs
|
112 TFLOPs
|
N/A
| ||
TF32 Tensor
|
156 TFLOPs
|
156 TFLOPs
|
N/A
|
N/A
| ||
Relative Performance
(SXM Version)
|
90%
|
100%
|
N/A
|
N/A
| ||
Interconnect
|
NVLink 3
6 Links? (300GB/sec?) |
NVLink 3
12 Links (600GB/sec) |
NVLink 2
4 Links (200GB/sec) |
NVLink 1
4 Links (160GB/sec) | ||
GPU
|
GA100
(826mm2) |
GA100
(826mm2) |
GV100
(815mm2) |
GP100
(610mm2) | ||
Transistor Count
|
54.2B
|
54.2B
|
21.1B
|
15.3B
| ||
TDP
|
250W
|
400W
|
250W
|
300W
| ||
Manufacturing Process
|
TSMC 7N
|
TSMC 7N
|
TSMC 12nm FFN
|
TSMC 16nm FinFET
| ||
Interface
|
PCIe 4.0
|
SXM4
|
PCIe 3.0
|
SXM
| ||
Architecture
|
Ampere
|
Ampere
|
Volta
|
Pascal
|
(암페어, 볼타, 파스칼 가속기의 스펙 비교. 출처: 아난드텍)
한편 기가바이트는 2개의 AMD 에픽 CPU와 10개의 A100 가속기를 설치할 수 있는 10개의 PCIe 슬롯, 그리고 최대 3개의 2200W의 플래티넘 리던던트 파워를 탑재한 G492 서버를 선보였습니다. 이를 통해 A100 열 개는 물론 최대 64코어의 에픽 프로세서 두 개와 12개의 NVMe 스토리지, 8TB의 DDR4 3200 메모리를 탑재할 수 있습니다.
(출처: 기가바이트)
이런 고성능 서버는 매우 많은 컴퓨팅 파워가 필요한 인공지능 연산에 활용될 것입니다. 모두 다 채우면 도대체 가격이 얼마나 나갈지도 궁금하네요.
참고
댓글
댓글 쓰기