(출처: 엔비디아)
오라클이 Oracle Cloud Infrastructure (OCI)에 엔비디아 GPU를 대거 투입해 최근 공개한 테슬라의 AI 데이터 센터와 경쟁할 수 있는 대규모 AI 인프라 구축에 나선다는 소식입니다. 여기까지는 놀라운 일이 아니지만, 오라클은 소형 모듈형 원자로 (SMR)를 3기를 건설해 기가와트급 전력을 소모하는 AI 데이터 센터에 안정적으로 전력을 공급한다는 놀라운 계획도 발표했습니다.
오라클은 우선 16,384개의 H100 GPU를 사용한 AI 슈퍼 클러스터를 구축하는데, 65 FP8/INT8 exaFLOPS의 연산 능력과 13 Pb/s의 네트워크 대역폭을 지니고 있습니다. 65,536개의 H200 GPU를 사용한 슈퍼 클러스터는 260 FP8/INT8 exaFLOPS의 연산 능력과 52 Pb/s의 대역폭을 지니고 있습니다.
이것도 엄청난 수치이지만, 블랙웰을 대량으로 사용해 구축할 세 번째 슈퍼 클러스터는 놀라운 규모로 131,072개의 B200 블랙웰 GPU를 사용해 2.4 FP8/INT8 zettaFLOPS의 연산 능력을 확보합니다. 제트플롭스급 AI 데이터 센터가 되는 것입니다.
13만 개의 GPU 나오는 엄청난 발열과 네트워크 대역폭을 해소하기 위해 오라클은 엔비디아가 개발한 수냉 냉각 시스템 노드인 GB 200 NVL 72을 사용합니다. GB 200 NVL 72는 72개의 블랙웰 GPU를 수냉으로 냉각하며 막대한 데이터 대역폭을 소화하기 위해 별도의 프로세서인 NVLINK SWITCH를 사용합니다. 각 두 개의 NVLINK 스위치 프로세서가 하나의 트레이에서 14.4TB/s의 대역폭을 지원하며 총 9개의 트레이를 통해 130TB/s의 대역폭을 GB 200 NVL 72 하나 당 지원할 수 있습니다.
이전 포스트: https://blog.naver.com/jjy0501/223388364475
다만 이렇게 GPU를 늘리면 소모하는 전력량은 기가와트급으로 커질 수밖에 없습니다. 이 전력량을 감당하기 위해 SMR 건설을 추진하는 것인데, 데이터 센터와 달리 원전을 건설하는 데는 상당한 시간과 함께 주변의 반대가 상당할 가능성이 높습니다.
24시간 365일 안정적 전력 공급을 위해 원전을 건설하는 건 이해가되지만, 과연 이런 시도가 성공할 수 있을진 의문입니다.
참고
댓글
댓글 쓰기