(출처: 인텔)
인텔의 라자 코두리 수석 부사장이 인텔 아키텍처 데이 2021 행사를 통해 인텔이 개발한 GPU 아키텍처에 대한 많은 내용을 공개했습니다. 이번에 공개된 내용을 살펴보면 인텔 GPU의 주적이 엔비디아라는 사실이 확연하게 드러납니다. AMD에서 인텔로 자리를 옮겼지만, 코두리 부사장은 계속해서 엔비디아와의 싸움을 이어나가는 것입니다.
우선 인텔이 공개한 Xe HPC 코어는 알케미스트에 사용된 Xe HPG 코어의 확장형으로 벡터 엔진은 8개로 줄었지만 성능은 동일하고, AI 연산을 담당하는 메트릭스 엔진 (XMX)은 오히려 연산 능력이 두 배 늘어났습니다. 고성능 연산 중에서도 수요가 큰 인공지능 연산을 강화하기 위한 것으로 풀이됩니다. 코어가 모인 랜더 슬라이스는 16개의 Xe 코어를 탑재해 역시 알케미스트 대비 두 배의 연산 유닛을 포함했습니다. 그리고 랜더 슬라이스 4개가 모여 하나의 Xe stack을 구성하고 있습니다. 그리고 2 스택이 하나의 코어 구성하는 구조입니다. 최대 8개의 코어가 Xe Link 기술을 통해 연결되어 작동합니다.
이런 구조는 엔비디아의 A100을 비롯해서 거대한 HPC 및 AI 가속용 GPU에서 드물지 않지만, 폰테 베키오의 특징은 여러 개의 다이를 인텔 포베로스 (Foveros) 기술로 연결해 만든 복합 GPU라는 점입니다. 5개의 서로 다른 공정으로 제조한 47개의 액티브 타일이 모여 무려 1000억개가 넘는 트랜지스터를 하나의 GPU에 집적했습니다. 단일 공정으로 한 번에 칩을 찍어내는 것이 성능면에서는 더 유리하긴 하지만, 한 번에 실수 없이 찍어내기 힘들어 수율이 낮을 수밖에 없습니다. 결국 거대한 칩을 만들기 위해 여러 개의 타일로 만드는 것이 유리하다는 것이 인텔의 주장이고 폰테 베키오는 이런 타일 구조의 극단을 보여주는 제품인 셈입니다.
인텔은 폰테 베키오 GPU 하나가 45TFLOPS (FP32 기준) 이상의 연산 능력을 지녔다고 공개했습니다. 이는 A100의 19.5 TFLOPs의 두 배가 넘는 것인데, 트랜지스터 숫자도 두 배 수준이고 최신 5nm 공정 컴퓨트 타일을 지녔음을 생각하면 어느 정도 납득이 가능한 수준입니다. 오로라 슈퍼컴퓨터의 기본 단위인 오로라 블레이드에는 이런 폰테 베키오 GPU 6개와 사파이어 래피즈 CPU 2개가 탑재됩니다.
이렇게 되면 고성능 GPU 시장에서 주도권을 유지하기 위한 엔비디아의 반격이 궁금해집니다. A100 이 나온지도 1년이 넘은 만큼 이제 다음 세대 GPU 역시 등장할 때가 가까워지고 있습니다.
참고
https://www.tomshardware.com/features/intel-ponte-vecchio-and-xe-hpc-architecture-built-for-big-data
댓글
댓글 쓰기