(출처: Cerebras Systems)
최근 한 인공지능 스타트업이 1.2조개의 트랜지스터를 집적한 인공지능 연산 전용 프로세서를 선보였습니다. Cerebras Systems의 Wafer Scale Engine (WSE)은 TSMC의 16nm 공정으로 만들어진 AI 전용 가속기로 300mm 웨이퍼 하나를 통채로 프로세서로 만든 것입니다. 트랜지스터 집적도는 1.2조개에 달하고 면적은 무려 46,225 mm² 에 달합니다.
이런 형태의 프로세서는 이전에도 제안된 적이 있지만, 여러 가지 이유로 널리 쓰이지 않고 있습니다. 이렇게 큰 웨이퍼 프로세서를 만들면 반드시 오류가 생긴 회로가 포함되며 웨이퍼 전체를 버리는 일이 일어나기 때문입니다. 따라서 일반적인 반도체 제조 공정은 하나의 웨이퍼에서 여러 개의 작은 반도체 칩을 떼어내 그중에서 정상적으로 작동하는 칩을 제품으로 출하합니다.
하지만 최근 프로세서 크기가 자꾸 커지고 복잡해짐에 따라 한 번에 오류 없이 프로세서를 만들기 힘들어지고 있습니다. 따라서 GPU나 CPU 모두 여러 개의 코어 중 일부 오류가 발생한 부분을 레이저 커팅해 판매합니다. WSE는 여기서 한 발 더 나아가 오류가 발생한 코어는 빼고 정상적으로 작동할 수 있는 코어끼리 고속 인터페이스로 연결하는 방식을 사용합니다.
WSE는 40만개의 Sparse Linear Algebra (SLA) 코어를 가지고 있으며 이들을 Swarm communication fabric 이라는 고속 인터페이스로 연결했습니다. 2D 메쉬 구조의 인터페이스 대역폭은 100Pb/s에 달합니다. 이는 웨이퍼 위에서 서로 연결된 덕분입니다. 이렇게 많은 코어가 쓰기 위해서 WSE은 18GB 용량의 온칩 SRAM을 지니고 있습니다. 물론 이렇게 많은 칩을 연결한 덕에 발열량도 엄청나 특별한 냉각 시스템이 필요합니다.
WSE는 미 에너지부 산하 기관인 아르고 국립 연구소 및 로렌스 리버모어 국립 연구소 Argonne National Laboratory/ Lawrence Livermore National Laboratory에서 도입할 계획입니다. 실제 성능이 어느 정도인지 궁금합니다.
참고
댓글
댓글 쓰기