앞서 포스트에서 언급했듯이 시장 독점 때문이 아니라도 공정 미세화의 어려움으로 인해 이미 무어의 법칙은 통하지 않게 되었습니다. 더구나 반도체 설계가 매우 복잡해지면서 사실 두 배의 트랜지스터를 집적했다는 것이 두 배의 성능을 의미하지는 않게 되었습니다. 이전 포스트에서 충분하지는 않았지만, 공정 미세화의 어려움을 설명했다면 이번에는 미세화된 공정 때문에 발생하는 어려움을 설명해 보겠습니다.
- 멀티 코어 아키텍처
CPU나 GPU의 발전 방향은 하나의 코어나 유닛에서 더 많은 연산 능력을 갖추게 하는 방향으로 발전해왔지만, 결국은 여러 개의 코어를 병렬로 연결하는 멀티 코어 방향으로 발전하고 있습니다. 한 개의 코어 면적을 두 배로 늘리면 설계도 복잡해질 뿐 아니라 연산 능력이 두 배씩 증가하기 어렵기 때문에 같은 코어 두 개를 넣는 것이 더 유리합니다.
GPU처럼 작업량을 잘게 쪼개기 쉬운 경우에는 이미 이와 같은 구조가 일반화되어 현대적인 GPU는 여러 개의 작은 코어 (스트림 프로세서 혹은 CUDA)가 반복되는 구조를 지니고 있습니다. 하지만 이보다 범용 프로세스를 담당해야 하는 CPU는 여러 가지 명령어를 수행할 수 있는 복잡한 구조를 지니고 있어 GPU처럼 잘게 코어를 쪼개기는 어렵습니다. 더 나아가 CPU는 작업 특성상 하나의 코어라도 모든 메모리에 접근하거나 코어간 작업을 공유해야 하기 때문에 멀티 코어 적용에 어려움이 있습니다. 인텔과 AMD는 서로 다른 접근법으로 이 문제를 해결했습니다.
인텔은 브로드웰 이전에는 링 버스 (ring bus)구조를 가지고 있었습니다. 최대 12개씩 코어가 순환하는 링처럼 연결되어 하나의 CPU로 작동하는 것이죠. 브로드웰에서는 링 두 개를 이용해서 최대 24개의 코어를 집적했는데, 결국 링이 길어지면 서로 간의 연결이 길어지고 링이 여러 개면 서로 데이터 공유가 어려워지는 문제가 있었습니다.
그래서 인텔은 바둑판처럼 코어를 배열하는 격자 모양 구조인 메쉬 아키텍처(Mesh architecture)를 개발했습니다. 스카이레이크 SP/X에서 선보인 메쉬 아키첵처는 코어를 3x4, 4x5, 5x6 으로 배열하는 방식으로 앞으로 6x7, 7x8 배열도 나올 수 있을 것으로 보입니다. 이미 제온 파이에서 이런 구조를 선보인 인텔은 바둑판 모양으로 코어를 배치해 서로 데이터를 공유할 수 있는 구조를 당분한 사용할 것으로 보입니다.
(링 버스(위)와 메쉬 아키텍처 (아래) 출처: 인텔)
메쉬 구조는 링 버스에 비해서 더 많은 코어를 연결하는 데 유리하지만, 대신 그 만큼 크기가 커지는 것으로 보입니다. 앞서 포스트에서 설명했듯이 스카이레이크 SP는 브로드웰 EP에 비해 다이 사이즈가 꽤 커졌는데, 이는 MLC(mid level cache)를 1MB로 늘리는 등 구조 변화에도 이유가 있겠지만, 메쉬 아키텍처에도 이유가 있는 것으로 보입니다.
이 역시 트랜지스터 집적도가 두 배가 되도 성능은 두 배가 되지 않은 이유를 설명해주고 있습니다. CPU코어수가 늘어나고 메모리 채널과 PCIe 등 다른 I/O 관련 부분이 증가하면 코어 이외의 부분이 크게 증가하기 때문입니다. 늘어난 트랜지스터의 상당 부분은 연산에 직접 참여하는 코어와 캐쉬가 아니라 다른 부분일 수 있습니다. 8코어 인데도 48억개의 트랜지스터를 집적한 라이젠 역시 같은 이슈를 지니고 있는 것으로 추정됩니다.
AMD의 젠 아키텍처의 접근법은 하나의 큰 묶음이 아닌 여러 개의 다이를 서로 연결시키는 것입니다. 인피니티 패브릭 (Infinity fabric)은 다이와 다이, 소켓과 소켓 그리고 주변 기기를 연결하는 I/O 방식으로 2/4개의 다이를 하나의 CPU처럼 사용할 수 있게 해줍니다.
(출처: AMD)
하지만 이와 같은 접근법은 결국 먼 메모리와 가까운 메모리 사이의 속도 차이를 만들어 전체 성능을 떨어뜨리게 됩니다. 그래도 별도의 빅칩을 만들 필요 없이 여러 개의 중간 크기 다이를 엮어서 큰 CPU를 만들 수 있으므로 그에 따른 이점이 훨씬 클 것입니다. 실제로 32코어의 에픽 프로세서 벤치 마크 결과는 이와 같은 사실을 그대로 보여주고 있습니다. 다만 172억개라는 트랜지스터 숫자에 비해 코어 숫자가 상대적으로 적어 I/O 및 인피니트 패브릭에 사용되는 부분이 그만큼 큰 것이 아닌가라는 궁금증이 생깁니다.
쓰다보니 길어져서 일단 여기서 마무리하고 다음 포스트에서 계속이야기 하겠습니다. 아무튼 공정 미세화를 통해 트랜지스터 집적도를 늘리고 코어수를 증가시키는 것도 어렵지만, 더 커진 프로세서를 정상적으로 작동하게 만드는 일도 역시 어렵다고 할 수 있을 것입니다. 이 모든 어려움이 합쳐져서 결국 무어의 법칙을 통하지 않게 만들었다고 할 수 있을 것입니다. 하지만 그렇다고 프로세서 발전이 멈춘 것은 아니고 앞으로 더 발전할 수 있는 여지는 충분히 남아있습니다.
참고
댓글
댓글 쓰기