11. ARM 기반 아키텍처의 세분화
본래 ARM 의 CPU 다지인의 가장 큰 특징은 바로 그 단순성에 있었다. 작고 단순한 RISC 프로세서로 시작했고 바로 그 특징 때문에 저렴하고 전력대 성능비가 우수한 제품이 될 수 있었지만 점차 모바일 영역에서 고성능의 스마트폰이나 혹은 모바일 기기의 요구가 증가하자 이런 제품들만 만들어서는 시장의 수요에 대응하기가 어려워졌다. 따라서 ARM 은 ARMv7 아키텍처에 와서 제품군을 크게 셋으로 나누었는데 각각 ARM Cortex - A, Cortex - M, Cortex - R 제품군이었다.
스마트폰에 주로 사용되어 우리에게도 친숙한 Cortex A 제품군은 나중에 좀더 자세히 설명하게 될 것인데 Cortex A8 이나 A9, A15 는 사실 ARM 에 대해서 친숙하지 않은 사람들도 한번은 들어봤을 만큼 널리 알려져 있다.
한편 여전시 시장에서는 보다 단순한 ARM 기반 칩도 필요로 하고 있다. 특히 마이크로컨트롤러 제품군 등을 타겟으로 다양한 Cortex M 시리즈 제품군들이 소개되었는데 (M 은 micro controller) 각각 Cortex - M0/ M0+/ M1/ M3/ M4 으로 다시 세분화 할 수 있다. 물론 뒤에 있는 숫자가 높을 수록 더 고성은 제품을 타겟으로 한 것이다.
Cortex -M0 의 경우 사실은 구세대인 ARMv6 아키텍처에 기반했으며 3 stage pipeline 의 아주 단순한 칩으로 작은 크기와 13.36 µW/MHz 라는 극 저전력을 목표로 태어나 여러 전자 제품에 알게 모르게 들어가 있다.
Cortex - M0+ 의 경우 M0 와 유사하나 2 stage pipeline 의 더 단순한 구조로 11.21 µW/MHz 이라는 더 저전력을 실현한 제품이라고 할 수 있다. Cortex M1 의 경우 이보다 조금 고성능을 목표로 하고 있다. 여기까지는 모두 ARMv6 기반 아키텍처이다.
본격적인 ARMv7 아키텍처 제품은 Cortex M3 부터로 1.25 DMIPS/MHz 의 성능과 90 nm 공정에서 0.12 ㎟ 의 작은 다이 사이즈, 그리고 32 µW/MHz 의 전력 소모를 가지고 있다. 이 제품은 OMAP 4470 에서 두개의 Cortex A9 칩을 보조하기 위해 2개가 들어가 있기도 하다. 저전력 제품으로 여러 마이크로컨트롤러나 기타 임베디드, 전자 제품에 널리 사용되고 있다.
Cortex M4 는 이중에서는 가장 고성능 제품으로 Cortex M3 에 DSP 명령어와 FPU (floating point unit) 을 옵션으로 추가한 것이다. 이는 ARMv7E-M 아키텍처로 불리고 있다. 기본 연산 능력은 1.25 DMIPS/MHz 로 비슷하지만 옵션으로 추가 기능이 덧붙여질 수 있다. M3/4 모두 3 stage pipeline 을 가지고 있다.
(Cortex M0 와 M3 제품군 ARM Cortex-M ICs (Cortex-M0: NXP LPC1114. Cortex-M3: NXP LPC1343, Energy Micro EFM32TG110F32 and EFM32TG210F32) CCL에 따라복사 허용 저자 표시 저자 Viswesr )
Cortex - R 프로세서는 실시간 시스템용 임베디드 프로세서 제품군으로 (R 은 real time) 중급 임베디드 시스템을 위해 탄생했다고 할 수 있다. 여기에는 Cortex R4 와 Cortex R4F(FPU 이 포함된 R4), R5, R7 등이 있다. 이 제품군은 Cortex A 제품군처럼 고성능이 아닌 제품군에 널리 사용되고 있다.
Cortex A 의 A 는 Application 이란 이름이며 이는 고성능의 어플리케이션 구동을 위해 태어났다고 할 수 있다. Cortex A 제품군은 현재 A5, A8, A9 그리고 A15 가 출시되어 있으며 미래 A50 시리즈가 준비중에 있다. (여기에 빅리틀 프로세싱을 위한 A7 도 준비중에 있다. )
Cortex A 시리즈의 등장과 더불어 ARM SoC 혹은 AP (어플리케이션 프로세서) 들은 엄청나게 커지게 되었다.
12. Cortex A8/9 시리즈
Cortex A8 계열 CPU 는 삼성의 엑시노스 3110 (허밍버드로 알려졌던 코어), 애플의 A4, TI OMAP 3 시리즈 등에 사용된 바 있으며 스마트폰이 급격히 확산될 때 첨병 노릇을 했다고 할 수 있다. 전 세대인 ARM11 코어에 비해 클럭당 2 배에 가까운 성능을 낼 목표로 개발된 Cortex A8 은 13 stage 의 dual issue superscalar 디자인, 멀티미디어를 위한 NEON SIMD 명령어 셋 등을 가지고 있으며 ARMv7 세대의 첫 제품이라고 할수 있습니다. 이론적인 성능은 2 DMIPS/MHz 수준이다. 기본적으로 L1 캐쉬는 32/32 KB 를 가지고 있으나 L2 캐쉬를 512 KB 까지 탑재할 수 있어 이를 모두 포함하면 이전 세대보다 꽤 크고 복잡한 CPU 를 구성할 수 있다. (이전에 언급할 때 캐쉬를 포함하고도 4 ㎟ 이하의 면적을 가진다고 했는데 물론 L1 캐쉬만을 의미하는 것이고 L2 를 포함하면 훨씬 큰 크기가 된다)
(Cortex A8 의 블록 다이어그램 )
비록 이전세대에 비해 커졌지만 그럼에도 ARM CPU 들은 기본적으로 작다는 특징은 유지하고 있었다. 하지만 갈수록 스마트폰이나 스마트 기기에서 멀티미디어 처리가 중요해 지면서 ARM 기반 AP 들은 급속도로 복잡해졌다. 예를 들어 3D 게임을 위해 강력한 GPU 를 탑재해 GPU 가 차지하는 면적이 CPU 보다 훨씬 거대한 칩들이 등장했다.
(OMAP 3430 의 블록 다이어 그램. CPU, GPU 외에도 각종 I/O 를 통제하고 기타 역할을 수행하는 복잡한 회로들이 빽빽하게 들어서는 것이 스마트폰에 사용되는 AP 들의 하나의 추세가 되었다. 최신의 AP 들에 비한다면 위의 AP 도 단순한 구조다. Source : TI )
새로운 시대에 맞춰 등장한 Cortex A8 은 곧 Cortex A9 으로 교체되면서 빠르게 멀티코어화를 이룩했다. Cortex A9 MP Core 를 쓴 제품들은 2012 년에도 매우 친숙하게 볼 수 있다. 삼성의 엑시노스 4210, 4212, 4412 를 비롯 애플의 A5/A5X, 엔비디아의 테그라 2/3, TI 의 OMAP 4 시리즈 등이 그것이다. Cortex A9 은 out of order 방식을 채택하고 있으며 이론적인 성능은 2.5 DMIPS/MHz 수준이다. VFPv3 floating point unit 을 옵션으로 지원하며 이 경우 전세대 FPU 의 2배 성능이 가능하다.
(Cortex A9 MP 코어의 단순화된 다이어그램. 쿼드 코어를 지원하며 각 코어당 2.5 DMIPS/MHz 의 성능을 낼 수 있기에 총 10 DMIPS/MHz 라는 고성능을 구현 가능해졌다. 이 시기에 이르러 10000 DMIPS 급 이상의 AP 가 가능해진 것은 역시 멀티코어의 힘이었다. L2 캐쉬도 최대 8 MB 까지 탑재 가능해져 상당히 거대해 질 수 있었다.)
Cortex A9 MP 코어의 시절에 이르러 ARM 코어들은 꽤 거대해졌다. 물론 여기에 앞서 말한 3D 성능이 점점 스마트폰 AP 에서 중요해짐에 따라 GPU 가 차지하는 면적 또한 자꾸만 커졌다. 애플의 A5X 의 경우 45 nm 공정에서 무려 165 ㎟ 라는 꽤 큰 면적을 가지고 있었는데 45 nm 공정의 듀얼 코어 펜린/울프데일의 82 및 107 ㎟ 와 비교해도 작은 면적이 아니었다. 다만 A5X 가 이렇게 커진 이유는 주로는 GPU 때문이었다. 물론 ARM Cortex A9 MP Core 자체가 그렇게 작은 것은 아니었다.
(A5X 의 다이샷이라고 주장되는 사진)
이후 A15 시대가 도래하자 (2012 년) ARM 기반 AP 들도 큰 변화를 겪었다.
다음에 계속 :
참고
댓글
댓글 쓰기