AMD 의 3 세대 저전력 APU - 비마와 멀린스 공개

AMD 가 3 세대 저전력 APU 인 비마 (Beema) 와 멀린스 (Mullins) 를 공개했습니다. 1 세대인 브라조스/자카테 (밥캣)이 등장한 이후 한참 만에 2 세대인 재규어 기반의 카비니/테마쉬가 나온 것과는 대조적으로 3 세대인 퓨마 코어를 사용한 비마와 멀린스의 출시는 매우 빠르게 이뤄졌습니다. (AMD 에서는 퓨마 + Puma + 라고 표현을 했는데 과거 부터 + 란 표현을 매우 좋아하는 것 같습니다) 비마와 멀린스의 특징은 퓨마 코어 + GCN 의 통합 뿐만이 아니라 보안 용도의 ARM 코어를 탑재했다는 것으로 x86 + ARM 이라는 기묘한 조화를 지닌 SoC 로 등장했습니다.

(비마와 멀린스는 사실 같은 SoC 를 클럭과 TDP 에 따라 나눈 것으로 비마는 10 - 15W, 멀린스는 3.95 - 4.5 W 의 TDP 를 지님. Credit : AMD)

비마 APU 는 지금까지 AMD 가 거의 발을 담그지 못하고 있는 울트라북 같은 시장을 노리기 위해 등장했습니다. 사실 이는 전세대인 카비니도 마찬가지인데 실제로는 시장에서 이를 사용한 경량 혹은 울트라북 노트북은 몇종류 되지 않으며 그 판매량은 인텔 CPU 에 비해서 미미한 편입니다. 인텔이 앞선 공정과 저전력 CPU 로 시장을 장악하고 있기 때문입니다.

현재 컨슈머용 PC 시장에서 노트북 판매량이 데스크탑 보다 많은 점을 생각하면 AMD 의 낮은 점유율이 회복되지 못하는 이유를 쉽게 알 수 있습니다. 비마 APU 는 이 시장에서 AMD 의 점유율을 조금이라도 높여야 하는 임무가 있습니다. 그리고 멀린스는 인텔도 고전 중인 타블렛 시장에서 거의 전무하다시피한 점유율을 확보해야 하는 임무가 있죠.

물론 쉽지 않은 임무이지만 전전세대인 밥캣이나 재규어에 비교해서 퓨마는 어느 정도 저전력, 저발열의 모바일 환경에 최적화 되어 있는 것 같습니다. AMD 에 의하면 퓨마 코어는

Up to 4 CPU cores

Puma does not feature clustered multi-thread (CMT), meaning that there are no "modules"

32 KiB instruction + 32 KiB data L1 cache per core

1-2 MiB unified L2 cache shared by two or four cores

Out-of-order execution and Speculative execution

Integrated memory controller

Two-way integer execution

Two-way 128-bit wide floating-point and packed integer execution

Integer hardware divider

3.1 ㎟ area per core

의 특징과 전 세대 재규어 대비

19% CPU core leakage reduction at 1.2V

38% GPU leakage reduction

500mW reduction in memory controller power

200mW reduction in display interface power

Chassis temperature aware turbo boost

Selective boosting according to application needs (intelligent boost)

Support for ARM TrustZone via integrated Cortex-A5 processor

Support for DDR3L-1866 memory

의 장점을 가지고 있습니다.

(전세대 대비 비마와 멀린스의 성능 향상 Credit : AMD)

사실 밥캣 코어와 재규어 코어는 40 nm 공정과 28 nm 공정이라는 공정상의 진보에도 불구하고 클럭 10% 증가와 IPC 15% 증가라는 생각보다 미미한 성능 향상만이 있었습니다. 퓨마 코어는 재규어 코어와 비슷한 세대의 28 nm 공정을 사용함에도 불구하고 (그리고 3.1 ㎟ 라는 동일한 코어당 (L2 캐쉬 제외) 면적에도 불구하고) 누설 전류를 19% 줄여 TDP 를 25 W 에서 15 W 수준으로 줄이는 데 성공했습니다.

구조면에서 얼마나 변화가 있는지는 모르겠지만 공정과 다이 사이즈가 거의 변화가 없었는데도 TDP 를 크게 줄인점을 보면 비록 늦었지만 AMD 도 모바일에 최적화 하기 위한 노력을 진행 중이라는 것을 알 수 있습니다. 특히 GPU 부분은 누설전류를 38% 나 줄여 와트당 성능이 최대 2 배까지 늘었다고 주장하고 있습니다. 누설 전류의 감소와 더 지능적인 전력 관리, Boost 제어 덕분이라고 하는데 자세한 것은 나중에 검증이 되야 겠지만 주장대로라면 상당히 큰 진보가 있는 셈입니다.

아난드텍에서는 카비니/테마쉬의 경우 9억 1400 만개의 트랜지스터를 집적하고 대략 107 ㎟ 의 다이 사이즈를 가지고 있다고 분석했습니다. 비마와 멀린스의 경우 9 억 3000 만개의 트랜지스터를 집적하고 대략 같은 크기의 다이 사이즈를 가지고 있다고 분석했는데 다이 사이즈나 공정의 큰 변화 없이 (아난드텍에서는 공정에 있어서는 GF 의 28 nm 공정을 사용했다고 언급했는데 확실한지는 모르겠습니다) 이 정도 성능향상을 이뤄냈으면 꽤 선방한 셈이죠.

(아이들시의 최소 전력 변화. AMD 도 꽤 노력하는 중이라고 할 수 있습니다. Credit : AMD)

비마와 멀린스에서 한가지 재미있는 점은 앞서 언급했듯이 최초로 ARM 코어를 x86 SoC 에 내장했다는 점입니다. AMD 가 PSP (Platform Security Processor) 라고 명명한 보안 관련 프로세서는 ARM 의 트러스트존 (TrustZone) 기술을 지원해 기존의 x86 프로세서에서 지원하지 못했던 보안 관련 기능을 지원할 수 있다고 하네요.

(AMD PSP Credit : AMD)

2 세대 카비니와 테마쉬처럼 아마도 비마와 멀린스 역시 AM1 소켓으로 등장하게 될지는 모르겠지만 그렇게 되면 미니 PC 를 꾸미려는 유저에게 또 다른 옵션을 제공할 수 있을 것으로 보입니다. 절대 성능대 와트비에서 인텔의 22 nm 공정 프로세서를 얼마나 추격했는지도 궁금한 부분 가운데 하나입니다. 다만 인텔 역시 연말부터 14 nm 공정의 새로운 프로세서들을 투입할 예정 (브로드웰 및 에어몬트) 이라서 역시 쉽지만은 않은 싸움이 예정되어 있습니다. 과연 어떤 결과가 나올지 주목됩니다.

참고

http://en.wikipedia.org/wiki/Puma_(microarchitecture)

http://pc.watch.impress.co.jp/docs/news/20140429_646504.html

http://www.bodnara.co.kr/bbs/article.html?D=7&cate=1&d_category=10&num=107646

http://www.anandtech.com/show/7974/amd-beema-mullins-architecture-a10-micro-6700t-performance-preview