Huawei AI CloudMatrix 384 – Nvidia GB200 NVL72에 대한 중국의 답변
풍부한 전력, 100% 광학, 0% 구리, 전력 비효율성, Watt당 2.6배 낮은 FLOP, chip당 14개 Transceiver, 선형 플러그형 광학(Linear Pluggable Optics)
/ April 16, 2025 / Dylan Patel, Daniel Nishball, Myron Xie, Patrick Zhou, Ivan Chiam, AJ Kourabi, Christopher Seifel and Doug O'Laughlin
Table of Contents China has No Power Constraints, just Silicon Constraints How Many Ascend 910C and CloudMatrix 384 Can China Make? Huawei’s HBM Access Chinese Domestic Foundry Can Still Ramp CloudMatrix 384 System Architecture Similarities to DGX H100 NVL256 “Ranger” CloudMatrix384 Scale-Up Topology Estimates
Subscriber Content Scale Up Optics and No Copper CloudMatrix 384 Scale Out Topology Estimates LPO Transceivers Chip Level System-level Power Budget Subscribe for full access
화웨이는 새로운 AI 가속기와 rack scale 구조로 큰 반향을 일으키고 있습니다. Ascend 910C를 기반으로 제작된 중국 최신의 가장 강력한 국내 해법(solution)인 CloudMatrix 384를 만나보세요. 이는 GB200 NVL72와 직접 경쟁하며, 일부 측면에서는 Nvidia의 rack scale 해법보다 더 발전했습니다. Engineering 강점은 chip 수준뿐 아니라 시스템 수준에서 네트워킹, 광학 및 소프트웨어 계층의 혁신을 통해 발휘됩니다.
화웨이는 칩 분야에서는 한 세대 뒤처져 있지만, scale-up 해법은 Nvidia와 AMD의 기존 제품보다 한 세대 앞선 것으로 평가됩니다. 그렇다면 CloudMatrix 384(CM384)의 사양은 어떻게 될까요? CloudMatrix 384는 384개의 Ascend 910C 칩이 all-to-all로 연결되어 있습니다. 단점은 간단합니다. Ascend 칩을 5배 더 많이 탑재하더라도 각 GPU의 성능은 Nvidia Blackwell의 3분의 1에 불과합니다.
출처: SemiAnalysis, Nvidia, Huawei
완전한 CloudMatrix 시스템은 이제 300 PFLOP의 고밀도 BF16 컴퓨팅을 제공할 수 있으며, 이는 GB200 NVL72의 거의 두 배에 달합니다.3.6배 이상의 총 메모리 용량과 2.1배 더 넓은 메모리 대역폭을 통해 Huawei와 중국은 이제 Nvidia를 능가하는 AI 시스템 역량을 갖추게 되었습니다. 게다가 CM384는 국내 네트워킹 생산, 네트워크 장애를 방지하는 인프라 소프트웨어, 추가적인 수율 개선을 통해 더욱 큰 도메인으로 확장할 수 있는 능력 등 중국의 강점에 독특하게 적합합니다. 이 방법의 단점은 GB200 NVL72보다 3.9배의 전력이 필요하고 , FLOP당 전력은 2.3배 , TB/s 메모리 대역폭당 전력은 1.8배, TB HBM 메모리 용량당 전력은 1.1배 더 나쁘다는 것입니다. 중국의 권력 부족은 중요하지만 제한 요인은 아니다.
중국에는 전력 제약이 없고 실리콘 제약만 있습니다.
서구 사회에서는AI의 전력이 제한적이라는 말이 흔히 나오지만, 중국에서는 정반대입니다. 서구 사회는 지난 10년간 석탄 기반 전력 인프라를 친환경 천연가스 및 재생에너지 발전으로 전환하고, 1인당 에너지 사용 효율을 높이는 데 주력해 왔습니다. 하지만 중국에서는 정반대입니다. 생활 수준이 높아지고 투자가 지속적으로 증가하면서 전력 수요가 급증하고 있기 때문입니다. 출처: SemiAnalysis Datacenter Model
이 중 대부분은 석탄으로 가동되어 왔지만, 중국은 태양광, 수력, 풍력 발전 설비도 세계 최대 규모로 보유하고 있으며, 현재 원자력 발전 설비 도입에서도 선두를 달리고 있습니다. 미국은 1970년대에 가동된 원자력 발전소만 유지하고 있습니다. 간단히 말해, 미국 energy망을 증설하는 것은 사실상 불가능한 일입니다. 반면 중국은 2011년 이후, 즉 지난 10년 동안 미국 전력망 전체의 용량을 증설해 왔습니다. 상대적인 전력 풍부함으로 인해 전력 제약이 없다면 전력 밀도를 포기하고 설계에 광학 장치를 포함하여 스케일업을 확대하는 것이 합리적입니다. CM384 설계는 랙 외부에서도 시스템 수준의 제약을 고려하며, 중국의 AI 야망을 제약하는 것은 상대적인 전력 가용성만이 아니라고 생각합니다. 화웨이 솔루션의 지속적인 스케일업을 위한 여러 가지 방법이 있다고 생각합니다.
중국은 Ascend 910C와 CloudMatrix 384를 몇 대나 생산할 수 있을까?
흔히 오해되는 것 중 하나는 화웨이 910C가 중국에서 생산된다는 것입니다. 설계는 전적으로 중국에서 이루어졌지만, 중국은 여전히 해외 생산에 크게 의존하고 있습니다. 삼성의 HBM, TSMC의 웨이퍼, 미국, 네덜란드, 일본의 장비 등 해외 산업에 대한 의존도가 높습니다. 중국 최대 foundry 업체인 SMIC는 7nm 공정을 사용하지만, Ascend 910B와 910C의 대부분은 TSMC의 7nm 공정으로 생산됩니다. 실제로 미국 정부, TechInsights 등은 Ascend 910B와 910C를 인수했으며, 모든 제품이 TSMC의 die를 사용했습니다. 화웨이는 다른 회사인 Sophgo를 통해 약 5억 달러 상당의 7nm 웨이퍼를 구매함으로써 TSMC에 대한 제재를 우회할 수 있었습니다. 출처: SemiAnalysis Datacenter Model
TSMC는 이 노골적인 제재 위반으로 10억 달러의 벌금을 부과받았는데, 이는 그들이 얻은 이익의 두 배에 불과합니다. 화웨이가 다른 제3 자 업체 를 통해 TSMC로부터 웨이퍼를 계속 공급받고 있다는 소문이 있지만, 이 소문을 확인할 수는 없습니다.
화웨이의 HBM 접근
최첨단 해외 의존도 여기에 한몫하지만, 중국은 HBM에 대한 의존도가 훨씬 더 높습니다. 중국은 CXMT가 적정 수준의 물량을 확보하려면 아직 1년이나 더 걸릴 것으로 예상되어 HBM을 안정적으로 생산할 여력이 없습니다. 다행히 삼성이 이러한 상황을 해결해 주었습니다. 삼성은 중국 내 최대 HBM 공급업체로서 화웨이가 HBM 금지 조치 이전에 총 1,300만 개의 HBM stack을 비축할 수 있도록 지원했습니다. 이는 Ascend 910C 패키지 160만 개에 사용될 수 있습니다. 더욱이, 금지된 HBM은 여전히 중국으로 재수출되고 있습니다. HBM 수출 금지는 특히 미가공 HBM 패키지에만 적용됩니다. HBM이 포함된 칩은 FLOPS 규정을 초과하지 않는 한 여전히 배송 가능합니다. CoAsia Electronics는 중화권에서 삼성의 HBM을 독점적으로 공급하고 있으며, ASIC 설계 서비스 회사인 Faraday에 HBM2E를 공급해 왔습니다. Faraday는 SPIL(ASIC 설계 service 회사)을 통해 저렴한 16nm logic die와 함께 "패키징"합니다. Faraday는 이 시스템을 패키지 형태로 중국으로 배송하는데, 이는 기술적으로 허용되는 사항이지만, 중국 기업들은 desoldering을 통해 HBM을 회수할 수 있습니다. 저희는 그들이 매우 약한 저온 solder bump를 사용하는 등 패키지에서 HBM을 매우 쉽게 분리할 수 있는 기술을 사용한다고 생각합니다. 따라서 "packaged"이라는 표현은 최대한 느슨하게 표현한 것입니다. 출처: CoAsia Electronics
2025년, 바로 이러한 수출 통제가 발효된 이후 CoAsia의 매출이 폭발적으로 증가한 것은 우연이 아닙니다.
중국 국내 foundry는 여전히 성장할 수 있다
해외 생산은 여전히 필요하지만, 중국의 국내 반도체 공급망 역량은 빠르게 향상되고 있으며 여전히 과소평가되고 있습니다. 우리는 SMIC와 CXMT의 제조 능력에 대해 지속적으로 우려를 표명해 왔습니다. 수율과 처리량은 여전히 문제이지만, 문제는 중국의 GPU 생산량 증가가 장기적으로 어떻게 될 것인가입니다. SMIC와 CXMT는 모두 수십억 달러 상당의 도구를 받았으며, 제재에도 불구하고 여전히 외국에서 단독으로 조달한 화학 물질과 재료를 상당량 받고 있습니다.
SMIC는 상하이, 선전, 베이징에 첨단 node 생산을 위한 생산 능력을 추가하고 있습니다. 올해 월 5만 장에 가까운 wafer 생산 능력을 확보할 예정이며, 해외 장비 접근성이 지속되고 효과적인 제재 및 집행이 부재함에 따라 생산량을 지속적으로 확대하고 있습니다. 수율을 높이면 화웨이 Ascend 910C 패키지에서 상당한 실적을 달성할 수 있습니다. TSMC는 2024년과 2025년에 걸쳐 80만 대의 Ascend 910B와 105만 대의 Ascend 910C를 생산하기에 충분한 290만 개의 die를 제공했지만, HBM, wafer 제조 도구, 도구 서비스, photoresist와 같은 화학 물질을 효과적으로 제어하지 못하면 SMIC 생산 용량이 엄청나게 늘어날 가능성이 있습니다.
CloudMatrix 384 시스템 아키텍처
다음으로 CloudMatrix 384 아키텍처, 스케일업 네트워킹, 스케일아웃 네트워킹, 전력 예산 및 비용에 대해 자세히 알아보겠습니다. 전체 CloudMatrix 시스템은 16개 rack에 분산되어 있으며, 각 rack에는 32개의 GPU가 장착되어 있습니다. 이 16개 rack 중앙에는 4개의 scale up switch rack이 있습니다. Huawei는 세계적인 규모를 확보하기 위해 여러 rack에 걸쳐 scaleup을 진행하고 있으며, 이를 위해 광학 장치를 사용해야 했습니다. Huawei처럼 모든 rack을 하나로 통합하여 수백 개의 GPU를 구축하는 것은 쉬운 일이 아닙니다.
DGX H100 NVL256 "Ranger"와의 유사점
2022년, Nvidia는 DGX H100 NVL256 "Ranger" platform을 발표했지만, 비용이 너무 많이 들고 전력 소모가 많으며, 필요한 광 트랜시버와 두 계층의 네트워크로 인해 신뢰성이 낮다는 이유로 생산에 투입하지 않기로 결정했습니다. CloudMatrix Pod는 네트워킹을 위해 무려 6,912개의 400G LPO 트랜시버를 필요로 하며, 이 중 대부분은 scaleup network용입니다. 출처: Nvidia HotChips
CloudMatrix384 Scale-Up Topology 추정
다음 섹션에서는 384개 칩을 사용하는 스케일업 NVLink 경쟁사의 랙 아키텍처, 스케일아웃 네트워킹, 전체 시스템의 전력 예산 구성, 그리고 방대한 광케이블 및 구리 케이블 부족에 미치는 영향을 자세히 설명합니다. 또한, 화웨이의 LPO 트랜시버의 비용 및 사용량에 대해서도 논의합니다.
2025년 6월, 제가 사무실을 엽니다. 이름은 일단 "1^0 과학전망대 @2Kx5K"입니다. '1^0 과학전망대'는 여기 blog (blogger = Google blog)의 이름이죠. 원 재 One Zero 로 비슷하죠, Digital의 두 숫자 One Zero의 의미를 담았습니다. ^ 표시는 수학에서 "제곱" (2제곱 ^2, 3제곱 ^3, 10제곱 ^10) 표시할 때 사용하는 기호죠. 1과 0 사이를 그냥 붙이면 10으로 되기에... 연결을 위해 이걸 넣었습니다. 영어로는 caret이라 읽더군요. 2K x 5K 는~ 사무실 주소가 '이천시 (마장면) 오천리'라서 이천 2K, 오천 5K 로- 비슷하게 재미을 담아 봅니다. 주소는 마장타워입니다. 신도시에 있는 주차타워 1층이구요, 가까이에 마장도서관이 있습니다. 이곳에 사무실을 여는 이유는... 제가 보유하고 있는 상가인데- 1년째 '공실'이라서 입니다. 얼른 세입자가 들어오면 좋겠네요. 그 때까지- 시간 있을 때- '과학 전망대' 활동, 저의 취미 활동을 하려고 합니다. 그림을 2장 걸었습니다. 먼저 "School of Athen 아테네 학당" 입니다. https://namu.wiki/w/아테네 학당 다음으로 "솔베이 회의 1927" 사진입니다. https://namu.wiki/w/솔베이 회의 그리고 SK hynix 조립 Block 도 몇 가져다 둡니다. 책도 몇 권 비치합니다. 책장도 하나 장만했습니다. 책상과 의자는~ Costco에서 장만했습니다. 저와 이야기를 나누고 싶다면~ 오세요. 과학을 쭉~~ 전망하고 싶다면, 과학에 관해 이러 저러 이야기를 나누고 싶다면~ 오세요.. 기술의 발전을~~~ 전망하고 싶어도~ 오세요. 반도체의 발전을~~~~ 이야기하고 싶습니다....
반도체와 한국 Semiconductor & Korea 1^0 최원재 2024. 9. 23. (1) 시작하며 (2) 반도체 제조공장 바깥 모습 (3) 반도체 제조공장 안 모습 (4) 기술과 과학이 궁금한 그대에게 (5) 강대원 MOSFET 과 Floating Gate (6) 대부 김충기 (7) Display TFT 장진 (8) FinFET 최양규 (9) 한국 반도체 산업의 역사 (10) 반도체 시장의 특징 (11) SK hynix 의 역사 (12) 바램과 후기 (*) 참고 서적과 추천 도서 1. 시 작하며 < 과학동아 잡터뷰 > 반도체 엔지니어 7:20 [2021 년 9 월호 ] https://youtu.be/bsNzB01KDZI?si=cDQcTRUNgfkYqirI 반도체는 누가 만드나 ? 내가 만들지 ! https://news.skhynix.co.kr/post/giving-dreams-to-science-and-technology-dreamers 과학기술 꿈나무들에게 ‘ 꿈 ’ 을 선물하다 … SK 하이닉스 진로멘토링 Happy Dreaming 2021-06 ( 발췌 ) ‘ 반도체 엔지니어가 되기까지 도움 되었던 경험은 ?’ 저는 없으면 배워서 하는 사람이었습니다 . 그런 학과를 다녔고 , 운이 좋게 세계 top 인 분들 옆에서 제가 돌아다녔네요 . 방법은 필요한 거 찾아다니면 필요한 거 배우게 되고 , 좋은 사람 만나게 되고 , 그러면서 실력 쌓으면 됩니다 . → 그래요 . 제가 만났던 좋은 사람 몇 분을 소개합니다 . 세계 top 인 분들입니다 . 한국 반도체의 대부 !, 세계 Display 선구자 , FinFET 장인 , 그리고 MOSFET 강대원 !! 2. 반도체 제조공장 바깥 모습 2018 년...
오늘은 2025년 4월 19일입니다. Moore's Law 60주년이네요! 뜻 깊은 날을 맞이하여- 한글 번역합니다. 저로서는 "법칙"이야기는 정말 정말 많이 많이 들었는데- 원문을 한 줄 한 줄 읽어본 건- 이번 주가 처음입니다. SKHU 사내교육에서 언급을 듣고, 다음 날 생각나서 English 원문을 읽어봤습니다. 와우!! Electronics, Volume 38, Number 8, April 19, 1965 그리 길지 않은 분량입니다. 4쪽 pdf에 적당한 그림 3개가 있습니다. graph 둘과 삽화 하나입니다. Google 번역을 활용하고 제가 좀 수정 합니다. 적절한 강조 표시 도 합니다.
댓글
댓글 쓰기