[번역_SemiAnal] Huawei AI CloudMatrix 384

  SemiAnalysis에서 중국 가속기가 쓸만하다는 web 문서를 발행했습니다. 
https://semianalysis.com/2025/04/16/huawei-ai-cloudmatrix-384-chinas-answer-to-nvidia-gb200-nvl72/ 

  번역합니다. Chrome 번역을 활용하고 손을 봅니다. 

Huawei AI CloudMatrix 384 – Nvidia GB200 NVL72에 대한 중국의 답변

풍부한 전력, 100% 광학, 0% 구리, 전력 비효율성, Watt당 2.6배 낮은 FLOP, chip당 14개 Transceiver, 선형 플러그형 광학(Linear Pluggable Optics)  

/ April 16, 2025  /  Dylan Patel, Daniel Nishball, Myron Xie, Patrick Zhou, Ivan Chiam, AJ Kourabi, Christopher Seifel and Doug O'Laughlin


Table of Contents
China has No Power Constraints, just Silicon Constraints
How Many Ascend 910C and CloudMatrix 384 Can China Make?
Huawei’s HBM Access
Chinese Domestic Foundry Can Still Ramp
CloudMatrix 384 System Architecture
Similarities to DGX H100 NVL256 “Ranger”
CloudMatrix384 Scale-Up Topology Estimates
Subscriber Content
Scale Up Optics and No Copper
CloudMatrix 384 Scale Out Topology Estimates
LPO Transceivers
Chip Level
System-level Power Budget
Subscribe for full access

  화웨이는 새로운 AI 가속기와 rack scale 구조로 큰 반향을 일으키고 있습니다. Ascend 910C를 기반으로 제작된 중국 최신의 가장 강력한 국내 해법(solution)인 CloudMatrix 384를 만나보세요. 이는 GB200 NVL72와 직접 경쟁하며, 일부 측면에서는 Nvidia의 rack scale 해법보다 더 발전했습니다. Engineering 강점은 chip 수준뿐 아니라 시스템 수준에서 네트워킹, 광학 및 소프트웨어 계층의 혁신을 통해 발휘됩니다.

  SemiAnalysis에 따르면 Huawei Ascend 칩은 새로운 것이 아니지만, 마이크로아키텍처보다 시스템이 더 중요한 세상 에서 Huawei는 AI 시스템 성능의 한계를 뛰어넘고 있습니다. 물론 장단점이 있지만, 수출 통제와 부진한 국내 생산량을 고려하면 중국의 수출 통제에는 더 많은 허점이 있다는 것이 분명합니다. 

구글 AI 인프라 우위: 마이크로 아키텍처보다 시스템이 더 중요하다
  

  Ascend 칩은 SMIC에서 제작할 수 있지만, 이 칩은 한국의 HBM , TSMC의 1차 웨이퍼 생산 , 그리고 미국, 네덜란드, 일본의 수백억 대 웨이퍼 제조 장비 를 통해 생산되는 글로벌 칩입니다. 중국 국내 생산 가능성, 수출 통제의 적극적인 회피 방안, 그리고 미국 정부가 중국의 AI 역량을 제한하기 위해 이러한 핵심 신규 분야에 집중해야 하는 이유를 심층적으로 분석합니다.

Fab Whack-A-Mole: 중국 기업들이 미국 제재를 회피하고 있다    2024년 10월 28일

  화웨이는 칩 분야에서는 한 세대 뒤처져 있지만, scale-up 해법은 Nvidia와 AMD의 기존 제품보다 한 세대 앞선 것으로 평가됩니다. 그렇다면 CloudMatrix 384(CM384)의 사양은 어떻게 될까요?
  CloudMatrix 384는 384개의 Ascend 910C 칩이 all-to-all로 연결되어 있습니다. 단점은 간단합니다. Ascend 칩을 5배 더 많이 탑재하더라도 각 GPU의 성능은 Nvidia Blackwell의 3분의 1에 불과합니다.

출처: SemiAnalysis, Nvidia, Huawei

  완전한 CloudMatrix 시스템은 이제 300 PFLOP의 고밀도 BF16 컴퓨팅을 제공할 수 있으며, 이는 GB200 NVL72의 거의 두 배에 달합니다. 3.6배 이상의 총 메모리 용량2.1배 더 넓은 메모리 대역폭을 통해 Huawei와 중국은 이제 Nvidia를 능가하는 AI 시스템 역량을 갖추게 되었습니다.
  게다가 CM384는 국내 네트워킹 생산, 네트워크 장애를 방지하는 인프라 소프트웨어, 추가적인 수율 개선을 통해 더욱 큰 도메인으로 확장할 수 있는 능력 등 중국의 강점에 독특하게 적합합니다.
  이 방법의 단점은 GB200 NVL72보다 3.9배의 전력이 필요하고 , FLOP당 전력은 2.3배 , TB/s 메모리 대역폭당 전력은 1.8배, TB HBM 메모리 용량당 전력은 1.1배 더 나쁘다는 것입니다.
  중국의 권력 부족은 중요하지만 제한 요인은 아니다.

중국에는 전력 제약이 없고 실리콘 제약만 있습니다.

  서구 사회에서는 AI의 전력이 제한적이라는 말이 흔히 나오지만, 중국에서는 정반대입니다. 서구 사회는 지난 10년간 석탄 기반 전력 인프라를 친환경 천연가스 및 재생에너지 발전으로 전환하고, 1인당 에너지 사용 효율을 높이는 데 주력해 왔습니다. 하지만 중국에서는 정반대입니다. 생활 수준이 높아지고 투자가 지속적으로 증가하면서 전력 수요가 급증하고 있기 때문입니다.
출처: SemiAnalysis Datacenter Model
  이 중 대부분은 석탄으로 가동되어 왔지만, 중국은 태양광, 수력, 풍력 발전 설비도 세계 최대 규모로 보유하고 있으며, 현재 원자력 발전 설비 도입에서도 선두를 달리고 있습니다. 미국은 1970년대에 가동된 원자력 발전소만 유지하고 있습니다. 간단히 말해, 미국 energy망을 증설하는 것은 사실상 불가능한 일입니다. 반면 중국은 2011년 이후, 즉 지난 10년 동안 미국 전력망 전체의 용량을 증설해 왔습니다.
  상대적인 전력 풍부함으로 인해 전력 제약이 없다면 전력 밀도를 포기하고 설계에 광학 장치를 포함하여 스케일업을 확대하는 것이 합리적입니다. CM384 설계는 랙 외부에서도 시스템 수준의 제약을 고려하며, 중국의 AI 야망을 제약하는 것은 상대적인 전력 가용성만이 아니라고 생각합니다. 화웨이 솔루션의 지속적인 스케일업을 위한 여러 가지 방법이 있다고 생각합니다.

중국은 Ascend 910C와 CloudMatrix 384를 몇 대나 생산할 수 있을까?

  흔히 오해되는 것 중 하나는 화웨이 910C가 중국에서 생산된다는 것입니다. 설계는 전적으로 중국에서 이루어졌지만, 중국은 여전히 ​​해외 생산에 크게 의존하고 있습니다. 삼성의 HBM, TSMC의 웨이퍼, 미국, 네덜란드, 일본의 장비 등 해외 산업에 대한 의존도가 높습니다.
  중국 최대 foundry 업체인 SMIC는 7nm 공정을 사용하지만, Ascend 910B와 910C의 대부분은 TSMC의 7nm 공정으로 생산됩니다. 실제로 미국 정부, TechInsights 등은 Ascend 910B와 910C를 인수했으며, 모든 제품이 TSMC의 die를 사용했습니다. 화웨이는 다른 회사인 Sophgo를 통해 약 5억 달러 상당의 7nm 웨이퍼를 구매함으로써 TSMC에 대한 제재를 우회할 수 있었습니다.
출처: SemiAnalysis Datacenter Model

  TSMC는 이 노골적인 제재 위반으로 10억 달러의 벌금을 부과받았는데, 이는 그들이 얻은 이익의 두 배에 불과합니다. 화웨이가 다른 제3 자 업체 를 통해 TSMC로부터 웨이퍼를 계속 공급받고 있다는 소문이 있지만, 이 소문을 확인할 수는 없습니다.

화웨이의 HBM 접근

  최첨단 해외 의존도 여기에 한몫하지만, 중국은 HBM에 대한 의존도가 훨씬 더 높습니다. 중국은 CXMT가 적정 수준의 물량을 확보하려면 아직 1년이나 더 걸릴 것으로 예상되어 HBM을 안정적으로 생산할 여력이 없습니다. 다행히 삼성이 이러한 상황을 해결해 주었습니다. 삼성은 중국 내 최대 HBM 공급업체로서 화웨이가 HBM 금지 조치 이전에 총 1,300만 개의 HBM stack을 비축할 수 있도록 지원했습니다. 이는 Ascend 910C 패키지 160만 개에 사용될 수 있습니다.
  더욱이, 금지된 HBM은 여전히 ​​중국으로 재수출되고 있습니다. HBM 수출 금지는 특히 미가공 HBM 패키지에만 적용됩니다. HBM이 포함된 칩은 FLOPS 규정을 초과하지 않는 한 여전히 배송 가능합니다. CoAsia Electronics는 중화권에서 삼성의 HBM을 독점적으로 공급하고 있으며, ASIC 설계 서비스 회사인 Faraday에 HBM2E를 공급해 왔습니다. Faraday는 SPIL(ASIC 설계 service 회사)을 통해 저렴한 16nm logic die와 함께 "패키징"합니다.
  Faraday는 이 시스템을 패키지 형태로 중국으로 배송하는데, 이는 기술적으로 허용되는 사항이지만, 중국 기업들은 desoldering을 통해 HBM을 회수할 수 있습니다. 저희는 그들이 매우 약한 저온 solder bump를 사용하는 등 패키지에서 HBM을 매우 쉽게 분리할 수 있는 기술을 사용한다고 생각합니다. 따라서 "packaged"이라는 표현은 최대한 느슨하게 표현한 것입니다.
출처: CoAsia Electronics

2025년, 바로 이러한 수출 통제가 발효된 이후 CoAsia의 매출이 폭발적으로 증가한 것은 우연이 아닙니다.

중국 국내 foundry는 여전히 ​​성장할 수 있다

  해외 생산은 여전히 ​​필요하지만, 중국의 국내 반도체 공급망 역량은 빠르게 향상되고 있으며 여전히 과소평가되고 있습니다. 우리는 SMIC와 CXMT의 제조 능력에 대해 지속적으로 우려를 표명해 왔습니다. 수율과 처리량은 여전히 ​​문제이지만, 문제는 중국의 GPU 생산량 증가가 장기적으로 어떻게 될 것인가입니다.
  SMIC와 CXMT는 모두 수십억 달러 상당의 도구를 받았으며, 제재에도 불구하고 여전히 외국에서 단독으로 조달한 화학 물질과 재료를 상당량 받고 있습니다.

  SMIC는 상하이, 선전, 베이징에 첨단 node 생산을 위한 생산 능력을 추가하고 있습니다. 올해 월 5만 장에 가까운 wafer 생산 능력을 확보할 예정이며, 해외 장비 접근성이 지속되고 효과적인 제재 및 집행이 부재함에 따라 생산량을 지속적으로 확대하고 있습니다. 수율을 높이면 화웨이 Ascend 910C 패키지에서 상당한 실적을 달성할 수 있습니다.
  TSMC는 2024년과 2025년에 걸쳐 80만 대의 Ascend 910B와 105만 대의 Ascend 910C를 생산하기에 충분한 290만 개의 die를 제공했지만, HBM, wafer 제조 도구, 도구 서비스, photoresist와 같은 화학 물질을 효과적으로 제어하지 못하면 SMIC 생산 용량이 엄청나게 늘어날 가능성이 있습니다.

CloudMatrix 384 시스템 아키텍처

  다음으로 CloudMatrix 384 아키텍처, 스케일업 네트워킹, 스케일아웃 네트워킹, 전력 예산 및 비용에 대해 자세히 알아보겠습니다.
  전체 CloudMatrix 시스템은 16개 rack에 분산되어 있으며, 각 rack에는 32개의 GPU가 장착되어 있습니다. 이 16개 rack 중앙에는 4개의 scale up switch rack이 있습니다. Huawei는 세계적인 규모를 확보하기 위해 여러 rack에 걸쳐 scaleup을 진행하고 있으며, 이를 위해 광학 장치를 사용해야 했습니다. Huawei처럼 모든 rack을 하나로 통합하여 수백 개의 GPU를 구축하는 것은 쉬운 일이 아닙니다.

DGX H100 NVL256 "Ranger"와의 유사점

  2022년, Nvidia는 DGX H100 NVL256 "Ranger" platform을 발표했지만, 비용이 너무 많이 들고 전력 소모가 많으며, 필요한 광 트랜시버와 두 계층의 네트워크로 인해 신뢰성이 낮다는 이유로 생산에 투입하지 않기로 결정했습니다. CloudMatrix Pod는 네트워킹을 위해 무려 6,912개의 400G LPO 트랜시버를 필요로 하며, 이 중 대부분은 scaleup network용입니다.
출처: Nvidia HotChips

CloudMatrix384 Scale-Up Topology 추정

다음 섹션에서는 384개 칩을 사용하는 스케일업 NVLink 경쟁사의 랙 아키텍처, 스케일아웃 네트워킹, 전체 시스템의 전력 예산 구성, 그리고 방대한 광케이블 및 구리 케이블 부족에 미치는 영향을 자세히 설명합니다. 또한, 화웨이의 LPO 트랜시버의 비용 및 사용량에 대해서도 논의합니다.

댓글

이 블로그의 인기 게시물

과학전망대 @2Kx5K

반도체와 한국 Semiconductor & Korea

[번역] Moore의 법칙_1965