[논문 읽기] DeepSeek-V3 통찰 @ICSA25

A. 언론 보도에서 DeepSeek 논문을 보고, 열심히 읽어봅니다.

HBM을 설계하는 제가, 중국 startup의 논문을 "정독"하였습니다. 한국에서 반도체 설계하는 Engineer가 다른 나라 다른 분야의 논문을 읽었다고 볼 수도 있습니다. 다른 시각으로 살펴보면, 세계 top class 회사에서 일하는 사람이, 그 회사 제품의 고객이- 어떻게 제품을 사용하는지- 그래서 다음 제품은 어땠으면 좋겠는지를 설명한 걸 읽었습니다. 바로 앞 문장이 쉽게 이해되지 않을 수도 있겠네요. 다음 문단에서 설명해 보겠습니다.

저는 요즘 SK hynix에서 HBM을 설계하고 있습니다. AI memory의 대표 격이죠. 지금은 우리 회사가 지구 상에서 제일 잘 만드고 수익을 많이 내고 있습니다. Nvidia GPU가 그걸 가져다가 AI factory (인공 지능 공장)을 만듭니다.

B. 2025년 8월 14일 [중앙일보] 보도입니다. https://www.joongang.co.kr/article/25358960

HBM 자립하려 영혼 쥐어짠다…한국 위협하는 中 '혼종테크'

(발췌) SW·HW 똘똘 뭉쳐 ‘메모리 해결’ 나선 中
앞서 지난 6, 7월에는 딥시크 창업자 량원펑의 논문 2편이 세계 최고 수준 컴퓨터구조 학회 ‘ISCA’와 AI 학회 ‘ACL’에서 각각 채택됐다. ISCA에서는 딥시크 발표 세션이 열렸고, ACL에서는 최우수 논문상을 받았다. AI 모델을 개발하는 딥시크가 AI는 물론 HW 학회에서도 실력을 인정받은 것이다.
량원펑의 두 논문은 공통적으로 ‘구형 그래픽처리장치(GPU)와 메모리반도체 부족 상황에서 어떻게 하면 최대 성능을 내는가’에 대한 고심과 해법을 담았다. 특히 ISCA에 발표한 논문은 딥시크가 ‘GPU 커널(내부) 수준의 코딩을 했다’고 밝히고 있다. 일반적 AI 모델 연구자들이 접근하지 않는, GPU·HBM 등 하드웨어 내부의 작동을 속속들이 살펴가며 이를 고려해 AI 알고리즘을 짰다는 거다.

참고로 기사 앞뒤에서 수 차례 HBM을 언급합니다. 화웨이, CXMT, XMC, ‘HBM 풀어줘, H20은 쓰지 마’ 등.

이런 기사를 읽었으니- 저 1^0가 열심히 논문을 읽어봅니다. 이제는 HBM설계자가 DeepSeek이란 중국 startup의 기술 자랑을 공부해야하는 겁니다. DeepSeek으로서는 자기네 기술을 자랑한 거지요. AI model을 구축하기 위해, GPU를 이러저러하게 활용하였습니다. GPU는 대부분의 다른 사람처럼 Nvidia꺼를 씁니다. 다만 중국 회사라서 (미국의 제제로 인해) H800을 사용했습니다. 이거 관련해서 올해 초에 'DeepSeek 충격'이란 사건이 있었죠. https://namu.wiki/w/DeepSeek

C. 논문 arixv link는 다음과 같습니다. https://www.arxiv.org/pdf/2505.09343
논문 제목이 "Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI Architectures DeepSeek-V3로의 통찰: 축적의 도전과 AI hardware 구조 숙고"입니다.
11명의 저자 중에 Wenfeng Liang 있습니다. 소속은 깔끔하게 DeepSeek-AI, 위치는 Beijing, China 입니다.

[초록] (Google 번역 활용_1^0 수정) 대규모 언어 모델(large language models, LLM)의 빠른 확장은 메모리 용량, 연산 효율성, 상호 연결 대역폭 등의 제약을 포함하여 현재 hardware 구조의 중요한 한계를 드러냈습니다. 2,048개의 Nvidia H800 GPU에서 학습된 DeepSeek-V3는 hardware 인식 모델 공동 설계가 이러한 과제를 효과적으로 해결하여 비용 효율적인 학습 및 추론을 대규모로 구현할 수 있는 방법을 보여줍니다. 본 논문은 DeepSeek-V3/R1 모델 구조와 AI infra에 대한 심층 분석을 제시하며, 향상된 메모리 효율성을 위한 여러-머리 잠재 주의(Multi-head Latent Attention, MLA), 최적화된 연산-통신 거래(tradeoff)를 위한 전문가 혼합(MoE) 구조, hardware 기능의 잠재력을 최대한 활용하는 FP8 혼합 정밀도 학습, cluster 수준 network overhead를 최소화하는 Multi-Plane(여러-평면) Network Topology와 같은 주요 혁신 기술을 강조합니다. DeepSeek-V3 개발 과정에서 발생한 hardware 병목 현상을 바탕으로, 정밀 저정밀 연산 unit, scale-up 및 scale-out 융합, 저지연 통신 fabric 혁신을 포함한 향후 하드웨어 개발 방향에 대해 학계 및 업계 전문가들과 폭넓게 논의합니다. 이러한 통찰력은 증가하는 AI workload 요구를 충족하는 데 있어 hardware 및 모델 공동 설계의 중요성을 강조하며, 차세대 AI 시스템 혁신을 위한 실질적인 청사진을 제시합니다.

이번 논문에서 DeepSeek는 DeepSeek-V3에 2048개의 H800을 썼다네요.

[열쇄 단어] Large Language Model, Mixture-of-Experts, Deep Learning, FP8, Mixed-Precision Training, Multi-Plane Network, Co-Design

[1. 도입]
1.1 배경
1.2 목적:
본 논문은 DeepSeek-V3의 상세한 구조 및 알고리즘 세부 사항을 반복하는 것을 목표로 하지 않습니다. 이러한 세부 사항은 기술 보고서[26]에 자세히 설명되어 있습니다. 대신, 하드웨어 구조와 모델 설계라는 두 가지 관점을 채택하여 비용 효율적인 대규모 학습 및 추론을 달성하기 위한 두 가지의 복잡한 상호작용을 탐구합니다. 이러한 시너지 효과를 검토함으로써 성능이나 접근성을 희생하지 않고 LLM을 효율적으로 확장할 수 있는 실행 가능한 통찰력을 제공하고자 합니다.
특히 본 논문은 다음 사항에 중점을 둡니다.
•Hardware-기반 Model 설계: FP8 저정밀도 계산 및 확장/축소 네트워크 속성~
•Hardware와 model 간 상호 종속성: LLM의 변화하는 요구가 ~ 촉진하는지 살펴보세요.
•Hardware 개발의 미래 방향: 실행 가능한 통찰력-> 확장 가능하고 비용 효율적인 AI system.
1.3 논문 구조

[2. DeepSeek Model 원칙]

2.1 Memory 효율

2.2 전문가-혼합 (MoE) model의 비용 효율

2.3 추론 속도 향상

2.4 기술 검증 방법

[3. 저-정밀도 주도 설계]

3.1 FP8 혼합-정밀도 훈련

3.2 LogFMT: 통신 압축

[4. 연결 주도 설계]

4.1 현 hardware 구조: Nvidia H800 GPU SXM

H100 유사, NVlink 대역폭이 900 GB/s 에서 400 GB/s로 감소. 보상을 위해 8개 IB CX7 NIC 장착.

4.2 hardware-인지 병렬: Tensor 병렬을 막고, Pipeline 병렬은 늘리고, 전문가 병렬은 가속!
4.3 model 공-설계: node-제한 routing: TopK 전문가 선택 전략
4.4 scale-up과 scale-out 융합
4.5 대역폭 경쟁과 지연(latency)

[5. 거대 network 주도 설계]

5.1 Network Co-Design: Multi-Plane Fat-Tree
5.2 저지연 network

[6. 미래 hardware를 위한 논의 및 통찰]

6.1 강건성 도전: 연결 실패, 1 hardware 실패, 조용한 data 깨짐

6.2 CPU 병목과 연결

6.3 AI향 지능형 network로: co-packaged optics, 무-손실, 적응 길찾기, 효율적 실수-감내 규약, 동적 자원 관리

6.4 memory-semantic 통신과 순서-issue 논의

6.5 In-Network 연산과 압축

6.6 memory-중심 혁신: memory 대역폭의 제한. 제안: DRAM-적층 가속기, System-on-Wafer(SoW)

[7. 결론]

[참조] 80건

D. 저로서는 감탄을 연발하며 읽었습니다. DeepSeek의 실력이 엄청납니다.

올해 초에 "가성비"로 세계를 놀라게 했는데- 그걸 world class 학회에서 발표한 겁니다. 그러다보니 12쪽 pdf의 논문으로 정리했네요. [1. 논문] 1.1 배경 1.2 목적을 읽으면서- 자신감이 느껴졌습니다.

초점을 3개로 이야기하는 데- 각각이 hardware 연관입니다. 그래서 이걸 'International Symposium on Computer Architecture (ISCA)'에서 발표합니다. 단순히 Computer를 잘 사용하는 수준이 아니라~ Computer를 어떻게 만들어야- 앞으로의 "model 구조"에 적합할 것인지까지 고민했고, 거기서 얻은 '통찰'을 이야기한 겁니다. 이미 기존에 주어진 system에서 최고의 가성비를 내 봤고, 그러면서 시도했던/고려했던 여러 방법들이 있을 꺼고- 그 중에서 효과 있었던 거, 그냥 그랬던 거, 역효과 난 거 등등 다 고려해서- 초점 3가지가 나온 걸 겁니다.

기존에 주어진 system에서 최고 가성비를 내는 과정을 [2. DeepSeek Model 원칙]에서 다룹니다.

Fig.1을 보고, 저는 감탄합니다. 복잡한 그림인 건 맞는데- 이걸 읽는 분의 이해를 돕기위해 어떻게 설명하면 좋을깡? 계속 궁리 중입니다. AI model분야를 잘 모르는 분이 보기에는 "뭔 소리여? 무슨 뜻이여??" 이렇게 생각할 것이 많네요.

그림 윗 부분에서 4 덩어리로 '주-model'과 'MTP module 1/2/3...'을 나타냅니다. MTP: Multi-Token Prediction이니까 token을 묶어서 (그림에는 4개씩) 예측하는 거고, 그걸 module로 묶었습니다. Input token과 target token 각각 묶어서 module등에 넣습니다.

녹색으로 강조하여 표현한 게 'Embedding Layer'와 'Output Head' 공유입니다. Main model엔 여러(xL) Transformer Block이 있습니다. MTP Module에는 Transformer Block 1개와 Liner Projection 1개 그리고 2개의 RMSNorm이 있습니다.

왼쪽 아래에서 Transformer Block을 설명합니다. 이 구조는 'Attention is all you need' 논문에서 발표한 구조입니다. 여기서는 Attention을 MLA: Multi-Head Latent Attention으로 했네요. 눈에 띄는 부분이 '점선 사각형'(아래 중간)의 오른쪽 위에 기호 표기한 'cached during inference 추론 때 갈무리함'입니다. q, k, v 중에서 k key를 갈무리합니다. Latent c_t^KV 도 갈무리합니다.

마지막으로 DeepSeekMoE (오른쪽 아래)을 설명합니다. 전문가 experts 중에서 일부를 공유하네요. 공유하지 않는 쪽은 Top-K Router 거칩니다.

Memory 효율을 KV cache 크기로 표1에서 보여줍니다. 70.2 KB/token으로 Qwen-2.5 72B 보다 4.66x 작고, LLaMA-3.1 405B보다 7.28x 작다네요. 주요 비결이 MLA입니다.

MoE가 dense model보다 '계산 비용 computational cost'에서 효율적이라고 표2에서 보여줍니다. DeepSeek-V3 MoE는 671B 크기에 250 GFlops/token입니다.

Fig2은 H800 node 연결을 나타냅니다. H100과 비교하면 연산 성능도 NVLink 대역폭도 작습니다. "for regulatory compliance."논문에는 이렇게 적어놨는데- 저로서는 행간에 이런 말이 써있다고 추측합니다. '미국 놈들이 이상한 규제로- 우리(중국)를 방해하려고 이런 제약을 강요했지. 흥! 그런다고 우리가 전진 못 할 줄 알았냐?? 열심히 궁리해서 혁신을 해서- 요로코롬 전진을 했단다!! 설명할 테니 들어봐라~~' 이를 보완하기 위해 각 node에는 8개의 400G Infiniband(IB) CX7 NIC가 장착되어 확장 기능을 강화하여 대역폭 부족을 완화합니다.

4.2 hardware-인지 병렬: Tensor 병렬을 막고, Pipeline 병렬은 늘리고, 전문가 병렬은 가속!

4.3 model 공-설계: node-제한 routing: TopK 전문가 선택 전략
4.4 scale-up과 scale-out 융합
4.5 대역폭 경쟁과 지연(latency)

이 부분은 이것저것 trial-and-error로 얻은 경험-지혜를 이야기하는 겁니다. AI 가성비의 입장에서 어떻게 하면 개선할 수 있을까를~ DeepSeek에서 많이 고민했고, 많이 시도해봤나 봅니다.

Fig3은 scale-out network을 나타냅니다. 8-평면 2층 fat-tree 구조를 썼다는데- 이 부분은 제가 (아직) 이해도가 높지 않아 살짝 넘어가겠습니다. Fig4는 이상적인 다-평면 network라네요.

Fig5, Fig6과 표 4는 network 성능 비교입니다.

[6. 미래 hardware를 위한 논의 및 통찰] 부분이 흥미로운 부분입니다. 미래에 대한 통찰이기 때문이죠.

6.1 강건성 도전: 연결 실패, 1 hardware 실패, 조용한 data 깨짐

6.2 CPU 병목과 연결

6.3 AI향 지능형 network로: co-packaged optics, 무-손실, 적응 길찾기, 효율적 실수-감내 규약, 동적 자원 관리

6.4 memory-semantic 통신과 순서-issue 논의

6.5 In-Network 연산과 압축

6.6 memory-중심 혁신: memory 대역폭의 제한. 제안: DRAM-적층 가속기, System-on-Wafer(SoW)

하나하나가 일단 말은 되는 keyword입니다. 저로서도 하나하나 따져보고 궁리해봐야겠네요.

일단 논문을 읽고 나서- 방향을 정리해보자면 network이 중요하다!! memory도 중요하다! 입니다.

Network이야기를 하니, 쩌~ 위에 [중앙일보] 기사에서 '화웨이' 이야기한 게 생각나네요.

** 이 blog글의 update 생각해 보겠습니다. **

1^0 과학전망대

[논문 읽기] DeepSeek-V3 통찰 @ICSA25

댓글

댓글 쓰기

이 블로그의 인기 게시물

과학전망대 @2Kx5K

[번역] Moore의 법칙_1965