henry notes
2025. 12. 13. 23:44
2025. 12. 13. 23:44
AMD, 드디어 엔비디아와 싸움이 된다 | AI GPU 싸움의 온도가 바뀐 이유 | Helios, OpenAI의 전격 채택 요약
영상 바로가기
1. AMD의 AI GPU 시장 경쟁 가능성
- OpenAI의 스타게이트 프로젝트를 통해 AMD GPU를 대량 구매하겠다는 계획이 발표되며 주목받음 [00:00:13].
- AMD의 MI400부터 기존과 다르게 엔비디아의 AI 슈퍼컴퓨터 시스템을 충분히 대체할 수 있는 능력을 갖추기 시작했다고 분석함 [00:01:07].
2. 엔비디아의 기존 강점 및 독자적 시스템
- 압도적인 GPU 성능과 멜라녹스 인수를 통한 독자 시스템(MV Link, MV Switch, InfiniBand) 구축이 핵심 강점이었음 [00:02:26].
- MV 스위치로 수십 개의 GPU가 하나의 거대 메모리를 공유하는 것처럼 빠르게 통신함 [00:04:33].
- 서버 렉 간의 통신은 RDMA 전용 고속도로인 비싼 독자 규격 InfiniBand를 사용함 [00:05:16].
- 쿠다(CUDA)라는 강력한 소프트웨어 생태계가 진입 장벽 역할을 해왔음 [00:06:42].
3. AMD의 과거 부진 이유
- GPU 자체 성능뿐만 아니라 GPU 간 연결 시스템 지원 미흡으로 거대 AI 모델 구동에 한계가 있었음 [00:05:07].
- 과거 CPU 시장에 집중했던 전략적 선택의 결과였음 [00:07:44].
4. AI 추론(Inference) 성능 비교 및 기회
- 일반적인 Dense 모델에서는 엔비디아에 뒤처지나, MOE(Mixture of Experts) 아키텍처 모델(GPT-OS 121B)에서는 MI35X가 엔비디아 블랙웰에 상당히 근접하는 성능을 보임 [00:09:11].
- AI 시장이 학습(Training)에서 추론(Inference) 시장으로 넘어가고 있어, 비용 효율성을 갖춘 AMD에게 기회가 될 수 있음 [00:17:08].
5. AMD의 개방형 대항마 'Helios' 시스템 구축
- 빅테크 기업들의 투자 비용 및 엔비디아 기술 종속성 회피를 위한 대안이 필요했음 [00:10:02].
- AMD는 개방형 표준인 OCP(Open Compute Project) 규격 기반의 AI 랙 시스템 Helios를 공개하여 표준화된 완제품 렉을 제공하기 시작함 [00:10:44].
- UA Link (Ultra Accelerator Link) 채택 [00:13:55]: 엔비디아 MV Link에 대항하기 위해 메타, 인텔 등 빅테크가 협력하여 만든 개방형 통신 규격.
- ROC (RDMA over Converged Ethernet) 활용 [00:14:40]: 기존 이더넷을 활용하여 RDMA를 구현 (개방형). 엔비디아 InfiniBand에 비해 비용 효율적.
6. 결론 및 시사점
- AMD 시스템은 최고 성능보다는 빅테크의 비용 대비 성능 및 공급 리스크 분산 측면에서 중요한 대안이 됨 [00:18:34].
- 개방형 생태계 전략(UA Link, OCP)을 통해 엔비디아 독점 기술에 대한 대안을 제시했다는 점에서 큰 의미가 있음 [00:19:44].