AMD, 드디어 엔비디아와 싸움이 된다 | AI GPU 싸움의 온도가 바뀐 이유 | Helios, OpenAI의 전격 채택 요약

영상 바로가기

1. AMD의 AI GPU 시장 경쟁 가능성

  • OpenAI의 스타게이트 프로젝트를 통해 AMD GPU를 대량 구매하겠다는 계획이 발표되며 주목받음 [00:00:13].
  • AMD의 MI400부터 기존과 다르게 엔비디아의 AI 슈퍼컴퓨터 시스템을 충분히 대체할 수 있는 능력을 갖추기 시작했다고 분석함 [00:01:07].

2. 엔비디아의 기존 강점 및 독자적 시스템

  • 압도적인 GPU 성능과 멜라녹스 인수를 통한 독자 시스템(MV Link, MV Switch, InfiniBand) 구축이 핵심 강점이었음 [00:02:26].
  • MV 스위치로 수십 개의 GPU가 하나의 거대 메모리를 공유하는 것처럼 빠르게 통신함 [00:04:33].
  • 서버 렉 간의 통신은 RDMA 전용 고속도로인 비싼 독자 규격 InfiniBand를 사용함 [00:05:16].
  • 쿠다(CUDA)라는 강력한 소프트웨어 생태계가 진입 장벽 역할을 해왔음 [00:06:42].

3. AMD의 과거 부진 이유

  • GPU 자체 성능뿐만 아니라 GPU 간 연결 시스템 지원 미흡으로 거대 AI 모델 구동에 한계가 있었음 [00:05:07].
  • 과거 CPU 시장에 집중했던 전략적 선택의 결과였음 [00:07:44].

4. AI 추론(Inference) 성능 비교 및 기회

  • 일반적인 Dense 모델에서는 엔비디아에 뒤처지나, MOE(Mixture of Experts) 아키텍처 모델(GPT-OS 121B)에서는 MI35X가 엔비디아 블랙웰에 상당히 근접하는 성능을 보임 [00:09:11].
  • AI 시장이 학습(Training)에서 추론(Inference) 시장으로 넘어가고 있어, 비용 효율성을 갖춘 AMD에게 기회가 될 수 있음 [00:17:08].

5. AMD의 개방형 대항마 'Helios' 시스템 구축

  • 빅테크 기업들의 투자 비용 및 엔비디아 기술 종속성 회피를 위한 대안이 필요했음 [00:10:02].
  • AMD는 개방형 표준인 OCP(Open Compute Project) 규격 기반의 AI 랙 시스템 Helios를 공개하여 표준화된 완제품 렉을 제공하기 시작함 [00:10:44].
    • UA Link (Ultra Accelerator Link) 채택 [00:13:55]: 엔비디아 MV Link에 대항하기 위해 메타, 인텔 등 빅테크가 협력하여 만든 개방형 통신 규격.
    • ROC (RDMA over Converged Ethernet) 활용 [00:14:40]: 기존 이더넷을 활용하여 RDMA를 구현 (개방형). 엔비디아 InfiniBand에 비해 비용 효율적.

6. 결론 및 시사점

  • AMD 시스템은 최고 성능보다는 빅테크의 비용 대비 성능공급 리스크 분산 측면에서 중요한 대안이 됨 [00:18:34].
  • 개방형 생태계 전략(UA Link, OCP)을 통해 엔비디아 독점 기술에 대한 대안을 제시했다는 점에서 큰 의미가 있음 [00:19:44].

+ Recent posts