유튜브 링크: http://www.youtube.com/watch?v=FsmKRwrNdB4
채널: 안될공학 - IT 테크 신기술


1. 내용 요약

  • AMD GPU 시장 주목 배경: OpenAI의 스타게이트 프로젝트에서 AMD GPU를 대량 구매하겠다는 소식이 나오면서 시장의 주목을 받기 시작함 [00:00:13].
  • 기존 엔비디아의 압도적 우위: 엔비디아는 GPU 성능 외에도 MV Link, MV Switch, 인피니밴드 등 독자적인 기술을 통합하여 DGX와 같은 거대 슈퍼컴퓨터 시스템을 구축할 수 있어 압도적인 성능을 제공함 [00:02:26].
  • AMD의 기존 약점:
    • GPU 자체 성능은 어느 정도 따라왔으나, GPU 간 고속 연결 및 거대 시스템 구축을 위한 지원이 미흡하여 빅테크 기업들이 구매를 꺼렸음 [00:05:01].
    • 2025년 3월 기준 생성형 AI 데이터센터 GPU 시장 점유율은 엔비디아가 대부분을 차지하고 AMD는 4%에 불과했음 [00:05:39].
    • 엔비디아의 강력한 소프트웨어 생태계인 CUDA에 비해 AMD의 ROCm은 완전한 번역이 어려워 프로그래밍의 불편함이 컸음 [00:06:42].
  • 추론 성능에서의 가능성:
    • 라마 3.3 70B 같은 Dense 모델에서는 엔비디아 블랙웰 대비 성능 차이가 있었으나, GPT-4o와 같은 MOE(Mixture of Experts) 아키텍처 모델의 추론 성능에서는 MI35X가 블랙웰과 상당히 근접한 결과를 보이며 추론 시장의 가능성을 입증함 [00:08:15].
  • 빅테크의 대체재 요구 및 '헬리오스' 등장:
    • 엔비디아 GPU의 높은 가격과 기술 종속성 리스크 때문에 빅테크 기업들은 개방형 표준(OCP)을 통한 대안을 모색함 [00:10:02].
    • AMD는 OCP(Open Compute Project) 규격에 맞춰 AI 랙 시스템 '헬리오스(Helios)'를 제공하며, GPU 개별 경쟁이 아닌 랙 전체를 통합하고 개방형 표준을 따른 첫 번째 시스템을 구축함 [00:10:44].
    • 헬리오스는 MI400 GPU, 에픽(EPYC) CPU, 펜산도(Pensando) 스마트 NIC(네트워크 스위치)를 통합하여 완제품 랙을 제공함 [00:12:30].
  • 개방형 기술 채택으로 엔비디아에 대응:
    • GPU 연결 기술: 엔비디아의 MV Link에 대항하여 메타, 인텔 등과 협력한 개방형 규격인 UA Link(Ultra Accelerator Link)를 채택하여 메모리 접근 일관성을 확보함 [00:13:55].
    • 네트워크 연결 (랙 간 통신): 엔비디아의 비싼 독자 규격 인피니밴드 대신, 기존 이더넷을 활용하여 RDMA를 구현하는 개방형 ROCv2 기술을 채택하여 비용 효율적인 확장성을 갖춤 [00:15:48].
  • 결론 및 시사점:
    • AI 시장이 학습(Training) 중심에서 점차 추론(Inference) 시장으로 넘어가고 있는 상황에서, AMD는 개방성과 비용 효율이라는 강점을 바탕으로 빅테크들의 인프라 리스크를 분산시킬 수 있는 대안으로 성장할 가능성이 커짐 [00:17:01].
    • 이는 AMD가 엔비디아를 이겼다는 것이 아니라, 빅테크 입장에서 더 저렴하고 안정적으로 인프라를 구축할 수 있는 새로운 가능성이 열렸다는 점이 중요함 [00:18:27].

+ Recent posts