henry notes
2025. 12. 13. 23:49
2025. 12. 13. 23:49
- 인공지능 시대의 메모리: AI 시대에는 메모리 안에 할 일과 순서도/AI가 들어가며, 이를 GPU나 CPU가 구동함. [00:00:24]
- 프로그램 용량의 급증: 10년 전 사물인식 AI(120MB) 대비 ChatGPT(GPT-3)는 3,000배 커진 350GB로 폭증함. [00:01:30]
- 메모리 요구량 폭발: 인공지능 모델의 크기가 건물만 해지면서 기존 반도체로는 감당이 어려워짐. [00:03:50]
- HBM의 등장 배경: 메모리 용량 증가가 무어의 법칙을 따라가지 못하는 상황에서, 3,000배 커진 AI를 커버하기 위해 HBM이 첫 번째 해결책으로 대두됨. [00:04:22]
- HBM의 원리: 단일 칩 용량 증가 한계로 칩을 수직 적층하여 2차원 공간당 용량을 높임. [00:05:36]
- 추론 단계까지 HBM 사용: AI 용량이 커지면서, 추론(Inference) 단계에서도 기존 GDDR 대신 HBM을 사용하게 됨. [00:08:15]
- 모델 용량 트렌드: GPT-3(350GB)에 이어 구글 제미니가 3TB 이상으로 추정되어, HBM으로 감당하기 매우 어려운 수준으로 성장함. [00:09:26]
- HBM의 물리적 한계: AI 모델 용량 증가 속도가 메모리 칩의 수직 적층 속도를 따라가기 불가능할 정도로 빠름. [00:11:25]
- HBF의 등장 아이디어: DRAM 기술 한계에 부딪히자, 밀도가 높은 NAND 플래시를 AI 메모리로 사용해보자는 HBF 아이디어가 제기됨. [00:12:44]
- HBF의 필요성: HBM으로 감당할 수 없는 엄청난 요구 용량의 부담을 줄이기 위한 보완재로서 HBF를 고민 중임. [00:15:27]
- HBF의 용량 이점: 용량이 8배 커지면 HBM 10개가 필요하던 것을 1~2개로 줄여 복잡도와 원가를 절감할 수 있음. [00:16:02]
- 기존 플래시의 단점: 랜드 플래시는 반응 속도(읽기)가 DRAM 대비 1,000~2,000배, 쓰기 속도는 100만 배 느림. [00:18:38]
- AI 시대 플래시의 유리함: 인공지능은 대량의 데이터를 한 번에 읽어오는 것이 중요해 플래시의 느린 반응 속도 단점이 덜 중요해짐. [00:26:33]
- 쓰기 속도 문제 완화: 언어 인공지능은 추론 시 읽기가 많고 쓰기가 적어 플래시의 느린 쓰기 속도 단점이 일부 상쇄됨. [00:29:10]
- HBF의 현재 성능 한계: 현재 플래시 메모리는 HBM 대비 65배 느려 당장 GPU 구동에 쓰기 어려움. [00:31:31]
- 랜드 플래시 성능 향상 노력: 삼성 Z-랜드, 키오시아 XL 플래시 등 소자 성능을 한계까지 끌어올린 기술이 개발된 바 있음. [00:33:42]
- HBF의 잠재적 성능: 현재 기술로 최대 12개 적층 시 초당 700GB까지 대역폭 확보가 가능할 것으로 예상됨. [00:35:25]
- HBF의 시스템적 이점: 용량 증대로 여러 GPU 대신 하나의 카드에서 대용량 AI를 구동해 최종 시스템 효율을 높일 수 있음. [00:36:07]
- 하이브리드 구조 가능성: DRAM/플래시 모두 보유한 회사는 HBM과 HBF를 섞어 HBM이 HBF를 컨트롤하는 하이브리드 구조를 선호할 수 있음. [00:39:36]
- HBF의 적합성: 긴 질문, 짧은 답변처럼 대역폭(속도)이 덜 중요한 추론 시장에서 유리함. [00:50:38]