바야흐로 생성형 AI 전성시대다. 지난 2022년 오픈AI의 챗GPT(ChatGPT) 공개 이후 많은 기업이 생성형 AI 도입에 뛰어들면서 그 활용 방식도 점차 다양해지고 있다. 소규모 언어 모델(SLM)을 자체 구축하거나 클라우드를 통해 AI를 활용하려는 기업도 있지만, AI 딥러닝에 최적화된 초고성능 시스템을 구축하려는 기업도 있다. 초고성능 AI를 구현하려는 기업이라면 ‘GPU 팜’ 구축도 하나의 옵션으로 고려할 수 있다. 원문보기:

GPU 팜은 생성형 AI 연산의 핵심인 그래픽 처리 장치(GPU) 여러 대를 연결해 대규모 데이터를 처리하는 시스템을 일컫는다. 초고성능 GPU 팜 구축에는 단순히 GPU만 중요한 것이 아니다. 빠른 전송을 보장하는 네트워크, 그리고 데이터를 안정적으로 보관하고 최적화하는 스토리지 시스템의 설계가 필수다.
이런 상황에서 한국IBM의 전상호 상무가 6월 19일 파운드리 코리아 주최로 열린 ‘TNBT Korea 2024’ 행사에서 AI용 GPU 팜을 구축할 때 스토리지 시스템을 설계하는 방안에 대해 소개했다. 이번 IBM 발표는 국내 총판사인 코오롱베니트와 함께 진행됐다. 코오롱그룹 IT서비스 전문기업 코오롱베니트(대표 강이구)는 최근 AI기술과 솔루션, 인프라에 특화된 53개 기업과 ‘AI얼라이언스’를 발족하는 등 AI시장에서의 입지를 확대하고 지속 가능한 경쟁력을 구축하고 있다.
엔비디아 “GPU 팜 스토리지의 핵심은 성능, 통합성, 비용”
현재 AI 및 GPU 시장을 이끌고 있는 엔비디아(Nvidia)가 2020년과 2023년에 발표한 ‘DGX 슈퍼포드’ 백서에 따르면, GPU 팜 구축 시 스토리지 고려 사항은 크게 3가지로 압축될 수 있다. 첫 번째 고려 사항은 머신러닝/딥러닝(ML/DL)에 지연을 발생시키지 않는 스토리지의 ‘성능’, 둘째는 데이터 수집, 분석, 저장 및 배포 관리 프로세스를 자동화하기 위한 다른 시스템과의 ‘통합성’이며, 셋째는 성능 및 용량과 균형을 이루는 ‘비용’이다.
전상호 상무는 “GPU 팜을 쓰는 이유는 결국 고성능이 필요하기 때문이다. 높은 컴퓨팅 파워를 사용하는 만큼 파워가 유휴 상태에 접어들지 않게끔 하는 것이 중요하다. 이를 위해서는 데이터의 공급이 지속돼야 하기 때문에 고성능 스토리지가 필요하다”라고 말했다.
“IBM SSS 6000, 단일 파일 시스템을 8YB까지 확장”
다양한 스토리지 스케일 시스템(SSS) 제품군을 선보이고 있는 IBM은 지난 1월 GPU 팜 전용 플랫폼인 SSS 6000을 출시했다. 현재 국내 기준 70~80%의 시장 점유율을 차지하고 있는 IBM 스토리지 스케일 시스템은 기상 및 대기질 예보, 지진, 화산, 산불 예방 시스템 등에 쓰이고 있으며, 국내 발사 위성에 대한 지상국 시스템, 대기업의 HPC 센터 등에서도 사용되고 있다.
SSS 6000은 IBM의 FS9500 하이엔드 SAN 스토리지 컨트롤러에 파일 시스템과 네트워크 서비스 등을 추가한 장비다. 컨트롤러 베이는 48개의 NVMe 디스크를 지원하며, 빌딩 블록 1식에 NL-SAS 디스크 102개를 9단으로 장착하면 최대 가용 용량은 12PB(페타바이트)를 넘어선다. 여기에 이론상 최대 8,192식까지 병렬로 증설할 수 있어 단일 파일 시스템을 8YB(요타바이트)로 확장할 수 있다.
전상호 상무는 엔비디아 백서가 스토리지 고려 사항으로 강조한 성능, 통합성, 비용 측면에서 SSS 6000 시스템을 소개했다. 먼저 성능 측면에서 SSS 6000은 실제 애플리케이션을 통해 파일을 읽었을 때 1식당 310GB/s의 유효 리드 성능을 보였다. 전상호 상무는 “시판 제품 중 2위 기기의 퍼포먼스가 115GB/s인 점을 고려하면 성능이 큰 장점이다. SSS 6000은 스케일 아웃 장비이기 때문에 해당 속도는 1식을 구성했을 때이고, 2식일 때 600GB/s, 3식일 때 900GB/s, 4식일 때 1.2TB/s의 리드 퍼포먼스를 낼 수 있다”라고 설명했다. IBM이 내세우는 SSS 6000 스토리지의 특장점은 단일 분석 노드에서의 성능이다. PCI 5.0 서버 기준으로 인피니밴드 이더넷(200GE) 라인 하나를 연결할 시 단일 분석 노드 성능은 최소 20GB/s이며, GPU 다이렉트 스토리지를 사용할 경우 리드 퍼포먼스는 최대 95GB/s에 이른다.
데이터 통합과 자동화를 지원하는 ‘스펙트럼 스케일’
한편 전상호 상무는 다른 시스템과의 통합 측면에서도 IBM 시스템이 높은 호환성을 갖췄다고 언급했다. SSS 6000은 데이터에 액세스하는 대부분의 프로토콜을 지원하는데, S3 클라우드 네이티브 애플리케이션을 위해 고성능 S3 프로토콜인 누바(NooBaa)를 구성했으며, HDFS, NFS SMB, CSI에서도 풀 펑션을 지원한다. 스토리지 인피니밴드에 GPU 서버와 프로토콜 서버를 장착해 통합을 자동화할 수 있고, NFS 기준 32대, SMB 16대, S3 4대까지 스케일 아웃 방식으로 증설할 수 있다. 전상호 상무는 IBM 솔루션의 또 다른 강점으로 IBM의 레드햇 인수를 꼽으면서 “IBM은 레드햇 인수 후 NFS-가네샤(NFS-Ganesha), SMB, 누바 개발자들이 업스트림에서 개발한 코드를 IBM 스토리지에 바로 적용하고, 개선 사항이 발견되면 이를 다시 업스트림에 적용한다는 정책을 추구하고 있다. 이를 통해 더 나은 기능을 제공할 수 있다”라고 설명했다.
전상호 상무에 따르면 IBM의 SSS 6000은 비용 측면에서도 유리한 점을 제공한다. 그는 “많은 기업이 플래시 드라이브와 일반 드라이브를 묶어서 데이터 티어링을 구성하는 서비스를 제공하는 반면, IBM은 테이프나 내부 드라이브가 다량 포함된 스토리지 서버, 외부 오브젝트 스토리지까지 묶어 단일 파일 시스템을 구성할 수 있다”라고 말했다. 데이터를 다양한 저장소에 저장할 수 있고 스토리지 관리자가 정책에 의해 저장소를 배정할 수 있기 때문에 애플리케이션을 비용 효율적이고 투명하게 유지할 수 있다는 설명이다.
IBM 스토리지 시스템의 방향성은 솔루션의 명칭이기도 한 ‘스펙트럼 스케일(Spectrum Scale)’로 요약된다. 스펙트럼 스케일은 플래시 드라이브, 테이프, 내부 드라이브뿐만 아니라 외부의 오브젝트 스토리지까지 단일 파일 시스템으로 구성하고, 이를 S3, NFS, CSI 등 다양한 프로토콜에서 동시에 액세스해 애플리케이션 요구 사항을 최적으로 제공하는, 말 그대로 넓은 ‘스펙트럼’을 지원한다는 전략을 상징하는 셈이다.
전상호 상무는 “IBM 스토리지의 장점 중 하나인 AFM 액티브 파일 매니지먼트를 활용해 외부 스토리지를 캐싱 및 매핑할 수도 있다”라며, 전반적인 데이터 관리에 대한 풀 펑션을 제공하는 것이 IBM 스토리지 스케일 시스템의 핵심이라고 덧붙였다. yuseong.kim@foundryco.com