"엔비디아 종속 탈피"… 네이버클라우드, 인텔·AMD 가속기 공격 투자

"GPU 확보보다 운영 효율… 내년 액체냉각 도입" 풀스택 AI 인프라로 글로벌 조준… 사우디·태국서 성과

2025-10-28     손지하 기자
네이버클라우드 이상준 CIO. 사진=네이버클라우드

[포인트데일리 손지하 기자] 네이버클라우드가 인공지능(AI) 데이터센터 시장에서 GPU(그래픽처리장치) 확보량보다 운영 효율이 더 중요하다는 전략을 내세우며 국내외 시장 공략에 나섰다. 특히 내년부터 차세대 액체 냉각 기술을 본격 도입하고 엔비디아 의존도를 낮추기 위해 인텔과 AMD 제품에 대한 투자를 확대한다는 계획이다.

네이버클라우드는 27일 국내 최초 AI 데이터센터인 '각 세종'에서 테크밋업을 열고 GPU 운영 효율을 극대화하는 차별화된 기술 역량을 공개했다. 이상준 최고정보책임자(CIO)는 "AI 인프라의 경쟁력은 GPU를 얼마나 많이 확보하는가를 넘어 확보한 자원을 얼마나 안정적이고 효율적으로 운영하는지에 달려 있다"며 "네이버클라우드는 데이터센터, AI 자원, AI 플랫폼 기술을 내재화한 풀스택 AI 인프라를 갖추고 있다"고 강조했다.

◇내년 4월까지 액체냉각 기술 실증 완료=행사 후 진행된 질의응답에서 노상민 각 세종 센터장은 냉각 기술 로드맵을 구체적으로 공개했다. 그는 "춘천 데이터센터에서는 지난 5월부터 액침 냉각(Immersion Cooling) 실증(PoC)을 진행 중"이라며 "세종에서는 내년 4월까지 직접 액체 냉각(DLC, Direct Liquid Cooling) 실증을 마치고 2027년 2차 서버실부터 적용할 예정"이라고 밝혔다.

다만 액침 냉각의 경우 엔비디아가 아직 지원하지 않고 있으며 기름 성분을 사용해 랙 이동이 불가능하고 인체 환경 및 운용 검증이 필요해 당분간 공기 냉각과 액체 냉각을 병행 운영할 계획이라고 설명했다. GPU의 전력 사용량이 H100의 경우 8킬로와트(kW), 차세대 B200은 13kW에 달하면서 냉각 기술이 데이터센터 운영의 핵심 요소로 부상하고 있다.

네이버클라우드 노상민 데이터센터 통합센터장. 사진=네이버클라우드

◇GPUaaS 사업 비중 절반까지 성장=네이버클라우드의 GPU as a Service(GPUaaS) 사업은 이미 상당한 비중을 차지하고 있는 것으로 나타났다. 이상준 CIO는 "현대자동차, 포스텍 등 대기업에 대규모 GPU를 납품했고 하이퍼클로바X 기반으로 삼성전자와 한국수력원자력 등에 버티컬 특화 모델을 제공하고 있다"며 "정부 AI 사업에도 GPU 3000장 규모로 참여하는 등 현재 GPUaaS 비즈니스가 체감상 절반 정도의 무게를 차지한다"고 말했다.

글로벌 시장 진출도 가시화되고 있다. 이 CIO는 "사우디, 태국에서 Siam AI와 태국어 모델 납품 실적을 올렸고 일본에서는 독거 노인 케어콜과 고객서비스(CS) 앱으로 성과를 내고 있다"며 "AI 사업은 대규모 투자가 필요하지만 꾸준한 기술 내재화로 기업 가치 상승을 기대한다"고 말했다.

◇"상면 부족에 비용 2~3배 폭등" 업계 애로사항 토로=데이터센터 업계가 직면한 어려움도 솔직하게 공개됐다. 노상민 센터장은 "GPU의 고전력 사용량으로 상면이 압축적으로 사용되면서 공간이 부족해지고 있다"며 "올해 하반기부터 내년까지 '보릿고개'가 시작될 수 있다"고 경고했다. 투자 자본 유입으로 상면 비용이 2~3배 이상 오르는 인플레이션이 발생하고 있으며 24시간 운영 인력을 구하기 어렵고 인프라가 수도권에 집중돼 지방 이전도 쉽지 않다는 설명이다.

이상준 CIO는 정책 제언도 내놨다. 그는 "AI 사업에 필요한 세 가지 자원은 GPU, 인력, 잘 정제된 데이터"라며 "국가가 가진 질 좋은 데이터를 민간 기업에 지원해 주기를 기대한다"고 말했다.

◇엔비디아 종속 탈피 전략 본격화=네이버클라우드는 엔비디아 의존도를 낮추기 위한 다각화 전략도 추진 중이다. 이상준 CIO는 "엔비디아 종속을 피하기 위해 인텔, AMD 등 다른 회사 솔루션을 실제 서비스에 적용 검토 중"이라며 "동영상 스트리밍 등 일부 서비스에서는 인텔 제품이 효율적이라 판단해 공격적으로 투자하고 있다"고 말했다. 삼성전자와 M 프로젝트를 통해 칩 레벨의 협업도 준비하고 있다.

AI 가속기는 인텔 제품 중 대규모 학습 클러스터가 가능한 플랫폼을 검토 중이며 AMD의 MI 시리즈 플랫폼도 올해 하반기에 테스트를 완료했다고 노상민 센터장은 설명했다.

네이버클라우드 테크밋업 Q&A. 사진=네이버클라우드

◇국가 AI 컴퓨팅 센터 사업 참여로 리스크 헷지=네이버클라우드는 삼성SDS와 컨소시엄으로 국가 AI 컴퓨팅 센터 사업에도 참여하고 있다. 이상준 CIO는 "사업이 잘 될 것이라 믿지만 만약 사업이 지연되더라도 네이버 내부 수요를 그쪽에 돌릴 수 있다"며 "내부에서 썼던 GPUaaS 플랫폼을 AI 데이터 센터에도 딜리버리할 예정으로 리스크 헷지 측면에서 경쟁력이 있다"고 설명했다.

◇장애 대응 체계와 운영 차별화=네이버클라우드는 대규모 장애 발생에 대비한 이원화 전략도 강조했다. 노상민 센터장은 "화재 발생에 대비해 배터리실에 스프링클러를 설치 완료하고 소화 가스와 병행 운용할 예정"이라며 "춘천, 세종 외에 수도권, 충청권, 경남권에 상당히 많은 임차 데이터센터를 운영하며 서비스 이원화에 지속 투자하고 있어 피해가 최소화될 것"이라고 밝혔다.

운영 차별점에 대해서는 "춘천, 세종, 임대 데이터센터 모두 동일 기준과 동일 프로세스를 적용해 운영을 일원화한다"며 "담당자의 개인 역량 차이에 의존하지 않고 계속적인 교육을 통해 상향 평준화된 역량을 보유하도록 노력한다"고 설명했다. 이상준 CIO는 "장애 발생 시 다른 쪽으로 우회해서 정상화를 시키는 방식을 사전 준비하는 등 문화적인 부분에서도 투자하고 있다"고 덧붙였다.

최근 아마존웹서비스(AWS) 글로벌 장애와 관련해서는 "영향력은 크지 않았다"며 "보안은 기본적으로 인증을 통해 평상시 활동이 깔려 있으며 24시간 보안 체계로 운영된다"고 말했다. 하루 5억건이 넘는 침입 시도가 있지만 성공률은 매우 낮은 수준으로 유지 관리되고 있다고 밝혔다.

◇코로케이션 전략과 전기료 현황=LG CNS와 코로케이션 계약을 체결한 이유에 대해 이상준 CIO는 "자사 데이터센터만으로 대응이 안 될 때 LG CNS의 기술력을 활용하는 것이 아니라 그들이 가진 공간, 전기, 인프라를 빌려서 저희 서비스를 확장하고 대응하는 것"이라며 "자체 아키텍처와 플랫폼을 임차 공간에 활용한다"고 설명했다.

전기료와 관련해 노상민 센터장은 "각 춘천은 예년과 비슷하며 각 세종은 올해 약 220억 원 정도의 전기료가 나갈 예정"이라며 "확장됨에 따라 계속 증가할 것으로 예상된다"고 밝혔다.

◇기술적 우위와 병목 현상=네이버클라우드의 기술적 우위에 대해 노상민 센터장은 "상업용 데이터센터와 달리 자사 서비스 트렌드에 맞춘 데이터센터를 만들며 국내 IT 기업 중 IDC(인터넷데이터센터)와 IT 서비스 이해도가 가장 높다"고 자평했다.

반면 기술적 병목으로는 "건축물인 데이터센터가 빠르게 진화하는 IT 서비스의 전력 밀도, 냉각 등을 따라가기 어려운 시차"를 꼽았다. 이에 대한 대응 전략으로 모니터링 시설인 통제센터 등을 통한 최적화 및 집중화를 제시했다.

각 세종 전경. 사진=네이버클라우드

◇2019년 슈퍼팟 상용화 경험 강점=네이버는 2019년 엔비디아의 슈퍼컴퓨팅 인프라인 '슈퍼팟(SuperPod)'을 세계에서 가장 빠르게 상용화한 기업으로 초고성능 GPU 클러스터를 직접 설계하고 운영한 경험을 보유하고 있다. 이러한 실증 경험을 바탕으로 각 세종에서 대규모 GPU 클러스터를 직접 설계하고 운영하며 냉각, 전력, 네트워크 등 데이터센터 핵심 인프라를 자체적으로 설계하고 AI 워크로드에 최적화하는 기술을 내재화했다.

'각 세종'은 기존 IDC가 수행하던 저장과 처리 기능을 넘어 AI 학습과 추론이 동시에 이뤄지는 고밀도 GPU 연산 공간으로 설계됐다. 장애 상황에서도 서비스가 멈추지 않도록 전력과 냉각, 서버 운용 체계를 완전히 분리하면서도 유기적으로 통합한 이중화 구조(Active-Active Architecture)로 설계됐으며 화재나 이슈에 대비해 전기실, 기계실, UPS 배터리실 등은 서버실 옆이 아닌 지하에 분리 배치했다.

네이버클라우드는 수십만 대 서버 운영 경험을 바탕으로 장애 상황에서도 흔들리지 않는 표준화된 인프라 구조와 자동화된 운영 체계를 구축했다. 모든 서버는 도입 전 단계에서 성능, 전력 효율, 운용성을 검증해 표준 사양으로 구성되며 GPU 등 고성능 자원은 실시간 상태 감시와 자동 복구 기능을 통해 장애 발생 시에도 안정적인 서비스 연속성을 유지할 수 있다.

AI 플랫폼은 모델 개발부터 학습, 추론, 서빙까지 AI의 전 과정을 하나로 연결하는 통합 운영 체계로 작동한다. 내부적으로는 하이퍼클로바(HyperCLOVA)의 학습과 운영이 모두 이 플랫폼 위에서 이루어지며 GPU 자원 배분, 모델 관리, 스케줄링까지 효율적으로 통제된다.

이상준 CIO는 "네이버클라우드는 축적한 AI 인프라 운영 역량을 GPUaaS 모델로 발전시켜 국내 기업들이 손쉽게 AI를 활용할 수 있는 생태계를 만들 것"이라며 "이를 통해 AI 인프라가 특정 기업의 자산을 넘어 산업 전반의 성장 기반이 될 수 있도록 하겠다"고 포부를 전했다.