안녕하세요~


이번글에서는 NVIDIA가 자신들이 직접 외장그래픽카드를 단품으로 판매하는것이 아닌 사용자들이 클라우드 형태로 제공해주는 서비스(솔루션)에 대해서 알아 볼거에요!


(PPT로 정리해놓은게 있어서 대부분 PPT 스크린 샷으로 대체했습니다!)




<1.NVIDIA의 클라우드 사업: 데이터센터 확장>



1) 출현배경


첫 번째 이유: 기존의 서버를 다루는 방식은 장소 제한적이다.


회사들을 보통 '서버'를 구축해서 사용자들에게 서비스를 제공해요. 그래서 회사에서 엄청난 자금을 투자해 고급 서버를 구성하게 되는거죠.


그런데 보통 회사내에서는 보안문제로 자신들의 서버를 외부로 노출시키지 않게 하려고 방화벽을 둔다던지, 인트라넷을 구축해서 외부에서 접속하는걸 차단한다던지 여러 방식을 써서 외부와의 단절을 시도하려고 해요.


그런데, 잠시 업무차 외부에 나가있는동안 갑자기 서버에 문제가 생겨서 서버의 에러가 생길때 이를 고쳐야 하는 경우가 생기는데, 이때마다 회사로 다시가야할까요?


특히 코로나가 지속되는 상황에서 재택근무를 한다고 하면 어떻게 해야할까요? (물론 포트를 열어주고 하긴 하겠지만 그래도 좀...)


두 번째 이유: 성능 좋은 GPU 너무 비싸다.


최근에 나온 Ampere 아키텍처의 GPU 모델 중 하나인 A100 가격은 약 200k달러였어요. 이건.. 일반 사용자들이 감당할 수 없는 금액이며 심지어 회사에서도 투자하기가 힘든 금액이에요..


그런데 생각해보면 외장그래픽을 구매한다는건 24시간 365일 동안 계속 점유하고 쓰겠다는말과 같아요. 그런데 일반적으로 딥러닝 하시는 분들은 Test를 하거나, Training을 하거나 할때 사용하시죠?

(물론 서버로 딥러닝 관련 서비스를 제공하시는 분들은 24시간 사용하실 수 있겠지만 이 마저도 시간대에 따라서 사용자가 몰리는 시간대가 있고 몰리지 않는 시간대가 있을거에요)


그렇다면 우리가 외장그래픽을 잠시 빌려 사용한만큼만 돈을 내면 어떨까요?




2) NVIDIA 데이터센터에 투자하다.


2020년 5월 NVIDIA 회장은 GTC에서 데이터센터를 확장시킨다고 공식적으로 선언했습니다. 



<사진1>


데이터센터란 NVIDIA가 자신들의 외장그래픽을 클라우드 형태로 제공해주기위해 아키텍처 별로 따로 외장그래픽이 모인 하나의 거대한 센터를 지어 클라우드 형태로 외장그래픽을 제공해주면서 관련 데이터(작업)을 지원해주는 곳이라고 보시면되요.


<사진2. NVIDIA 데이터 센터>









NVIDIA가 제공해주는 데이터센터에 관해 자세히 보시려면 아래 순서대로 접근하시면 돼요!


https://www.nvidia.com/ko-kr/



그리고 아래 순서를 따라오시면

데이터센터에서 제공해주는 대표적인 외장그래픽 모델을 보실 수 있으실거에요.


A100은 Ampere 아키텍처 기반으로 만들어 졌고, T4는 Turing 아키텍처, V100은 Volta 아키텍처 기반으로 만들어진 모델이에요.


데이터센터에서는 일반 타이탄 시리즈나 Geforce 시리즈는 제공을 해주지 않아요!

(참고로 단일 A100을 이용하는 것보다 같은 금액으로 여러개의 타이탄 V 또는 Geforce 시리즈 그래픽카드를 여러개 사는것이 더 좋다는 의견도 있어요 ㅎㅎ)


데이터센터에서 제공해주는 제품들에 대한 성능 차이는 아래와 같아요. (아래 순서대로 성능이 좋아지는 거구나라고 생각하시면 될거에요!








<P100(파스칼 아키텍처 기반) VS CPU VS K80 (케플러 아키텍처 기반)>







<V100 VS P100>

<사진3>








<A100 VS V100 VS T4>








<T4>


T4는 사실 A100, V100 보다 속도면에서 떨어지지만

가성비면에서 주목할 만한 서비라고 생각해요.


그리고 그외에 컨테이너 기술이나 

다른 소프트에어 기술도 지원이 된다고 하니

이러한 부분을 주목하시는 분들은 T4 데이터 센터를 사용하시는걸 추천드려요!

(지금 언급한 기술들이 V100에 적용이 되는건진 잘모르겠는데,

A100에서는 제공이 되는거 같더라구요 ㅎㅎ)







3) GCP(Google Cloud Platform), AWS(Amazon Web Service), Azure(Microsoft)와의 협업


흔히 우리가 NVIDIA 데이터센터를 이용하기 위해서는 NVIDIA에 직접문의 하기 보다는 GCP, AWS, Azure라는 곳에서 클라우드 시스템(인스턴스)을 구축할 때 NVIDIA 데이터센터를 사용하게돼요.

(예를들어, GCP에서 클라우드 인스턴스를 구축하기 위해, CPU, SSD, GPU 등등 설정해야할 때, GPU 항목선택시 NVIDIA 데이터센터에서 제공해주는 클라우드용 외장그래픽(GPU)을 선택하게 됩니다. (추후에 클라우드 관련 카테고리를 개설하면 자세히 알려드릴게요!)




아래순서대로 따라오시면



아래와 같은 테이블을 보실 수 있으실거에요.







4) 클라우드 서비스와 관련된 최신기사(2020.07.10 기준)


2020.07.08일 Google Cloud가 "NVIDIA A100을 지원하는 A2 인스턴스를 제공할 예정"이라고 발표했어요.


관련기사 링크 -> https://cloud.google.com/blog/products/compute/announcing-google-cloud-a2-vm-family-based-on-nvidia-a100-gpu?fbclid=IwAR3GqK4Sr_ETrTJCgn-GlISW4yPC6bHOC2qKMM0W7gb8LazoXEsjM6h-B5A









만약 딥러닝, AI 관련해서 NVIDIA에서 제공하는 서비스에 대해 더 알고 싶으신 분들은 아래처럼 NVIDIA 사이트에 접속하신 후, 딥러닝&AI 섹션에 가서 살펴보시면 될 것 같아요.


예를들어, 업계별 섹션은 '자율주행 자동차', '로보틱스', '헬스케어&생명과학' 세부 섹션으로 나뉘어 있어요.









지금까지 딥러닝을 위해 제공되는 외장그래픽과 NVIDIA 제품군들에 대해서 알아보았어요.

다음글부터는 NVIDIA, GPU, 외장그래픽 관련해서 올라오는 최신 기사들을 간단하게 요약하는 글을 작성하도록 할거에요!






[사진 래퍼런스]

사진1

https://www.kipost.net/news/articleView.html?idxno=200720

사진2

https://www.techpowerup.com/239994/nvidia-forbids-geforce-driver-deployment-in-data-centers

사진3

https://www.microway.com/hpc-tech-tips/nvidia-turing-tesla-t4-hpc-performance-benchmarks/tesla_comparison_t4-p100-v100/

https://lambdalabs.com/blog/2080-ti-deep-learning-benchmarks/


+ Recent posts