안녕하세요.

이번 글에서는 왜 COVID-19을 영상학적으로 판단할 필요가 있는지 알아보려고 합니다.

 

먼저, COVID-19이 무엇인지 간단하게 알아보고, 왜 COVID-19을 CT, X-ray 같은 영상이미지에서 찾게 되는지 알아보도록 하겠습니다.

 

 

 

1. COVID-19이 무엇인가요?

2020년 2월 11일 세계보건기구(WHO)는 2019년에 발생한 코로나바이러스 감염증 (Coronavirus disease) 에 대한 공싱명칭으로 COVID-19을 사용하기 시작했습니다. 

 

대부분의 의학논문에서는 Severe Acute Respiratory Syndrome-Coronavirus-2(SARS-CoV-2) 라는 용어를 사용하기도 하는데, SARS-CoV-2와 COVID-19은 동의어라고 보시면 됩니다. SARS-CoV-2라는 용어가 의학적으로 좀 더 직관적인 의미를 나타내기 때문에 종종 논문에서 COVID-19 대신 SARS-CoV-2라는 용어를 사용하기도 합니다. 

 

Severe Acute Respiratory Syndrome-Coronavirus-2 라는 용어는 "코로나 바이러스를 통해 발생하는 급성 호흡 증후군"을 함축적으로 표현한 단어입니다. 그런데 용어를 자세히 보면 Coronavirus-2라는 명칭이 붙었죠? 왜 그럴까요?

 

 

사실 코로나 바이러스는 굉장히 오래전부터 있어 왔습니다. 코로나바이러스는 기원전 8000년경부터 존재했던 오래된 감기 바이러스의 일종입니다. 하지만 이러한 바이러스가 문제가되지 않았던 이유는 해당 바이러스가 같은 종들 사이에서만 전파가 되었기 때문이죠. 예를 들어, 사람들과 사람들 사이에서 전파되는 코로나 바이러스는 인체에 치명적인 영향을 미치진 않았습니다.  

 

이미지 출처: https://www.freepik.com/free-photos-vectors/virus

 

하지만, 코로나 바이러스가 문제되기 시작한건 동물에게 있던 코로나 바이러스가 사람에게 전파되면서 부터 입니다.

 

동물과 동물간에 코로나 바이러스가 전파될 때는 보통 숙주와 중간숙주가 존재하게 됩니다. 예를 들어, 박쥐가 어떤 특정한 코로나 바이러스를 생산해낸 숙주(Natural host)라고 했을 때, 숙주로부터 해당 바이러스가 다른 동물에게 전파됩니다. 이렇게 숙주로 부터 감염된 동물을 중간숙주(Intermediate host)라고 합니다. 그리고, 중간숙주에 있던 코로나바이러스가 유전자 변이를 일으키면서 인간에게 전파됩니다. (아! 참고로 현재(2021.06)까지는 COVID-19의 중간숙주가 무엇인지 명확히 규명되진 않았습니다.)

 

이미지 출처: https://europepmc.org/article/MED/30531947

 

 

앞서 언급했듯이 중간숙주가 보유하고 있는 코로나 바이러스가 유전자 변이를 일으켜 사람에게 전파되는데, 이 때 변이된 코로나 바이러스는 인간의 호흡기관에 굉장한 타격을 줍니다. 여러 호흡기관에서 다양한 증상이 발견되지만 보통은 가슴 부위에 위치한 폐(lung) 기능에 심각한 타격을 입혀 폐 질환으로 야기시킵니다. 이때, 폐나 다른 부위가 심하게 손상되면 호흡에 문제가 생기면서 사망까지 이를 수 있게 하는데, 이러한 개념들을 함축하여 '급성 호흡 증후군 (Severe Acute Respiratory Syndrome)'이라고 합니다.  

 

 

이러한 급성 호흡 증후군을 유발하는 바이러스가 코로나기 때문에 코로나바이러스를 의학적으로 "Severe Acute Respiratory Syndrome-Coronavirus-2"라고 명명하게 됩니다. Coronavirus-2라고 명칭이 붙은것을보면 Coronavirus-1도 있었겠죠?

 

Coronavirus-1 버전의 급성 호흡 증후군은 2002년에 발생한 사스(SARS)입니다. SARS는 SARS-CoV라고 표현되기도 하는데 풀어쓰면 "Severe Acute Respiratory Syndrome Coronavirus"가 됩니다. 또한, 2012년 발생한 메르스(MERS-Cov)도 "Middle East Respiratory Syndrome Coronavirus"라는 뜻으로 중동에서 발견된 코로나 바이러스라는 의미를 지니고 있습니다 (이때 중간숙주가 낙타였죠). 이러한 코로나 바이러스는 동물에게서부터 인간으로 옮겨간 후, 사람들끼리 해당 바이러스를 전파시기게 됩니다 (최근에는 이러한 바이러스가 변이를 일이키며 활동한다고 하죠). 지금까지 말한 코로나 바이러스에 대한 개념을 정리하면 아래와 같습니다.

 

  • 동물에게서 발생한 코로나 바이러스가 인간에게 넘어가면 문제가 된다.
  • 보통 폐 기능에 타격을 입해 호흡관련 문제를 일으키기 때문에 "호흡 증후군(Respiratory Syndrome)"이라는 명칭이 붙는다.
  • 해당 바이러스는 2002년에 보고되었고, 최근 2020년부터 인류에 엄청난 피해를 주고 있다.
    • 사스(SARS): 2002년 보고된 SARS-CoV() 코로나 바이러스로 인해 발생한 증상으로 이름을 붙였다.
    • 메르스(MERS): 2012 MERS-CoV() 중동에서 발견돼서 Middle East라고 이름을 붙였다.
    • 코로나(COVID 19): 2019 SARS-CoV2(COVID-19) 발생연도에 의해 이름이 붙여졌다.

 

(↓↓↓코로나란 무엇인가?↓↓↓)

https://www.youtube.com/watch?v=RJDroTVhP3c 

 

 

 

 

 

2. 왜 COVID-19을 영상학적으로 판별하려고 하나요?

현재 COVID-19을 판별하는 보편적인 방식(Golden standard)은 Reverse-Transcription Polymerase Chain Reaction (RT-PCR)입니다. RT-PCR은 사람들의 DNA를 채취해 코로나 바이러스 확진 유무를 판별합니다. 많은 국가들이 이러한 진단방식을 채택하고 있지만, 이러한 진단방식에도 분명 단점이 존재하죠. 

 

이미지 출처: https://www.freepik.com/free-vector/how-pcr-test-works_8511053.htm

 

(↓↓↓RT-PCR 진단 프로세스↓↓↓)

https://www.youtube.com/watch?v=REoaZK6YMUM 

 

 

2-1) 첫 번째 문제는 정확도입니다.

  1. RT-PCR의 문제점을 지적하는 부분중 하나는 낮은 sensitivity 성능 지표입니다.
  2. Sensitivity(=TP/(TP+FN))가 낮다는 것은 FN(False Negative)가 높다는 것을 의미합니다.
  3. False Negative가 의미하는 바는 실제 COVID-19 환자에게 음성이라고 (=COVID-19이 아니라고) 진단한 케이스인데, 감염질병에 있어서 FN이 높다는 것은 굉장한 문제가 됩니다.
  4. 왜냐하면, 실제 COVID-19 환자가 안심하고 여러 사람을 접촉하면서 바이러스를 전파시킬 확률이 매우 높기 때문이죠. 
  5. RT-PCR에서 대상을 FN으로 판별하는 경우는 아래와 같습니다.
    • 이전에 음성으로 반단했지만 반복검사 끝에 양성으로 바뀐 경우
  6. 이러한 환자들 중 몇몇은 이미 CT를 통해 이상소견을 발견하기도 했다고 합니다. 

 

(↓↓↓FN 외에 다른 성능지표가 궁금하시다면↓↓↓)

https://89douner.tistory.com/253

 

1. 의료 인공지능에서 사용하는 대표적인 지표들 (1) - TP, FP, TN, FN, and Confusion matrix

안녕하세요 이번에는 의료 인공지능에서 사용하는 대표적인 지표들에 대해서 소개하려고 합니다. 사실 머신러닝을 공부하신 분들이나, 의학통계를 공부하신 분들은 다들 알고 있을 개념이지만

89douner.tistory.com

 

(↓↓↓자가검사키트의 문제점↓↓↓)

https://www.youtube.com/watch?v=EtbYtK0FW7I 

 

(↓↓↓CT기반 COVID-19 판독↓↓↓)

https://www.youtube.com/watch?v=VQ-IwfsMstI 

[정확성에 대한 개인적인 견해]

의료영상 데이터를 기반으로 한 딥러닝 COVID-19 진단 모델 논문들을 읽어보면 대부분 RT-PCR의 낮은 성능지표(sensitivity)를 문제삼고 있습니다. 즉, 딥러닝 모델은 sensitivity 지표 뿐만 아니라 다른 지표들에서도 기존 RT-PCR 보다 성능이 좋다는 점을 주장하고 있습니다.

 

하지만, 딥러닝 모델을 기반으로 COVID-19을 분류 해보니 정확성이 높다고 이야기 하기에는 좀 더 검증해봐야 할 부분이 있다고 보였습니다. 예를 들면 아래와 같은 것들입니다.

  1. X-ray, CT 이미지 상태에 문제는 없는지 (ex: 해당 이미지에 너무 많은 artifact가 있는건 아닌지)
  2. Internal validation과 external validation이 제대로 구축된 상태에서 진행이 된건지
  3. 딥러닝 모델이 결과적으로 옳게 분류했으나, 타당한 소견으로 분류를 한건지

이러한 부분들은 딥러닝 관련 연구 부분을 설명할 때 더 자세히 언급하도록 하겠습니다.

 

 

 

2-2) 두 번째 문제는 진단을 위해 소요되는 시간입니다.

  1. 보건복지부에 따르면 RT-PCR은 진단시 2일 정도 되는 시간이 필요하다고 규정하고 있습니다.
  2. 최근에는, 실시간(realtime) RT-PCR 방식 또는 자가검사키트를 이용해 빠르게 확진결과를 알아볼 수 있다고 하는데, 실제 관련 논문들을 보면 정확도에 심각한 문제가 발생하는 경우가 있습니다. 즉, 시간의 장점을 취한대신 정확성을 조금 포기 한거라고 볼 수 있는데, 만약 정확성이 많이 떨어진다고 한다면 해당 진단방식을 이용하는건 문제가 될 수 있습니다.

 

[시간에 대한 개인적인 견해]

 X-ray, CT 기반의 딥러닝 모델을 이용해야 한다는 논문들을 보면 RT-PCR보다 빠른 진단을 할 수 있다는 점을 강조합니다.

 

하지만, 이 부분은 상황별로 분리해서 봐야 한다고 생각합니다. 예를 들어, 사람 한명을 기준으로 봤을 때는 당연히 X-ray, CT를 기반으로 판독하는게 시간이 빠르겠죠. 하지만, X-ray, CT 촬영은 장비의 수가 제한적이기 때문에, 환자가 늘어나면 촬영 시간이 굉장히 길어질 것입니다. 즉, 진료대상이 만명이 된다고하면 RT-PCR 방식이 더 빠르다고 할 수 있겠죠. 

 

(↓↓↓영상학적 진단 방식이 시간적인 측면에서 문제가 될 수 있는 경우↓↓↓)

https://www.youtube.com/watch?v=jEP0hZtWGr8 

 

또한, 딥러닝 모델을 사용한다는 측면에서 보면, 당연히 컴퓨터가 빠르게 진단해주기 때문에 시간을 절약할 것이다라고 볼 수 있습니다. 하지만, 보통 딥러닝 모델은 의사들의 진단을 보조해주는 보조진단 도구 (CAD: Computer Aided Diagnosis)로 활용되기 때문에  RT-PCR에 비해 진단시간이 짧다고 볼 순 없습니다. 즉, 최종 결정은 의사가 하기 때문에, 기존의 의사들의 진단 속도를 높여줄 수는 있을지 몰라도, RT-PCR 보다 빠른 진단을 할 수 있다고 주장하는 것은 현실적으로 모순이 될 수 있습니다. 

 

만약, 딥러닝 모델로 진단했을 때, 정상일 확률이 낮은 경우에만 의사들이 해당 데이터를 진단하게 해준다면 진단시간을 획기적으로 줄일 수 있겠죠. 즉, 방대한 양의 데이터를 초기 스크리닝 또는 필터링을 해줌으로써 진단속도를 높일 수 있습니다. (실제 이러한 스크리닝 기법은 google healthcare에서 발표한 "A deep learning system for differential diagnosis of skin diseases"와 같은 논문에서도 도움이 될거라고 언급하고 있죠)

 

결국 의료영상 데이터를 기반으로 COVID-19를 분류한다는 논문을 작성할 때, 기존 RT-PCR 보다 빠르기 때문이라고 하는 주장할 때는 좀 더 구체적인 상황을 가정해야하지 않나 싶습니다. 

 

 

 

2-3) 세 번째 문제는 RT-PCR을 사용하기 위해서는 많은 비용을 요구합니다.

  1. Nature에 실린 "The explosion of new coronavirus tests that could help to end the pandemic"논문 중 일부를 인용하자면, RP-PCR 진단 키트를 생산하기 위한 설비(facilities)를 갖추는 건 상당한 비용을 요구한다고 합니다. 기존에 이러한 연구가 활발히 진행되는 선진국들은 기본적인 설비가 이미 갖춰져 있었겠지만, 그렇지 않은 나라에서 이러한 설비를 설치하고 모든 국민에게 제공한다는 것은 경제적으로 큰 부담이 됩니다. 
  2. 또한, RT-PCR을 진단하기 위해서는 잘 훈련된 인적자원들이 필요합니다. 진단 과정에서는 "환자의 DNA를 검출 → 해당 DNA를 운반 → 도착한 DNA 정보 분석"과 같은 과정이 포함됩니다. 진료소에 배치되어 있는 인원들, 환자의 DNA 정보를 운반하는 인원들, 해당 데이터를 분석하는 인원들은 모두 잘 훈련된 사람이어야 합니다. 이러한 인원들의 인건비나 진단과정에서 발생하는 간접비용(운반비용, 진료소에 있는 의료진 방호복 등)은 RT-PCR 진단 프로세스가 상당한 비용을 요구한다는 것을 보여줍니다
  3. 최근에는 진단비용이 CT 촬영비용과 비슷하게 나온다는 견해가 있어서 진단비용까지 부담이 되고 있습니다.

https://www.youtube.com/watch?v=-lcdWy3VPOs

 

[비용과 관련한 개인적인 견해]

사실 설비와 관련된 문제를 따지면 CT, X-ray 같은 촬영장비를 설비비용도 적지 않다는 것을 알 수 있습니다. 만약, 이러한 장비를 설치해야 한다면 막대한 비용이 들기 때문에 "RT-PCR이 비용이 많이 들어서 영상이미지 기반의 진단을 해야한다"고 이야기하는 것은 모순이 될 수 있습니다.

 

 그렇기 때문에, 몇 가지 상황을 가정하고 이야기를 하는 것이 더 맞다고 생각합니다. 예를 들어, 이미 CT 같은 장비들은 대학병원에 구비가 되어 있는 상태이고, 지역근처의 2차병원에서도 구비가 되어 있습니다. X-ray 같은 장비들은 동네병원에서도 구비가 되어 있죠. 그래서, 기존 장비들을 재활용할 수 있기 때문에 새로운 시설을 만들 필요가 없을 수 있죠. 또한, 영상의학적 보조진단 software 프로그램을 사용하게 되면 진단 프로세스가 "환자 X-ray or CT 촬영 → software 프로그램 → 진단"과 같이 진행되기 때문에 중간 과정을 획기적으로 줄여줄 수 있다는 장점이 있을 겁니다. 이러한 부분들을 통해 COVID-19을 진단하는데 발생하는 총 비용이 RT-PCR보다 적다는 자료가 있다면, 영상학적 진단을 사용해야 하는 경제적인 이유가 될 수 있겠죠.

 

 

 

2-4) 네 번째 문제는 불안전성 입니다.

  1. 선별 진료소 의료진들의 코로나 감염사례가 증가하고 있습니다. RT-PCR 진단 방식을 위해서는 환자와 대면을 해야하기 때문에 의료진들이 위험에 노출 될 수 밖에 없습니다.
  2. 사실 방호복을 입고 진료를 한다고 하지만, 업무가 과중되거나 갑자기 처리해야 할 일이 많아지면 정신이 없기 때문에 자신도 모르게 마스크를 내릴 수 도 있습니다. 한 여름에는 더욱 심하겠죠.
  3. 결국, 비대면으로 실내에서 진단할 수 있는 방법을 생각하지 않을 수 있습니다. 

 

[안정성과 관련한 개인적인 생각]

 개인적으로는 "영상의료 기반의 딥러닝 기술을 사용해야 한다"는 주장을 하려고 했을 때, 안정성과 정확성에 대한 이유가 이러한 주장을 가장 잘 뒷받침해줄 수 있는 근거가 아닌가 싶습니다. 

 

 

 

COVID-19을 진단할 때 RT-PCR를 대체할 수 있는 방식으로 영상학적인 진단기술이 주목받고 있지만, 앞서 개인적인 견해에서 밝혔듯이 문제점 또한 존재 합니다.

 

하지만, 이러한 문제점들이 개선 된다면 영상학적 진단 방식은 더욱 주목을 받을거라 생각합니다. 그리고, 딥러닝이나 그 외 인공지능 기술들이 이러한 단점을 빠르게 개선시켜줄 것이라 기대하고 있습니다.

 

다음글에서는 딥러닝 기반 COVID-19 연구를 설명하기 전에 실제 영상학과에서는 어떤 기준으로 COVID-19을 진단하는지 알아보도록 하겠습니다!

 

 

 

 

 

 

 

 

 

+ Recent posts