안녕하세요.
이전 글에서는 COVID-19 관련 기본적인 전처리 기법들에 대해서 알아봤습니다.
이번 글에서는 제가 개인적으로 필요하다고 생각했던 전처리 기법에 대해 설명하려고 합니다.
참고로 첨부된 이미지들은 Kaggle에서 제공하는 public dataset 입니다
1. 딥러닝을 위한 X-ray, CT 데이터 정리 필요성
1-1. X-ray
- 먼저 X-ray 사진들을 보면 대부분 오른쪽 상단 또는 왼쪽 상단에 text 글씨들이 써져 있는 것을 확인할 수 있습니다.
- 또한, X-ray 촬영시 부착되는 tube들도 보입니다.
- 이러한 요소들은 사실 artifact에 해당하기 때문에 CNN 모델을 제대로 training 또는 evaluation 하는데 방해가 될 수 있습니다. (데이터가 적다면 해당 artifact가 중요한 특징으로 학습 될 수 도 있기 때문이죠)
- 실제로 COVID-19을 분류할 때, 어떤 특징을 기반으로 분류하는지 grad-CAM을 통해 알아보면 엉뚱한 artifact를 기반으로 잡는 경우도 볼 수 있습니다. (물론 논문들에 나온 사진들은 보면 대부분 정확히 특징들을 잡아낸 사진들을 figure로 사용하는데, 실제 여러 이미지들을 grad-cam에 적용해보면 아닌 겨우도 많습니다)
- 그런데, 경험상 아이러니 한 부분은 이와 같이 잘 못 특징을 기반으로 분류한다고 하더라도, 실제로는 분류정확도가 꽤 높게 나온다는 것 입니다.
- 그렇다면, artifact 같은건 상관하지 않고 딥러닝을 그냥 사용하면 될까요? 여기서 한 번 생각해봐야 할 부분이 있습니다.
"딥러닝이 올바른 결과를 도출했다고 하더라도 결과에 대한 근거가 잘 못됐을 때,
우리는 딥러닝을 신뢰한다고 할 수 있는가?"
"과정이 올바르지 않은데 결과를 신뢰할 수 있는가?"
"우리는 딥러닝을 추론과정이 필요없는 주술 같은 존재로 인식해야 하는가?"
- 물론 데이터가 많다면 학습과정에서 해당 artifact 가 중요한 특징이 아니라고 학습하겠지만, 제 생각에는 근본적으로 이러한 부분들은 최대한 제거를 해주고 딥러닝 모델을 적용 해야 하지 않나 싶습니다.
- 예를 들면, 적어도 아래와 같이 lung segmentation을 한 영역에서만 evaluation이 진행되야 하지 않나 싶습니다.
1-2. CT
(↓↓↓CT 및 CT 이미지 배경지식 참고↓↓↓)
https://89douner.tistory.com/257
Chest-CT 경우에는 아래 segmentation 된 부분을 제외한 모든 부위가 artifact라고 보시면 됩니다. 다른 말로하면, 폐(lung) 영역이 아니기 때문에 관심영역 (RoI: Region of Interest)이 아니라고 할 수 있죠.
Chest-CT의 경우는 Chest X-ray보다 상대적으로 특징 위치를 잘 찾아내지만,
사실 RoI를 제외 한 부분들은 학습될 필요가 없지 않나 싶습니다.
물론 CNN 학습을 하면, 해당 모델이 RoI 아닌 영역은 중요 특징이 아니라다라고 학습할 수 있겠죠.
하지만, COVID-19 같이 신종바이러스 케이스인 경우는 데이터 수가 많지 않기 때문에,
만약 COVID-19 이미지들 중에서 우연히 RoI 아닌 영역에서 공통된 artifact들 존재했다면,
해당 artifact를 중요한 feature라고 학습할 여지가 있습니다.
그래서 CXR(Chest-XRay, CT) 등 사실 RoI가 아닌 부위를 training시키고, evaluation 하는 것보다
RoI에 제한적으로 training 및 evaluation을 적용시키는게 합리적인 선택이 아닌가 싶습니다.
개인적으로 "COVID-19 Infected Lung Computed Tomography Segmentation and Supervised Classification Approach"라는 논문에서 제시한 방식의 segmentation 전처리 방식이 COVID-19 진단을 위한 전처리로써 reasonable 하지 않나 싶습니다.
(↓↓↓ 위 이미지에 대한 논문↓↓↓)
https://www.techscience.com/cmc/v68n1/41834
2. 딥러닝을 이용한 X-ray lung detection and segmentation
위와 같은 생각으로 X-ray 데이터에 lung segmentation을 적용해 봤습니다.
2-1. Lung detection
먼저, segmentation을 적용하는 대신, detection을 먼저 한 후, 학습을 시키면 어떻게 될지 궁금했습니다.
예를 들어 아래와 같이 lung 부분만 detection 해주면 최대한 artifact들을 제거할 수 있을거라 판단했습니다.
우선 detection을 위한 모델로 YOLO V4를 이용했습니다.
(예전에 치매관련 연구를 했을 때 여러 모델 (Google에서 제공하는 SSD, Faster RCNN 등 + DarkNet 기반 YOLO v2모델) 을 사용해봤는데, 성능이 비슷했습니다. 그래서, 우선 빠르게 테스트 할 수 있는 YOLO V4를 적용해서 학습시켜봤습니다)
데이터 셋은 당시 팀원끼리 라벨링을 했습니다.
당시, 얼마큼의 학습 데이터가 필요한지 알아보고 싶어 다양한 학습데이터 수를 구성해서 테스트 해봤습니다.
아래 그림은, 100개의 데이터로 트레이닝 시킨 모델로 lung detection을 적용시켜 artifact를 제거시킨 이미지 데이터들을 보여줍니다.
이러한 데이터들(for training dataset, validation dataset)을 기반으로 CNN 분류 (Normal VS Pneumonia VS COVID-19) 를 시도해봤습니다.
결과적인 부분을 말씀드리자면, Normal, Pneumonia에서는 분류결과가 큰 차이가 나지 않는데, 오히려 데이터 갯수가 적은 COVID-19 분류 결과가 눈에 띄게 안좋게 나왔습니다. 데이터 수가 적으면 적을 수록 안좋아지는게 심해졌는데, 이것을 보고 detection을 통해 전처리 된 이미지는 학습시 overfitting을 유발 할 수 도 있겠다라고 잠정결론을 내렸습니다.
(segmentation 전처리된 데이터 셋만으로 학습시킬 때도 위와 같은 현상을 확인 할 수 있었습니다)
2-2. Lung segmentation
위와 같이 CNN 결과가 좋지 않게 나왔지만, 그럼에도 불구하고 추후연구에서 lung segmentation이 반드시 쓰일거라고 판단했습니다 (Segmenation된 이미지를 기반으로 다른 딥러닝 분류기법들을 사용해볼 수 있으니까요. 분류가 아니더라도 특징 위치를 정확히 찾아주기 위해서는 lung segmentation 기법이 필수적이라 생각하고 있습니다.)
그래서, 앞서 적용했던 detection 모델을 잘 이용하면 segmentation 성능은 높여줄 수 있지 않을까? 생각했습니다.
예를 들어, 그냥 segmentation 모델을 CXR 데이터에 적용시키는 것보다, 아래와 같이 object detection 모델을 이용해 crop 한 후, 해당 부위만을 segmentation 하는 것이 더 좋은 성능을 이끌어 낼거라 판단했습니다.
우선 segmentation을 위한 모델 후보군을 아래와 같이 선정했고 테스트해본 결과,
Unet+Varational code 모델이 더 좋았어서, 해당 모델을 사용하기로 했습니다.
Unet+Varational code 모델 논문 제목 → "Lung segmentation from chest X-rays using variational data imputation"
아래 그림에서 왼쪽 사진을 보면 실제 COVID-19 데이터로 주어진 원본 이미지 입니다. (실제 public dataset들을 보니까 "이런 것도 데이터로 쓰나..."싶은 것들이 엄청 많긴 하더라구요;;;)
결과만 보셔도 원본이미지에 segmentation을 적용시킨 것보다 detection 전처리를 거친 데이터셋에 segmentation을 적용시키는 것이 훨씬 좋았다는걸 볼 수 있었습니다.
그외, detection으로 전처리된 이미지를 기반으로 추가실험을 진행했는데요.
해당 데이터에 기존 X-ray 전처리 기법을 적용시키면 segmentation 성능이 더 좋아진다는걸 확인할 수 있었습니다.
이러한 과정을 통해 들었던 생각은 다음과 같습니다.
- Segmentation 모델을 자체개발하는 것도 의미가 있습니다. 사실, 학계에서는 독창적이고 이론이 탄탄한 연구가 굉장히 중요하니까요.
- 하지만, segmentation, CNN 모델 또는 다른 모든 분야의 연구영역을 들여다보면, 베이스가 되는 모델이 나오고 난 후 진행되는 모델링 연구들에서 급격한 성능 향상을 기대하는 것이 힘든 경우가 많습니다 (물론 그렇다고 모델링 연구를 게을리 하자는건 아닙니다)
- 산업현장에서는 학계의 potential을 믿고 투자를 하지만, 산업현장에서는 즉시 모델 성능을 급격하게 향상시킬 다양한 방법들이 필요한 경우가 많습니다.
- 그렇기 때문에 딥러닝 학계에서도 다양한 전처리 관련 연구를 동시에 진행하면, 산업계로부터 좋은 반응을 얻지 않을까 라는 생각도 해봤습니다.
지금까지 딥러닝 모델을 기반으로 한 CXR 전처리 기법들에 대해서 알아봤습니다.
다음 글에서는 본격적으로 COVID-19 연구를 위해 어떤 기법들이 적용됐는지 말씀드리도록 하겠습니다.
'Medical AI research > COVID-19 image project' 카테고리의 다른 글
3-1. COVID-19 X-ray, CT 데이터 전처리 (Feat. N-CLAHE) (0) | 2021.06.11 |
---|---|
2. COVID-19의 영상학적 특징은 무엇이 있을까요? (3) | 2021.06.10 |
1. 왜 COVID-19을 영상학적으로 판단하나요? (0) | 2021.06.10 |