Future Perspective

진단검사 결과 해석에 사용할 수 있는 딥러닝 기술

인사말 학술대회 스케치

이준형 GC녹십자의료재단

2016년 알파고(AlphaGo)가 일으킨 인공지능(AI) 붐이 작년부터 시작된 챗GPT (ChatGPT) 열풍으로 산업계 전반을 뒤흔들고 있습니다.
우리 의료계도 예외일 수 없어서 다양한 의료업무를 보조할 수 있는 인공지능 프로그램이 개발되고 있습니다. 영상의학, 병리학 등 이미지 기반의 자료를 다루는 분과는 이미 AI 프로그램을 활발히 사용하고 있고, 우리 진단검사영역에도 AI의 혁신은 코앞으로 다가왔습니다.
이 글에서는 다른 산업 및 의학계에서 이미 활발히 사용하고 있고, 우리 진단검사 업무에도 적용 가능한 인공지능 기술 중 특히 딥러닝(deep learning) 기술에 대해 말씀드리고자 합니다.

1. Deep Learning 일반적으로 인공지능이라 하면 인간의 학습 능력과 추론 능력, 지각 능력 등을 컴퓨터 프로그램으로 구현한 기술로 서, 기계학습(Machine Learning)과 딥러닝(Deep Learning)을 모두 포함하는 넓은 개념입니다. 그럼 기계학습과 딥러닝은 무슨 차이가 있을까요? 두 기술의 가장 큰 차이는 바로 사람의 개입 여부입니다(Fig. 1).

머신러닝은 주어진 데이터를 사람이 먼저 처리합니다. 사람이 먼저 분석을 수행한 후 컴퓨터에게 특징(feature)을 추출하는 방법을 지시하고, 그 이후 컴퓨터가 주어진 데이터에서 정해진 특징을 분석하고 축적합니다. 이렇게 축적된 데이터를 바탕으로 문제를 해결하는 것입니다. 예를 들어 자동차의 사진을 보고 자동차로 인식하게 되는 특징 (직사 각형 윤곽, 동그란 타이어, 창문이 달린 문 등)을 추출한 후 많은 예시를 통해 컴퓨터를 학습시키면 컴퓨터는 다른 물체와 자동차를 구별할 수 있게 됩니다.

Fig 1 기계학습(Machine Learning)과 딥러닝(Deep Learning)의 비교

<출처: https://www.iteratorshq.com/blog/machine-learning-vs-deep-learning-the-ultimate-comparison>

반면에 딥러닝은 머신러닝에서 사람이 하던 특징 추출 작업이 생략됩니다. 어떻게 하라는 구체적인 지시 없이 문제와 답만 주고 (대신 이 문제와 답을 아주 많이 주고) 반복학습을 시키면 컴퓨터는 문제해결을 위한 신경망을 만들어서 그 ‘어떻게’의 방법을 스스로 수립합니다. 즉, 머신러닝에서는 사람이 사전에 알려준 자동차의 특징을 기반으로 자동차와 다른 물체를 구별해 낼 수 있었다면, 딥러닝에서는 자동차 사진과 자동차가 아닌 사진을 가지고 반복학습을 통해 컴퓨터가 스스로 자동차를 구별하는 특징을 찾아내고 이를 기반으로 자동차를 다른 물체와 구별할 수 있게 되는 것입니다.

2. 이미지 처리의 CNN (Convolutional Neural Network) 딥러닝에서 신경망(neural network)을 구성하는 방식은 다양하며, 그 방식에 따라 문제를 해결하는 능력이 달라집 니다. 따라서 신경망 구성 방식이 신경망 학습에 매우 중요합니다.

합성곱 신경망(convolutional neural network, CNN)은 1998년 얀 레쿤 교수가 소개한 이래로 널리 사용되고 있는 신경망으로, 이미지 인식 분야의 은총알(silver bullet)이라고 불리며 강력한 성능을 자랑하고 있습니다.

Fig 2 합성곱 신경망(CNN)의 원리

<출처: https://developersbreach.com/convolution-neural-network-deep-learning>

CNN 모델은 기본적으로 컨볼루션 계층(convolution layer)과 풀링 계층(pooling layer)으로 구성됩니다(Fig. 2).
이 계층들을 얼마나 많이, 또 어떠한 방식으로 쌓느냐에 따라 성능 차이는 물론 풀 수 있는 문제가 달라집니다. 이렇게 컨볼루션과 풀링 계층을 중첩하여 신경망의 은닉층(hidden layer)을 만들면 방대한 양의 원본 이미지가 아닌 구분을 위한 중요 특징만 집약된 데이터로 학습을 수행할 수 있으며, 이는 컴퓨터가 처리해야 할 계산량을 줄여서 더 빠르고 효율적으로, 더 많은 자료를 학습할 수 있게 해줍니다.

그럼 이런 CNN기술이 진단검사 영역에 어떻게 활용될 수 있는지 구체적인 예를 하나 살펴보겠습니다. 2023년 Clinical Chemistry에는 딥러닝을 이용하여 면역고정전기영동(Immunofixation Electrophoresis, IFE) 결과를 해석하는 CNN 기반 인공지능을 개발한 결과가 게재되었습니다. 이 연구에서 저자들은 총12,703개의 IFE 이미지를 학습에 사용하였고, VGG-16, ResNet-18, MobileNet-V2 등의 CNN 알고리즘을 사용하였습니다. IFE 이미지의 8가지 패턴 (IgA-κ, IgA-λ, IgG-κ, IgG-λ, IgM-κ, IgM-λ, light chain κ 및 λ)을 구분하는 이 AI 모델의 성능은 정확도 99.82%, 민감도 93.17%, 특이도 99.93%에 이르렀는데 이는1년 미만의 경력을 가진 사람의 판독능력을 훨씬 능가하고, 5년 이상의 경력을 가진 전문가에 준하는 수준이라고 합니다(Fig. 3 & 4).

Fig 3 AI 모델의 IFE 판독 결과를 시각적으로 설명하는 사진

Fig 4 사람(판독 전문가)과 비교한 AI 모델의 성능

<출처: Hu H, Xu W, Jiang T, Cheng Y, Tao X, Liu W, et al. Expert-Level Immunofixation Electrophoresis Image Recognition based on Explainable and Generalizable Deep Learning. Clin Chem 2023;69:130-9.>

3. 자연어 처리의 RNN (Recurrent Neural Network) 이미지 인식에 CNN이 있다면, 자연어 인식에는 순환 신경망이라고 부르는 RNN (Recurrent Neural Network)이 있습니다. RNN은 상태가 고정된 데이터를 처리하는 다른 신경망과 달리 자연어 처리나 음성 인식처럼 순서가 있는 데이터를 처리하는 데 강점을 가집니다.

CNN과 같은 신경망은 은닉층의 활성화 함수를 지난 정보가 출력층으로 오직 단방향으로 향하며, 이를 피드 포워드 신경망(Feed Forward Neural Network)이라고 합니다. 그러나 RNN에서는 은닉층의 노드에서 활성화 함수를 거친 정보가 출력층 방향으로 흐르면서, 다시 은닉층 노드의 다음 계산의 입력으로도 사용되는 특징을 갖고 있습니다 (Fig. 5).

Fig 5 순환 신경망(RNN)의 원리

<출처: https://medium.com/analytics-vidhya/rnns-lstms-cnns-transformers-and-bert-be003df3492b>

이처럼 앞이나 뒤의 정보에 따라 전체의 의미가 달라지거나, 앞의 정보로 다음에 나올 정보를 추측하려는 경우에 RNN을 사용하면 다른 신경망 보다 우수한 결과를 얻을 수 있습니다. 입력값과 출력값을 질문과 대답으로 구성하면 챗봇을 만들 수 있고, 입력값과 출력값을 각각 입력문장과 번역문장으로 만들면 번역기를 만들 수도 있습니다. 이외 에도 내용 요약(Text Summarization), STT (Speech to Text) 등에도 쓰일 수 있습니다.

Chat GPT (Generative Pre-trained Transformer)의 경우 RNN에서 더욱 발전된 transformer라는 기술을 사용하였습니다. Transformer는 Attention 메커니즘을 이용하여 중요한 정보에 집중하도록 하고 병렬처리를 가능하게 해서 효율성을 향상시켰습니다. 이전 세대의 자연어 처리 기술인 RNN/LSTM/Seq2Seq을 훨씬 능가하는 transformer의 성능 덕분에 GPT3.5부터는 일반인이 기대하는 수준 이상의 성능을 보이게 되었고, 최근의 AI 붐을 일으키게 되었습니다.

진단검사 영역에서 ChatGPT의 활용 가능성을 올해 Clinical Chemistry and Laboratory Medicine에 게재된 유럽 임상화학 및 진단검사의학 연맹(EFLM) 실무그룹(WG-AI)의 연구를 가지고 살펴보겠습니다. “진단검사의학 검사 결과 해석을 위한 ChatGPT 및 자연어 인공지능 모델의 잠재력과 함정”이라는 제목의 이 연구는 ChatGPT를 진단검사 결과 해석에 사용할 수 있는지 평가한 연구입니다. 저자들은 가상의10 케이스의 진단검사 결과를 만들어 참고 구간(RI) 및 단위와 함께 ChatGPT v4.0에게 제공하고 ChatGPT가 생성한 검사결과 해석을 관련성(relevance), 정확성(correctness), 유용성(helpfulness), 안전성(safety) 네 가지 항목에 대해 6점 척도로 평가했습니다.

Fig 6 ChatGPT가 생성한 검사결과 해석의 예

<출처: Cadamuro J, et al. Clin Chem Lab Med 2023;61:1158-66.>

Fig 7 EFLM WG-AI 그룹의 ChatGPT 평가 결과

<출처: Cadamuro J, et al. Clin Chem Lab Med 2023;61:1158-66.>

그 결과 ChatGPT는 모든 진단검사 결과를 인지하였고 RI에서 벗어나는지 평가하고 개별 테스트에 대한 해석 뿐만 아니라 종합해석까지 제공하였습니다. 평가 점수는 6점 만점에 중앙값 기준으로 안전성(safety) 6점, 유용성 (helpfulness) 4점, 관련성(relevance) 6점, 정확성(correctness) 5점으로 상당히 양호했습니다. 물론 ChatGPT 의 해석은 상당히 추상적이고, 일부 오류도 있었으며, 더 나아가 경과 추적이나 추가 검사에 대한 구체적인 제안은 없었습니다. 저자들은 의학 분야에 대해 전문적으로 학습시키지 않은 상태인 현재의 ChatGPT는 개별 결과의 해석에 사용해 볼 수 있는 정도의 수준이지만 전체 검사결과의 종합적인 해석에는 적합하지 않다고 결론지었습니다. 그럼에도 불구하고 의학 지식을 전문적으로 학습할 미래의 AI는 의료분야의 업무 프로세스에 혁명을 일으킬 것으로 예상했습니다.

맺음말
지금까지 딥러닝의 주요 기술인 CNN과 RNN 그리고 그 적용 사례에 대해서 살펴보았습니다. 진단검사의학 영역에서는 다양한 이미지 결과를 해석하는데 CNN을 적용할 수 있고, 검사결과 판독문 또는 해설 같은 텍스트 형태의 결과를 생성하 거나 기존 텍스트 데이터에서 중요 정보를 추출 및 요약하는데는 RNN 기술을 적용할 수 있습니다. CNN과 RNN 외에도수 많은 딥러닝 알고리즘이 개발되어 활용되고 있습니다. 이러한 인공지능 기술을 적극적으로 활용한다면 임상검사실의 업무 효율을 높이고, 더 큰 부가가치를 창출할 수 있을 것으로 기대합니다.

References
1. Convolutional Neural Network (CNN) | TensorFlow Core. TensorFlow. Available from: https://www.tensorflow.org/tutorials/images/cnn
2. Hu H, Xu W, Jiang T, Cheng Y, Tao X, Liu W, et al. Expert-Level Immunofixation Electrophoresis Image Recognition based on Explainable and Generalizable Deep Learning. Clin Chem 2023;69:130–9.
3. Text generation with an RNN | TensorFlow. Available from: https://www.tensorflow.org/text/tutorials/text_generation
4. Cadamuro J, Cabitza F, Debeljak Z, De Bruyne S, Frans G, Perez SM, et al. Potentials and pitfalls of ChatGPT and natural-language artificial intelligence models for the understanding of laboratory medicine test results. An assessment by the European Federation of Clinical Chemistry and Laboratory Medicine (EFLM) Working Group on Artificial Intelligence (WG-AI). Clin Chem Lab Med 2023;61:1158–66.