Future Perspective

진단검사 빅데이터 구축에 필요한
사전 표준화 작업

후원사 안내 Special Issue

김솔잎 / 민원기
울산의대 서울아산병원

우리의 일상에 빅데이터, 딥러닝, 인공지능을 활용하는 분야가 확대됨에 따라 의료에도 이러한 기술이 도입되면 의료의 질을 높일 수 있다는 기대감이 있다. 의료 분야에서 빅데이터 관련 연구도 폭발적으로 증가하여 ‘big data in healthcare’로 PubMed에서 검색되는 논문 수가 2021년에 800건을 넘어섰다.

김 등의 연구에 따르면 현재 빅데이터가 의료 분야를 바꿀 수 있다는 기대는 너무 이른데, 이는 의료의 빅데이터 양은 방대하지만 질이 낮아 연구나 임상실무에 활용하기 어렵다고 하였다[1]. 또한 그들은 의료 빅데이터를 개발하고 의료 환경에 적합하도록 만드는 노력이 필요하다고 하였다[1].

이번 글에서는 의료 빅데이터 중 큰 비중을 차지할 진단검사 빅데이터 구축에 필요한 사전 작업인 용어 표준(terminology standard), 데이터 형식 표준(data format standard), 계산식 표준(equation standard), 검사결과 표준화(result standardization) 및 일치화(result harmonization)와 동료 그룹(peer group)에 대한 정의, 검사결과 전이(transference) 방법 등에 대해 논의하고자 한다.

그림1진단검사 빅데이터 구축에 필요한 사전 표준화 작업

구축에 필요한 첫 번째는 검사 코드에 대한 표준화이다. 현재 각 기관에서는 진단검사의학 검사에 각자 만든 코드를 사용하고 있어서 빅데이터 연구를 하려고 데이터를 수집할 때 수집하려는 검사가 각 병원에서 어떠한 코드에 해당하는지 알 수 없다. 진단검사 의학 분야 대표적 국제표준 용어는 LOINC (Logical Observation Identifiers Names and Codes)이다. 대한진단검사의학회(이하 학회로 약함)에서는 LOINC의 필요성에 대한 홍보 및 교육을 실시하고 각 기관에서 쉽게 도입할 수 있는 자료를 제공하는 것이 필요하다. 또한 대한임상검사정도관리협회에서는 외부정도관리 사업을 실시하는 검사 종목에 대해 각 기관에서 사용하는 검사 코드를 입력하도록 하면 검사량의 대부분을 차지하는 다빈도 검사에 대한 LOINC 매핑과 상호 검증을 쉽게 할 수 있다. 이 매핑 자료를 학회를 포함한 의료계와 공유하게 되면 의료 빅데이터 구축에 큰 도움이 될 것이다.

두 번째는 검사결과 보고 단위, 결과 자릿수(정수 또는 소수점 자릿수)와 보고 형태에 대한 표준화이다. 조 등의 보고에 따르면 국내 임상화학검사의 검사결과 보고 단위와 자릿수는 표준화되어 있지 못하다[2]. 표준 검사코드를 사용하더라도 기관마다 단위를 다르게 사용한다면 결과 통합 분석에 오류가 생긴다. 심지어는 같은 기관에서 같은 검사 코드를 유지하면서도 시약 제조사가 바뀔 때 결과 보고 단위가 바뀌는 경우도 있으므로 주의를 요한다. 같은 표준검사코드에서 기관별로 단위와 자릿수가 통일되는 것이 통합 분석에 바람직하다. 정량 검사 보고 시에 측정범위를 벗어나는 결과에 대해 부등호를 함께 보고하는 경우가 많은데 측정범위를 벗어나는 결과의 보고 방식에 대해 학회의 가이드라인이 필요하다. 또한 정성검사에서 보고 방식의 표준화가 필요하다. 양성이라는 결과에 대해 각 기관에서는 “positive”, “pos”, “p”, “양성”과 같이 다양한 형태로 보고하고 있는데, 보고 방식이 다른 것은 빅데이터 수집 및 분석에 방해가 된다.

세 번째는 계산식에 대한 표준화이다. 계산으로 유도된 결과에 대해서는 어떤 공식을 사용했는지 분명히 명기해야 하고, 가능한 표준화된 계산식을 사용하는 것이 필요하고 여기에 대해서는 학회의 가이드라인이 있어야 한다. 음이온차(anion gap)의 경우 K+결과를 계산에 넣거나 넣지 않는 두 가지 방법이 임상 현장에서 모두 사용되는데 어떤 공식을 사용했는지 모르는 채로 이 결과가 빅데이터에 들어가면 분석 결과도 정확할 수 없다. 추정사구체여과율 공식도 여러 가지가 있고 공식에 따라 결과 차이가 크므로 어떤 공식인지 명확히 해야 하고 가능한 향후 학회가 제시하는 가이드라인에 따라 계산을 하는 것이 필요하다.

네 번째는 검사결과의 표준화 및 일치화 노력이다. 이 노력에 대해서는 많은 문헌이 있기에 여기서는 생략하고자 한다[3,4]. 현재 질병관리청과 학회는 크레아티닌, 당화혈색소 및 지질(총콜레스테롤, HDL콜레스테롤, LDL콜레스테롤, 중성지방) 검사에 대해 표준 검사법을 확립하고 표준물질을 생산하고 있다. 또한 이 검사 종목에 대해 참값이 있는 2차 표준물질로 제품의 정밀도와 정확도를 평가하는 체외진단제품 품질인증사업도 실시하고 있다. 국내에서 이와 같은 표준화사업 및 품질인증사업이 확대되어야 할 것이다.

다섯 번째는 동료그룹에 대한 정의이다. 우리는 표준화 및 일치화에 많은 노력을 하고 있지만, 현재 대부분의 진단검사의학 검사는 표준화 및 일치화가 되어 있지 않아서 검사 원리나 제조사(시약, 장비)에 따라 결과 차이가 크다. 따라서 빅데이터 분석을 할 때 원칙적으로 동료그룹 내에서만 자료를 통합 분석 할 수 있다. 예를 들어 대한임상검사정도관리협회에서는 일반화학검사는 검사 원리로 호르몬, 종양표지자 등의 면역화학검사는 제조사(시약, 장비)로 동료그룹을 정의하고 있다. 동료그룹이 아닌 검사를 통합 분석 하려면 동료그룹 간 결과 전이를 위한 기초자료 확보가 필요한데 아직 방법론이 확립되지 않았고 연구가 많지 않다.

여섯 번째는 후향적 결과 조정을 가능하게 하기 위한 기록을 남기는 것이다. 정량 검사의 경우 검사결과의 정확도를 높이기 위해 보정 물질 농도 값이 재설정 되는 경우가 있다. 각 환자 검사 결과 마다 보정 물질의 로트 번호와 보정 값에 대한 기록이 있다면 해당 결과를 빅데이터 분석에 활용할 때 보정 값 재설정 이전에 기 보고된 결과들도 조정해서 사용할 수 있다. 실제로 국민건강영양조사에서는 검사결과의 정확도를 유지하기 위해 학회의 도움을 받아 지질 검사 결과를 후조정 하고 있다. 후향적 결과 조정에 대한 정의와 방법을 학회에서 제시할 필요가 있다.
마지막으로 빅데이터 연구에 포함될 수 있는 신뢰성 높은 데이터로서의 진단검사결과 인증이 필요하다. 빅데이터 분석으로 의미 있는 결과를 얻기 위해서는 신뢰성이 보장된 진단검사의학 결과만 포함되어야 할 것이다. 누적된 외부정도관리 결과를 주기적으로 재분석 하고 보수적인 기준을 적용하여 평가함으로써 적절한 판단을 할 수 있을 것이다[5].

산업 3.0 시대에는 임상 의사의 머리 속 지식을 기반으로 처방을 하고 일련의 검사과정을 거친 후 다시 임상 의사의 머리 속 지식을 기반으로 결과를 활용했다. 이를 일명 ‘brain-to-brain loop’라고 불렀다. 그러나 산업 4.0 시대에는 빅데이터가 임상 의사의 머리 속 지식을 대신하여 판단하는 ‘big datato-big data loop’가 될 것이다. 빅데이터 시대를 준비 하기 위해 위에 언급한 내용들을 하나씩 해결해 나간다면 진단검사의학과가 의료 빅데이터 시대에 중요한 역할을 담당하리라 확신한다.

[참고문헌]
1. Kim el al., Medical Big Data Is Not Yet Available: Why We Need Realism Rather than Exaggeration. Endocrinol Metab (Seoul) 2019;34(4):349-354.

2. Cho et al., Current Status of Reporting Units and Unit Sizes of Quantitative Test Results of Clinical Chemistry in Korea. Lab Med Online 2022;12(4):292-303

3. Miller et al., Roadmap for harmonization of clinical laboratory measurement procedures. Clin Chem. 2011;57(8):1108-17.

4. Miller et al., Harmonization and Standardization: Where Are We Now? J Appl Lab Med. 2021;6(2):510-521.

5. Kim et al., Proposed Model for Evaluating Real-world Laboratory Results for Big Data Research. Ann Lab Med 2023;43(1):104-107.