Future Perspective

ChatGPT에 대한 오해

인사말 Laboratorian interview

신성환 인제대학교 일산백병원

OpenAI가 ChatGPT를 발표한 이후, 일반인들도 ChatGPT를 경험하면서 인공지능이 보여주는 미래에 대한 간접 체험을 하게 되었습니다.
기존의 기계학습(Machine Learning)과 딥러닝(Deep Learning)이 해당분야에 관심이 많은 전문가들의 영역이었다면,
ChatGPT는 우리가 일반적으로 사용하는 언어를 이용한 대화형식으로도 다양한 문제를 해결할 수 있음을 보여주었습니다.
ChatGPT가 보여주는 성능은 놀랍지만, 한계도 분명히 있습니다.
이 글에서는 흔히 하는 몇가지의 질문과 그에 대한 답을 통해 ChatGPT의 특징과 동시에 ChatGPT의 한계에 대해 알아보도록 하겠습니다.

Q. ChatGPT 는 창의적인 작업을 할 수 있는 인공지능 일까? 일반적으로 인공지능이라 하면 인간의 학습 능력과 추론 능력, 지각 능력 등을 컴퓨터 프로그램으로 구현한 기술로서, 기계학습(Machine Learning)과 딥러닝(Deep Learning)을 모두 포함하는 넓은 개념입니다. 그럼 기계학습과 딥러닝은 무슨 차이가 있을까요? 두 기술의 가장 큰 차이는 바로 사람의 개입 여부입니다(Fig. 1).

▶ 언어모델 (Language Model) 언어 모델은 단어들의 순서에 확률을 할당합니다. 단어들이 존재하면, 그 다음 단어가 무엇일지 예측하는 것이 언어 모델이 하는 가장 기본적인 기능입니다. 가장 간단한 예로, 구글에서 검색을 하기 위해 타이핑을 하면 다음 글자 혹은 단어가 무엇일지 추천을 합니다(Fig. 1.). 앞의 단어들을 이용하면 뒤에 무슨 단어가 올 것인지 예상할 수 있는 것이죠. ChatGPT는 transformer 아키텍처에 기반한 LLM(Large Language Model)인데, 기술적인 면까지 우리가 자세하게 이해할 필요는 없습니다. 다만 알아야 할 것은 ChatGPT가 주는 답은 수많은 text를 통해 경험적으로 얻은 확률적인 답변이라는 것입니다. 이를 설명하는 유명한 사례가 “Reversal Curse” 인데, “A is B”라는 수많은 text들을 통해 훈련이 되어도 “B is A” 라는 것은 추론하지 못한다는 것입니다. “A is” 이후에 “B” 라는 단어가 오더라 하는 것만 알고 있다는 것입니다. 다르게 표현하자면 질문을 뒤집어 하면 제대로 답을 하지 못한다는 뜻입니다. GPT-4는 “Who is Tom Cruise’s mother?” 라는 질문에는 Mary Lee Pfeiffer 라고 답을 하지만 반대로 “Who is Mary Lee Pfeiffer’s son?” 라는 질문에는 답을 하지 못합니다. 학습에 사용된 데이터의 대부분 글들은 Tom Cruise의 어머니가 누구이다 라는 글이었기 때문입니다.

Fig 1 구글에서 검색시 다음 단어를 예측하는 모습

위에서 ChatGPT는 사람의 창의력을 능가하는 모습을 종종 보여주기도 한다고 하였는데, 사실 그 창의성은 학습된 데이터 어딘가에 숨어 있던 데이터를 이용한 답입니다. 운율을 맞춘 시를 작성하는 모습도 사실은 해당 단어들의 조합을 어디선가 보았기 때문이라는 뜻입니다. 하지만, 어딘가에서 본 단어들의 조합을 모아서 새로운 시를 작성하는 것도 창의력이라고 정의한다면, ChatGPT는 창의적인 작업을 할 수 있는 것이 맞습니다. 일상생활에 필요한 창의성은 대부분 기존 지식의 응용을 새롭게 잘 하는 형태인 경우가 많은데, 이러한 작업에는 사람보다 월등한 성능을 보일 수 있습니다. 하지만 만약 창의적인 작업을 세상 누구도 하지 않았던 새로운 내용을 만드는 것이라고 정의한다면, ChatGPT는 창의적인 작업을 하기에는 부족할 것입니다.

Q. ChatGPT는 사람을 대체할 수 있을까? 대답하기 어려운 질문이지만 역시 대답은 아직까지는 “아니오” 입니다. 하지만, 첫번째 질문과 마찬가지로, 제한적으로 사람을 대체하는 작업에는 “예” 라고도 답을 할 수 있습니다. 역시 몇가지 사례를 통해 ChatGPT가 하지 못하는 일들을 이야기해 보겠습니다.

ChatGPT는 대표적으로 반사실적(counterfactual)인 작업을 수행해야 하는 경우들에 대해서 성능이 떨어진다고 알려져 있습니다. 예를 들어 ChatGPT는 10진수 기반의 덧셈을 하는 것은 정확하게 수행을 잘 하지만, 9진수 기반으로 덧셈을 하도록 하면 성공율이 떨어집니다(Fig. 2.). 우리들에게 잘 알려진 (혹은 인터넷 어딘가에 등재된) 퍼즐들의 답은 정확하게 잘 맞추지만, 퍼즐을 조금만 바꾸어 문제를 내면 잘못된 답을 주는 경우가 많습니다. 위에서 언급한 바와 같이, LLM은 논리에 기반한 사고를 하는 것이 아니라, 학습된 경험에 의해서 답을 준다는 사실 때문입니다.

Fig 2 GPT4가 반사실적 작업에 대해 보이는 성능 (출처: Ref 2)

그동안 ChatGPT는 다양한 분야의 작업에서 매우 빠른 속도로 사람이 하는 작업을 대체할 수 있음을 보여주었습니다. 하지만 여전히 ChatGPT를 비롯한 LLM 들은 그 작동 원리로 인해 제한적인 분야에서만 월등한 성능을 보이는 것도 사실입니다. ChatGPT가 가장 성능을 보일 수 있는 분야는 아마도 이미 알려진 사실들을 이용하여 빠르게 정보를 재생산하는 작업과 관련된 일이 될 것입니다. 예를 들어 의학 정보 혹은 법학 정보를 이용하여 의사 국가고시나 변호사 시험을 통과하는 것이 대표적인 사례가 될 수 있습니다. 우리가 단순하고 반복적인 작업을 대신해줄 조수를 찾는다면, ChatGPT는 누구보다도 훌륭하게 작업을 수행할 수 있고, 사용자는 그 시간을 반복적인 업무 대신 더 가치 있는 일에 사용할 수 있을 것입니다.

ChatGPT를 비롯한 LLM 들이 놀라운 속도로 발전하고 있고, 작동원리에서 오는 한계를 극복하기 위한 노력도 지속되고 있습니다. 하루가 멀다 하고 ChatGPT를 비롯한 LLM들과 관련한 새로운 뉴스가 나오는 것을 보며, 당장 오늘과 1년뒤만 비교해보아도 다른 세상일 것이라는 생각이 듭니다. 과거 산업혁명, 디지털혁명이 노동자의 계층을 가르는 새로운 기준들을 제시하였던 것처럼, 인공지능혁명 역시 사람들이 일하는 방식에 많은 영향을 줄 것입니다. 새로운 인공지능 도구들을 사용하는 것이 퍼포먼스에 큰 차이를 만드는 시대에서 ChatGPT와 같은 도구를 잘 이해하고, 이들의 작업 한계에 대해서도 명확하게 인식하는 것이 개개인의 업무 능률에도 큰 도움이 될 것입니다.

References
1. The Reversal Curse: LLMs trained on “A is B” fail to learn “B is A”. Available from: https://arxiv.org/abs/2309.12288v2
2. Reasoning or Reciting? Exploring the Capabilities and Limitations of Language Models Through Counterfactual Tasks.
Available from: https:// arxiv.org/abs/2307.02477