March 2023
‘메이드인 코리아’ GPT-4-KAIST 기술경영학부 김병필 교수
챗GPT가 오직 영어나 서구권 언어만 이해한다고 오해하는 사례를 종종 본다. 한국어로 입력하면 영어로 번역해서 처리하고, 그 결과를 다시 한국어로 번역해 보여준다고 말이다.
하지만 실제로는 그렇지 않다. 챗GPT와 같은 대규모 언어처리 인공지능은 전 세계 수많은 언어를 구사한다. 인터넷의 방대한 자료를 학습한 덕분이다. 어느 나라 말이든 인터넷에 자료가 있다면 인공지능은 이를 배워 구사할 수 있다. 인터넷에 국경이 없는 만큼이나 인공지능에도 국경이 없다.
하지만 미국에서 개발된 챗GPT는 영어를 중심으로 구현돼 있다. 그래서 한국어 구사 능력은 영어보다 떨어진다. 얼마 전 발표된 GPT-4의 언어 이해 평가 점수는 영어가 가장 높았고, 한국어는 상대적으로 낮은 축에 속했다. 한국어 점수는 일본어보다 적잖게 낮고, 아이슬란드어와 비슷한 수준이었다. 심지어 아프리카에서 널리 쓰이는 스와힐리어보다 낮았다. 이는 GPT-4를 학습시키는 데 사용된 한국어 자료가 다른 나라 말만큼 풍부하지 못했기 때문일 수도 있고, 한국어의 고유한 특징을 제대로 반영하지 못했기 때문일 수도 있다.
그러니 한국어를 능숙하게 처리할 수 있는 인공지능은 우리 손으로 만들 필요가 있다. 다행히 많은 국내 기업들이 지난 수년 동안 한국어 처리를 위한 초거대 인공지능을 개발해 왔다. 챗GPT가 사회적으로 주목받기 이전부터 앞다투어 개발을 시작했으니, 앞으로 더욱 발전할 것으로 기대된다. 머지않아 ‘메이드인 코리아’ 인공지능의 한국어 성능은 GPT-4를 앞지를 수도 있다.
그러나 인공지능의 한국어 구사 능력이 영어만큼 우수해지기란 쉽지 않은 일이다. 영어와 한국어의 성능 격차를 줄이려면 어떻게 해야 할까. 언어처리 인공지능을 평생 연구해 온 동료 교수에게 물었다. 그 교수는 한국어 벤치마크의 필요성을 강조했다. 인공지능의 성능과 안전성을 평가할 기준이 적절하게 마련돼야 한다는 것이다.
자동차를 평가할 때 가속시간, 연비, 제동거리 같은 성능 지표와 안전 시험점수를 활용하는 것과 마찬가지다. 자동차를 잘 만들려면 좋은 성능 시험장을 지어야 하는 것처럼, 인공지능을 시험하는 벤치마크 데이터가 구축되고 시험 방법이 잘 마련될 필요가 있다. 그래야 개발자들이 인공지능의 성능을 개선할 수 있게 된다.
언어처리 인공지능을 종합적으로 평가하는 데 지난해 스탠퍼드대학이 발표한 HELM 벤치마크가 주목받고 있다. 현재 총 42가지 활용 시나리오에 대해 57개 지표를 활용해서 인공지능에 점수를 매긴다. 인공지능이 인간의 지시를 얼마나 정확하게 처리하는지, 얼마나 빠르게 처리하는지 등 다양한 성능을 시험한다.
더욱이 인공지능의 안전성까지도 함께 고려한다. 이용자의 악의적인 공격에 대해 얼마나 강건성을 유지하는지, 허위 정보를 쉽게 생성하는지, 인공지능의 답변에 고정관념이나 편향이 반영돼 있는지, 유해한 표현을 얼마나 잘 걸러낼 수 있는지, 전력 소모가 얼마나 되고 이산화탄소를 얼마나 배출하는지도 종합적으로 평가한다.
한국어 인공지능에 대해서는 이러한 벤치마크가 매우 부족한 실정이다. 인공지능이 한국 역사나 문화를 이해하고 우리 사회의 맥락에서 적절한 답변을 생성해 내는지를 평가할 방법이 필요하다. 말의 앞뒤 맥락을 잘 파악해야 그 의미를 정확히 알 수 있는 한국어 소통의 특징을 이해하고 반응할 수 있어야 한다. 온라인에 유포된 그릇된 정보나 관념을 반영한 결과를 생성하지 않는지, 사회적으로 논쟁이 되는 주제를 그저 회피하지 않고 이용자에게 도움이 되는 답변을 제공할 수 있는지도 평가할 수 있어야 한다.
벤치마크 개발 과정에서 공신력 있는 기관이 표준이 되는 기준을 제정하는 일도 필요하지만, 다양한 주체가 벤치마크를 개발하도록 지원하는 것도 중요하다. 언어처리 인공지능은 다양한 영역에서 활용될 것이고, 그 활용 영역에 맞는 벤치마크가 필요하기 때문이다. 예컨대 과학 논문의 전문용어를 잘 이해하고 맥락에 맞게 번역하는 작업은 회사에서 업무 회의 내용을 요약하는 일과 사뭇 다르다.
그러니 다양한 업무에서 한국어 인공지능이 빛을 발할 수 있도록 ‘맞춤형’ 벤치마크가 충분히 마련돼야 한다. 이러한 벤치마크를 바탕으로 ‘메이드인 코리아’ 인공지능의 한국어 실력이 GPT-4의 영어 능력을 넘어서서 세계 최고 수준에 도달하게 되는 날을 기대해본다.