부족한 데이터로 하는 딥러닝, 전이 학습
글. 유원준 사원(코스콤 데이터오피스사업부)
AI에 관심이 없다 할지라도 ‘알파고(Alphago)’라는 이름은 우리에게 이미 너무나 친숙한 이름이다. 이세돌 9단과의 경기로 유명해진 알파고는 AI는 먼 미래의 기술이라고 생각했던 우리에게 AI에 대한 무궁한 가능성을 보여주었다. 거기에 더해 기존 알파고와의 경기에서 100전 100승을 거두었다는 더 뛰어난 인공지능인 ‘알파고 제로’의 등장은 다시 한 번 사람들에게 AI에 대한 관심사를 불러일으켰다.
기존의 알파고는 방대한 양의 프로 기사들의 바둑 기보 데이터를 학습하여 바둑을 익힌 인공지능이다. 이러한 ‘알파고’에게 압승을 거둔 ‘알파고 제로’는 기보 데이터 없이도 바둑을 익힌 인공지능으로, 인간의 지식을 얻지 않고도, 뛰어난 인공지능을 만들 수 있다는 것을 보여준다. 이러한 알파고 제로의 훈련 방식을 강화 학습(Reinforcement Learning)이라 한다.
강화 학습
딥 러닝의 한 갈래인 강화 학습은 ‘보상을 최고로 많이 받는 방향으로 학습하는 인공지능’이다. 만약, 강화 학습을 통해서 바둑을 학습한다면 상대방을 이기는 경우에 보상을 받으므로 인공지능은 바둑을 이기기 위해서 반복 학습하여 스스로를 강화시킨다. 알파고와 알파고 제로의 가장 큰 차이는 알파고는 사람의 기보 데이터를 익힌다는 점이고, 알파고 제로는 데이터가 없는 백지 상태에서 강화 학습을 했다는 점이다. 인간의 데이터 없이 인공지능이 학습할 수 있다는 것은 어쩌면 인간이 풀지 못했던 난제조차도 해결할 수 있다는 잠재 가능성에 대한 기대감으로 이어진다.
알파고를 만든 아버지로 불리는 데미스 하사비스(Demis Hassabis)는 알파고의 다음 버전인 알파고 제로(Alphago Zero)를 내놓으며 ‘전이 학습이 인간 수준의 인공 지능으로 가는 미래를 위한 열쇠’라고 언급하기도 했다. 그러나 현 시점의 강화 학습은 모든 분야에서 적용하는 것에 한계가 있다고 보인다. 인공지능이 인간의 인지까지는 모방할 수 없기 때문에, 보상이 확실하게 주어질 수 있는 게임과 같은 분야에서는 강화 학습이 강력한 솔루션이지만, 그렇지 않은 분야에서는 강화 학습을 적용하기 어렵기 때문이다.
결국 강화 학습이 대안이 되지 못하는 상황에서 방대한 데이터가 없다면, 현실적으로 성능이 우수한 딥 러닝 학습이 어렵다는 문제점에 다시 도달하게 된다. 이러한 문제점을 타계하기 위해서 최근 데이터가 부족한 분야에서 두각을 드러내고 있는 방법이 바로 ‘전이 학습(Transfer Learning)’이다.
전이 학습
전이 학습은 방대한 양의 데이터로 이미 학습된 인공지능을 유사하지만 다른 분야에 적용하는 방법이다. 현재 컴퓨터 비전과 자연어 처리 등의 다양한 인공지능 분야에서 최고 성능을 얻으며 주류로 떠오르고 있다.
예를 들어, 양식을 만드는 요리사 인공지능을 만들고 싶은데 양식을 만드는 조리법 데이터가 매우 적다면, 양식을 잘 만드는 인공지능을 만드는 것은 현실적으로 어렵다. 그런데 이미 한식을 굉장히 잘 만드는 인공지능이 존재하고 있다면, 이 인공지능은 아주 적은 양식 조리법만으로도 굉장히 양식을 잘 만드는 인공지능이 될 수 있다.
전이 학습은 마치 특정 분야의 지식에 능통한 사람이 비슷한 분야에도 빠르게 적응할 수 있는 특성과 닮았다. 실제로 요리사는 새로운 요리도 빠르게 익힐 수 있고, 이미 특정 프로그래밍 언어에 익숙한 개발자는 다른 프로그래밍 언어도 빠르게 사용할 수 있는 것과 닮았다.
전이 학습의 강점은 데이터가 부족한 분야에도 높은 성능을 얻을 수 있다는 점이다. 스탠퍼드 대학교의 연구진은 인공위성 촬영 데이터와 전이 학습을 사용하여 아프리카 국가들의 빈곤 지도를 만들었다. 빈곤 데이터는 일반적으로 매우 부족하다. 빈곤과 관련된 조사는 대부분 현장에서 이루어지고, 오류도 많아서 실제 예측 자료로 삼기도 어렵다. 연구진은 이를 보완하고자 인공위성 데이터를 연구하기 시작했다. 야간의 조명 밝기를 통해 부의 분포를 나타내는 데이터로 본 것이다. 그러나 이 데이터는 선진국과 개발도상국의 차이는 나타낼 수 있었던 반면, 빈곤 지역의 빈곤 차이를 나타내기에는 한계가 있었다.
연구진은 이 한계를 극복하고자 많은 야간 조명 데이터를 활용한 전이 학습 모델을 사용했다. 이러한 모델에 고해상도의 주간 위성 사진을 결합하여 수로, 농지, 도로 등 빈곤과 연관할 수 있는 개체들을 찾아내는 알고리즘을 만들어낼 수 있었다. 이 알고리즘은 개체들의 특징을 찾아내서 빈곤 지역의 야간 조명을 예측하고, 낮과 밤의 2개의 데이터 세트를 비교하여 빈곤 지역을 이전보다 세부적으로 파악할 수 있음을 증명하였다.
전이 학습을 활용한 AI 모델은 스마트폰으로 이용할 수 있는 간단한 앱으로도 개발된 바 있다. 카사바는 열대지방에서 가장 중요한 식량 중 하나로, 뿌리는 삶아 먹기도 하고, 타피오카로 불리는 전분으로 가공하여 널리 사용하기도 한다. 중요한 만큼 안정적인 생산과 공급이 뒷받침되어야 하지만, 바이러스에 취약한 작물이기도 하다. 질병은 매년 카사바 농가에 천문학적인 경제적 손실을 안긴다.
펜실베이니아 주립 대학교와 구글의 AI 프로젝트팀인 구글 브레인 팀은 스마트폰을 통해 카사바의 질병을 진단할 수 있는 앱을 개발했다. 해당 앱은 구글이 개발한 오픈소스 머신러닝 기술인 텐서플로우(TensorFlow)를 활용했으며, 구글의 여러 앱에 적용된 기술이다. 구글은 2017년 5월 스마트폰에서 구동하는 효율적인 머신러닝 모델의 개발에 도움을 주는 프레임워크인 ‘텐서플로우 라이트(TensorFlow Lite)’를 발표하기도 했다. 이때부터 AI가 모바일에 담겼다.
문제는 AI가 질병을 진단하려면 수많은 카사바 잎의 사진이 필요하다는 점이다. 머신러닝으로 개와 고양이를 구분하고자 수백만 개의 개 사진이 필요한 것처럼 말이다. 그러나 질병에 걸린 카사바 잎 사진은 수백만 개나 되지 않는다. 그래서 전이 학습을 활용했다.
연구진은 탄자니아의 카사바 농장에서 2,756개의 카사바 사진을 확보했다. 그리고 전이 학습 모델을 사용하여 카사바 갈색 줄무늬 병(Cassava brown streak virus disease; CBSD)과 카사바 모자이크 바이러스(African cassava mosaic virus; ACMV)를 구분하도록 AI를 훈련했고, AI는 98%의 정확도로 갈색 잎, 96% 정확도로 붉은 잎 진드기를 확인했다.
카사바 질병 진단 앱
앞서 말한 ‘카사바 질병 진단 앱’이 그렇게 멋진 기술로 보이지 않을 수도 있다. 식물의 질병을 스마트폰으로 진단하는 사례는 이전에도 있었으니까. 하지만 2,756개의 사진은 매우 부족한 데이터이다. 그런데도 AI가 높은 정확도로 질병을 확인할 수 있다는 건 의미 있는 성과라 할 수 있다. 이제 카사바뿐만 아니라 데이터가 부족한 다른 작물의 질병을 진단하는 데에도 해당 모델을 활용할 수 있고, 작물의 질병을 진단할 능력과 비용이 부족한 여러 농가에 큰 도움이 될 테니 말이다. 이 밖에도 전이 학습은 의료 분야 등에서 유용한 AI를 학습시키는 데에 활용되고 있다. 구글은 당뇨성 망막병증의 진단에, 스탠퍼드 대학은 피부암 발견에 전이 학습을 시킨 AI를 사용하여 우수한 정확도를 보였다. 카사바 진단 사례처럼 의료 환경이 좋지 않은 지역이나 병원에서도 AI를 통해 높은 정확도의 질병 진단 방법에 접근할 수 있을 테고, 관심이 적거나 많은 양의 데이터를 확보하지 못한 질병의 진단에 AI를 활용하고 있다.
전이 학습의 가능성: 역사상 가장 뛰어난 인공지능 GPT-3
자연어 처리란 인간이 사용하고 있는 음성이나 텍스트를 자연어라 명명하고, 이러한 자연어를 처리하는 분야를 말한다. 우리가 흔히 인공지능을 생각할 때, 사람과 대화할 수 있는 인공지능을 상상한다는 점에서 자연어 처리는 우리가 생각하는 궁극적인 인공지능 기술에 도달하기 위해서 반드시 정복해야 하는 분야일 것이다. 자연어 처리는 음성 인식 스피커, 구글 번역기, 텍스트 요약기, 감성 분석 등 다양한 분야에서 사용되고 있다. 자연어 처리와 대비되는 분야로는 컴퓨터 비전 분야가 있다. 컴퓨터 비전 분야는 언어를 다루는 자연어 처리와는 달리 이미지나 동영상을 다루는 분야를 말한다. 수만 장의 사진 또는 동영상으로부터 원하는 인물이나 사물을 찾아내는 것이 대표적인 컴퓨터 비전의 예라 할 수 있다.
이미 2010년대 초반부터 전이 학습을 통해 컴퓨터 비전은 빠르게 성장해왔다. 방대한 데이터로 학습된 컴퓨터 비전 모델들은 유사하지만 여러 다른 태스크에 적용했을 때, 이미 인공지능이 사람보다 뛰어나다는 평가를 받아왔다. 반면, 자연어 처리는 컴퓨터 비전에 비해 그 발전 속도가 더디고, 아직 갈 길이 멀다는 평이었다.
자연어 처리에서도 전이 학습이 본격적으로 주목받기 시작한 것은 구글이 2018년에 공개한 BERT(Pre-training of Deep Bidirectional Transformers for Language Understanding)라는 모델을 통해서였다. 물론, 그 전에도 ELMo나 GPT와 같은 전이 학습 모델들이 있었기에 BERT가 탄생할 수 있었지만, BERT가 얻어낸 뛰어난 성능들은 인공지능 연구자들에게 새로운 충격을 안겨주었다.
BERT는 쉽게 설명하면 방대한 양의 인터넷 텍스트 자료인 위키피디아와 북스코퍼스를 인공지능이 모두 학습(쉽게 비유하면 독서)하도록 한 뒤에, 이제 인간의 언어를 어느 정도 이해했다고 판단되는 이 인공지능에게 감성 분류나 텍스트 요약 등 이 인공지능이 해본 적 없던 다양한 자연어 처리를 시켰을 때, 다른 인공지능들보다 높은 성능을 얻어낸다는 아이디어를 가지고 있다. 방대한 데이터를 통해 일반적인 언어 지식을 학습한 인공지능은 언어와 관련된 일을 시켰을 때도 훨씬 잘할 것이라는 아이디어가 반영된 것이다.
BERT가 여러 자연어 처리 분야에서 최고 성능을 얻은 후, 근 2년간 전이 학습은 이제 비단 컴퓨터 비전 분야뿐만 아니라 자연어 처리에서도 주류 방법으로 사용되기 시작했다. 그러던 중 그 정점을 찍은 것은 지난 6월 1일 Open AI가 공개한 인류 역사상 가장 뛰어난 인공지능이라 평을 받는 ‘GPT-3(Generative Pre-Training 3)’이다. GPT-3는 BERT와 경쟁 관계에 있던 전이 학습 모델인 GPT의 세번째 버전으로 무려 3000억 개의 데이터를 학습하고, 인공지능 학습 비용만 약 50억~150억으로 추정되는 대형 모델이다. GPT-3의 성능은 놀랍다 못해 경이롭다 할 만하다.
파이널판타지6(게임 이름)의 보스 캐릭터의 이름이나 특정 유튜브 채널의 이름을 물으며 “누군지 아느냐?”와 같은 뜬금없는 질문에도 정확하게 대답할 뿐만 아니라, 의학이나 법률 지식을 묻는 어려운 질문에도 척척 대답한다. 답변만 잘하는 것이 아니다. 글도 작성할 수 있어서, 소설을 써 달라고 하면 대신 소설을 작성해주고, 웹 사이트를 만들어 달라는 요청에 프로그래밍 코드까지 대신 작성해주기도 한다. 사실 GPT-3는 BERT나 GPT-2에서 기술적으로는 크게 달라지지 않았다. 다만, 크게 달라진 점은 데이터의 양과 모델의 크기를 키워서 한계까지 전이 학습을 시켰다는 것 뿐이다.
물론, GPT-3는 여전히 완벽하지 않다. 오답을 말하기도 하고, 가끔 엉뚱한 행동도 한다. GPT-3의 학습 방법이 가장 가능성 높은 그럴듯한 답변을 만드는 것에 초점을 두고 있으므로, 상식적으로 불가능한 것에 대해서는 불가능하다고 잘 말하지 못하는 경향이 있다. ‘기린의 눈이 몇 개야?’ 라는 질문에는 2개라고 잘 대답하지만, ‘내 발의 눈이 몇 개야?’ 라는 질문에도 2개라는 실망스러운 대답을 하기도 한다.
현재 최고의 인공지능이라 불리는 GPT-3을 통해서 얻을 수 있는 시사점은 GPT-3의 성능보다는 현 인공지능의 발전 속도와 방향점에 있다. 전이 학습이 자연어 처리에 본격적으로 적용되기 전인 3년 전만해도 인공지능이 사람과 대화한다는 것은 인공지능 연구가들에게도 단지 마케팅을 위한 사기로 여겨졌다. 하지만 이제 많은 인공지능 연구가들이 ‘사람과 대화할 수 있는 수준의 인공 지능 레벨’인 AGI(Artificial General Integlligence)를 더 이상 꿈으로만 여기지 않게 되었다. 현재는 인공지능의 황금기라 불릴 만큼, 인공지능의 발전 속도가 역사상 가장 빠른 시대에 와있고, 그 발전 속도가 매우 기대된다.
인기 콘텐츠
-
코스콤 리포트 금융정책과 금융감독·규제의 새로운 전환 11월 8, 2022
-
코스콤 리포트 웹 3.0, 무엇을 바꿀 것인가? 10월 7, 2022
-
기타 , 이벤트 [이벤트]2023 검은 토끼 해 설맞이 이벤트 1월 18, 2023
-
코스콤 리포트 가상경제와 가상자산, 어디까지 왔을까? 6월 30, 2022
-
Opinion 고객 데이터 플랫폼(Customer Data Platform) 시대 10월 27, 2022
최신 콘텐츠
-
[카드뉴스] 키워드로 본 금융IT Issue 06월 #12023. 6. 8 | 금융IT 이슈 따라잡기
-
[카드뉴스] 키워드로 본 금융IT Issue 05월 #22023. 6. 2 | 금융IT 이슈 따라잡기
-
코스콤, 영등포구 취약계층에 사랑의 열무김치 나눔2023. 6. 1 | 코스콤 NOW
-
퇴직연금 OCIO 시장의 발전 과제2023. 6. 1 | Opinion
-
금융과 금융을 잇다, ‘코스콤 STP-HUB’2023. 5. 31 | 코스콤 NOW
인기 콘텐츠
-
금융IT 이슈 따라잡기 [카드뉴스] 키워드로 본 금융IT Issue 06월 #1 6월 8, 2023
-
정보&팁 이 사람들을 아는 당신은 인싸! 국내 유명 유튜버 Top15 6월 7, 2019
-
코스콤 리포트 웹 3.0, 무엇을 바꿀 것인가? 10월 7, 2022
-
코스콤 리포트 국내 STO 시장 현황과 전망 3월 29, 2023
-
금융IT 이슈 따라잡기 [카드뉴스] 키워드로 본 금융IT Issue 05월 #2 6월 2, 2023
뉴스레터로 받아보세요