페이지 선택

[코스콤 프로페셔널] 과학기술정보통신부 AI공모전 2등 수상 ‘한글이 야호’

2022. 3. 14

CLIPBOARD
image_pdf


과학기술정보통신부 산하 연구기관인 KISTI에서 주관하는 AI공모전에서 코스콤의 ‘한글이 야호’팀이 2등상을 수상했다. 두 달여간 진행된 대장정에서 업무와 대회 준비를 병행하면서도 좋은 성적을 낼 수 있었던 비결은 무엇이었을까? 그 궁금증은 마지막 질문에 대해 이구동성으로 답한 그들의 대답에서 찾을 수 있었다.

Q1. 각자 소속 부서와 맡으신 역할에 대해 소개 부탁드립니다.

이경임: 저는 금융채널서비스부 모바일서비스팀 소속으로 국내 증권사 및 자산운용사 MTS를 신규개발·운영하는 팀입니다. 그중 저는 자산운용사 펀드 플랫폼과 안드로이드 파트의 신규개발 및 운영 업무를 담당하고 있습니다.

이지훈: 안녕하세요, 코스콤클라우드사업부 클라우드서비스팀 이지훈 사원입니다. 저희 부서는 코스콤과 NAVER를 운영하는 네이버클라우드플랫폼의 공동 사업인 금융클라우드를 운영하고 금융사에 클라우드 서비스를 제공하는 업무를 수행하고 있습니다. 현재 클라우드서비스팀에서 금융 클라우드 운영과, 고객사 클라우드 이관 및 운영 서비스를 지원하는 업무 담당하고 있습니다.

유원준: 데이터오피스사업부는 금융시장과 관련된 데이터 관련 기술을 위한 플랫폼을 구축하여 서비스를 제공하는 일을 하는 곳입니다. 저는 주로 증권과 관련된 데이터 분석을 해오고 있습니다.

Q2. 과기정통부 AI공모전 2등상을 수상했습니다. 소감이 어떠세요?

이경임: 좋은 멤버들과 참여했기에 수상에 대한 기대가 없진 않았던 것 같습니다. 다만 짧은 개발기간 동안 업무와 병행해 대회 참여하느라 다들 고생이 많았는데요. 고생한 만큼, 또 같이 참여해준 팀원들 실력만큼 좋은 성과 있어서 다행이라 생각합니다.

이지훈: AI 관련하여 CoP를 진행하면서 개인적인 공부뿐만 아니라 소기의 성과를 얻을 수 있어서 기뻤습니다.

유원준: 이전 CoP에서 딥러닝 CoP, 자연어처리 CoP, pytorch CoP, 텐서플로우 자격증 CoP들을 거의 3년간 진행했던 경험으로 이제는 모든 멤버들이 딥 러닝 모델을 자유자재로 구현할 정도로 성장했습니다. 해당 CoP에 참여해왔던 인원들과 그 결실이 이번에 맺어진 것 같아서 기쁩니다. 지난 CoP를 하는 동안 AWS가 너무 비싸서 사용할 엄두도 못 냈었는데 특히, 이번 대회에서는 GPU의 중요성을 많이 느꼈습니다.

Q3. 수상하신 AI공모전은 어떤 대회인가요?

유원준: 해당 대회는 과학기술정보통신부 산하 연구기관인 KISTI에서 주관한 대회로, KISTI에서 구축한 국내 연구논문 데이터셋의 분석·활용 사례를 발굴해내기 위해 연구데이터와 인공지능 두 개 분야로 공모한 대회입니다. 2회 차를 맞은 금번 대회는 전국 모든 개인 혹은 팀 대상으로 21년도 10월부터 시작돼 최종 마감까지 두 달여간 진행되었습니다.

Q4. 참가 당시 팀 이름이 ‘한글이 야호’입니다. 특별한 탄생 배경이 있나요?

이경임: 19년도부터 2년간 유원준, 이지훈 사원을 포함해 다른 동기들과 꾸준히 사내 인공지능 스터디를 진행하고 있었습니다. 저 개인적으로는 캐글이나 데이콘 쪽 인공지능 대회에 관심을 갖고 꾸준히 공부해왔고요. 그러던 중 금번 대회를 알고 평소 인공지능 대회 참가에 관심을 보였던 두 사원에게 제가 먼저 팀 참여를 권유했습니다. 팀 이름은 아동용 한글교육 프로그램 시리즈 ‘한글이 야호’에서 따왔습니다. 저희가 만들게 될 기계독해 모델 역시 한글 자연어 처리를 배워나갈 수 있도록 한다는 점에서 아동에게 한글교육을 시키는 것과 비슷하게 연상되는 부분이 있다고 생각했습니다.

 

 

Q5. ‘한글이 야호’팀이 출전해 수상한 부문은 어떤 부문인가요?

이지훈: 금번 대회는 데이터플랫폼 활용 아이디어를 구상하는 연구데이터 부문과 실제 인공지능 모델을 개발해내는 인공지능 부문으로 나뉘었습니다. 저희는 인공지능 부문에 참여했고, 최종적으로 KISTI의 논문데이터를 기반으로 오픈도메인 기계독해를 수행하는 KoBigbird 기반 한국어 자연어처리 모델을 개발하고 이를 활용할 수 있는 REST API기반 서버를 개발해 수상했습니다.

Q6. 공모전 수상까지 각자의 맡은 역할에 대해 말씀해주신다면요?

이경임: 기계독해 모델 개발을 주로 수행했습니다. Bert, klue-roberta, kobigbird 세 개의 모델로 논문데이터 기반 모델을 개발했는데요. 저희 시스템의 경우 REST API요청 처리하는 Node.js 서버와 인공지능 연산 수행하는 Flask서버로 구성되어 있는데, 그 중 Node.js 서버 개발을 진행했습니다. 그 외 발표자료 제작이나 최종 발표 같은 여러 잡다한 일을 맡았었네요. ^^

이지훈: 저는 서버 및 개발환경 구성, Elasticsearch 엔진을 이용한 논문데이터 적재, 한글 토큰화 검색, Open domain 쿼리 검색 등을 주로 맡아서 수행하였고, 카카오의 챗봇 서비스 연동과 API 서버 구성 및 개발은 팀원들과 함께 진행했습니다.

유원준: 이전 CoP에서 딥러닝 CoP, 자연어처리 CoP, pytorch CoP, 텐서플로우 자격증 CoP들을 거의 3년간 진행했던 경험으로 이제는 모든 멤버들이 딥 러닝 모델을 자유자재로 구현할 정도로 성장했습니다. 해당 CoP에 참여해왔던 인원들과 그 결실이 이번에 맺어진 것 같아서 기쁩니다. 지난 CoP를 하는 동안 AWS가 너무 비싸서 사용할 엄두도 못 냈었는데 특히, 이번 대회에서는 GPU의 중요성을 많이 느꼈습니다.

 

 

Q7. 어떤 점이 2등 수상의 영예를 안겼다고 생각하시나요?

유원준: 제작 시 ‘논문 데이터 최적화 모델개발’과 ‘시스템 확장성’에 크게 초점을 두었습니다. 실제 개발을 할 수 있는 기간이 짧았기에 기존 발표된 사전학습 모델 중 논문데이터 처리에 가장 최적화된 모델을 찾는 부분에 집중했습니다. 최종적으로 대회기간 중 발표된 최신 KoBigbird 모델을 적용한 점이 다른 팀과의 차별점을 보여줬다고 생각합니다. 또한 개발된 모델이 실제 다양한 환경에서 사용될 수 있도록 확장 가능한 REST API서버 형태로 개발한 부분도 다른 팀에서는 시도하지 않은 방향이었습니다.

Q8. 카카오톡 챗봇을 통해 쉽게 논문 검색을 할 수 있다는 점이 인상적이었습니다.

이경임: 기계독해란 대상 문서와 자연어 질의가 주어지면 기계가 문서를 이해해 대상 문서에서 질의에 대한 답변을 찾아내는 기술을 의미합니다. 기계독해 기술을 접목한 친숙한 사례로 수능 국어문제 푸는 AI 생각하시면 될 것 같습니다. 이러한 기존 MRC의 한계점은 답변하기 위한 대상 문서를 사람이 먼저 찾아서 입력해줘야 한다는 부분입니다. 저희가 개발한 오픈도메인 기계독해 시스템은 광범위하게 구축된 지식 베이스를 기반으로 사용자 질의만 던져졌을 때 이에 대한 대상 문서를 찾고 답변까지 찾아내는 시스템입니다. 이때 구축한 시스템의 지식베이스는 대회에서 제공한 연구논문 데이터셋을 활용했으며, 검색기는 Elastic Search, 기계독해 사전학습 모델은 BigBird기반 한국어 자연어처리 모델인 KoBigbird를 사용했습니다. 최종적으로 구축된 시스템은 오픈도메인 기계독해 시스템의 전통적 구조를 따라 질의분석기, 의도분류기, 문서검색기, 문서독해기, 정답생성기의 5가지 모듈을 구현했습니다.

구현한 시스템은 앞서 말했듯 개별 모델이 아닌 REST API기반 서버로, 다양한 클라이언트와 결합해 사용할 수 있도록 했습니다. 대회 발표 시에는 시연을 위해 카카오톡 챗봇과 연동시켰는데, 그 외에도 웹페이지, 모바일 앱, 별도 서버 등 질의에 대한 구체적 답변을 국내 논문 데이터에서 찾아내고자 하는 모든 형태의 서비스에서 API 형태로 호출해 답변을 받을 수 있습니다.

Q9. 이번 대회도 금융데이터분석 학회 CoP 멤버들이 모여 출전했다고 들었습니다. 금융데이터분석 학회 CoP에서 어떤 활동들을 했으며, 이번 대회와 관련된 내용들도 간단히 소개 부탁드립니다.

이지훈: 지난 CoP 동안 데이터 분석과 관련하여 Tensorflow 개발자 인증 자격도 취득하고, 실제 금융데이터를 분석하고 머신러닝을 활용해보는 사례를 만들어 보고자, 금융데이터를 활용한 챗봇을 만들어 보았습니다. 경제 뉴스데이터를 활용하여 각 기업별 워드클라우드 구성, Dart 공시데이터를 활용한 기업별 이벤트 분류, 머신러닝을 활용한 채팅의 주요 단어 및 채팅의 의도 분류를 통해 올바른 답변을 할 수 있게 했습니다. 이렇게 각 키워드 및 주제별 종목 발굴이나 유사기업 조회 등의 기능을 구현하면서 실 금융데이터에 여러 가지 머신러닝 기술을 활용해 볼 수 있는 경험이 이번 대회에 많은 도움이 된 것 같습니다.

유원준: 금융데이터분석 학회에서는 금감원 전자공시시스템 DARTdptj 유상증자 보고서와 같은 비정형 데이터를 파싱하고 데이터베이스에 적재한 후, 딥러닝으로 챗봇을 구축하여 손쉽게 종목에 대한 정보들을 조회할 수 있게 만들었었습니다. 해당 CoP를 하면서 비정형 데이터나 텍스트 데이터를 다루는 자연어처리 기술에 익숙해질 수 있었고, 이번 대회에서도 딥러닝 모델을 고도화하여 수상할 수 있었습니다.

 

 

Q10. ‘한글이 야호’의 다음 행보가 또 있나요?

일동: 수상 이후 3개월여간 푹 쉬었는데 다시 공부도 하며 앞으로도 국내외 인공지능 관련 대회에 꾸준히 참가하고자 합니다. 팀원들이 각자 너무 능력이 출중해 저희끼리 서로 부족한 점을 보완해주는 시너지 효과가 좋았다고 생각해요. 만약 팀으로 다시 대회 참가한다면 이번 멤버로 하지 않을까요? 물론 이런 대회와 공부에 관심있는 회사 선후배분들을 더 모아보고도 싶기에 참여를 원한다면 언제든 환영입니다!

 

 

* 저작권법에 의하여 해당 콘텐츠는 코스콤에 저작권이 있습니다.
* 따라서, 해당 콘텐츠는 사전 동의없이 2차 가공 및 영리적인 이용을 금합니다.