속보 

사이트 내 전체검색

2019년 10월 17일 목요일

[양자·AI ⑪] 전자통신연구원 김현기 박사, “인공지능(AI), 한국어 시대”

- 구글 대비 한국어 언어모델 평균 4.5% 성능 우수
- AI 비서, AI 질의응답 등 한국어 처리 다수 분야 활용 가능

[대전세종충남=아시아뉴스통신] 이기종기자 기사입력 : 2019년 07월 07일 14시 04분

한국전자통신연구원(ETRI) 언어지능연구그룹 김현기 박사가 인공지능(AI) 서비스 개발을 돕는 최첨단 한국어 언어모델인 ‘코버트(KorBERT)’을 설명하고 있다./아시아뉴스통신=이기종 기자

[대전세종충남=아시아뉴스통신] 이기종기자 = 현재 우리는 ‘4차 산업혁명’이라는 동굴 속에 살고 있다.

플라톤의 ‘동굴의 비유’에서 보듯이 우리가 기대하고 있는 ‘4차 산업혁명’이 단지 동굴 벽에 비친 그림자에 불과한지를 지금부터 통찰하고 ‘옥석(玉石)’을 구분해야 한다.

본지는 2019년 ‘양자·AI’ 연재를 통해 미래 산업혁명의 양축인 양자 컴퓨터(Quantum Computer)와 인공지능(Artificial Intelligence, AI)과 관련한 주도적인 활동을 소개해 꿈과 희망이 있는 대한민국의 모습을 그려보려고 한다.

현재 인공지능(AI)의 언어처리를 위한 딥 러닝 기술을 개발하기 위해서는 자료(텍스트)에 기술된 어절을 숫자로 표현해야 한다.

작년 11월 이후부터 이를 위해 언어를 활용한 서비스를 개발하는 기관에서는 주로 구글의 다국어 언어모델 ‘버트(BERT, Bidirectional Encoder Representations from Transformers)’를 사용했지만 단순히 입력한 데이터만을 늘리는 것은 언어모델 고도화에 한계가 있다.

최근 한국전자통신연구원(ETRI)은 이러한 제한점을 해결할 수 있는 인공지능(AI) 서비스 개발 돕는 한국어 최첨단 언어모델 ‘코버트(KorBERT)’를 공개했다. 이와 관련해 언어지능연구그룹 김현기 박사를 만나 개발동기, 개발과정과 성과, 향후 연구방향 등을 살펴본다.<편집자 주>
 
- 한국어 인공지능(AI) 모델의 연구배경은?

▷ 전자통신연구원은 과학기술정보통신부의 인공지능 분야의 혁신성장동력 프로젝트로 추진 중인 엑소브레인 사업을 2013년부터 진행 중이다.

엑소브레인은 ‘내 몸 밖에 있는 인공 두뇌’라는 뜻이며 이 엑소브레인 사업은 언어를 이해하고 지식을 학습하여 자연어로 지식을 서비스하는 자연어 처리와 관련된 인공지능 기술을 개발하고 있다.
 
엑소브레인의 핵심이 되는 인공지능 기술은 텍스트의 문법과 의미를 분석 할 수 있는 한국어 분석 기술, 방대한 텍스트에 기술된 지식을 학습하고 저장하는 지식 학습 및 축적 기술, 문장으로 구성된 질문을 이해하고 정답을 추론하는 자연어 질의응답 기술이다.

최종 목표는 기계와 인간과의 지식소통이 가능하고 이를 토대로 전문가 수준의 의사결정을 보조하는 인공지능 기술을 개발하는 것이다.
 
- 한국어 최첨단 언어모델 ‘코버트(KorBERT)’ 연구과정은?

▷ 엑소브레인 개발의 초기 단계에서는 인문학, 사회과학, 예술, 과학 등의 다양한 주제가 담긴 한국어 위키백과를 대상으로 한국어 분석, 지식 학습 및 축적, 자연어 질의응답 기술을 개발했다.
 
이 개발의 의미는 다양한 분야에서 발생하는 언어적 특성을 판별하여 단답형 정답을 추론하는 기술개발이다.

현재 개발 단계에서는 엑소브레인을 법률과 특허분야에서 적용하기 위해 심화연구를 추진하고 있다.

법률분야에서는 주요 법령들을 대상으로 단답형 정답과 서술형 정답을 추론하는 질의응답 기술을 개발하고 있고 특허분야에서는 특허에 기술된 청구항의 유사도를 판별 할 수 있는 기술을 개발하고 있다.
 
한국전자통신연구원 언어지능연구그룹이 개발한 엑소브레인 인공지능(AI) 기술은 지난 2016년 장학퀴즈 왕중왕전에 출전해 우승을 했다.(사진제공= ETRI 김현기 박사 연구팀)
 
- 한국어 최첨단 인공지능(AI ) 언어모델의 연구성과는?

▷ 지난 2016년 11월에 EBS 장학퀴즈에 엑소브레인이 참가해 장학퀴즈 상하반기 우승자와 수능만점자 등을 제치고 국내 최초로 인공지능과 사람과의 대결에서 우승한 토종 AI 기술로 우승했다.

2017년부터는 엑소브레인 과제에서 개발한 한국어 분석 기술 14종을 오픈API로 보급해 구글과 아이비엠(IBM)에서 유료로 서비스하고 있는 외산 인공지능 솔루션의 국내시장 잠식에 제한하는 등 큰 역할을 하고 있다.

또 인공지능 기술 개발에 필요한 학습데이터 및 학습데이터 구축을 위한 표준안도 보급하고 있다.

이 엑소브레인 오픈 API는 공개 이후 지금까지 1천3백만 건 이상 활용됐고 932개 기관에서 사용신청을 하여 산업체(42%), 대학교(34%), 개인(20%), 기타(4%)의 개발자들이 사용하고 있다.

최근 3개년동안의 과제성과로는 연구개발(R&D)의 기술이전 및 사업화 40건, 국내외 표준화 44건, 특허출원 70건, 은행권·지자체 대상 인공지능 대국민 서비스 등을 통해 국내 인공지능 분야의 산업화를 촉진하고 있다.

지난 6월에 공개한 코버트(KorBERT)는 한국어에 최적화된 언어모델로 자연어 처리를 위한 딥러닝 기술개발에 필수적인 데이터이다.

한편 구글은 작년 11월에 40여 만 건의 위키백과 문서들을 사용해 한국어 언어모델을 개발했지만 우리는 여기에 23기가(GB)에 달하는 지난 10년간의 신문기사와 백과사전 정보를 더해 47억개의 형태소를 학습시켜 구글보다 39배 많은 한국어 데이터를 기반으로 언어모델을 개발했다.

구글의 방법(BERT)은 대용량 원시 텍스트로부터 어휘와 문장 간 양방향 선후관계를 학습하여 고빈도로 발생하는 문자를 결합하여 단어를 구성하는 방식이나 한국어는 용언과 체언에 조사 또는 어미가 결합되어 어절을 구성하는 교착어로 사람이 인지하는 단어의 경계와 틀린 방식이다.

이를 해결하기 위해서 단순히 입력한 데이터 양만을 늘리는 것은 언어모델 고도화에 한계가 있어 한국어의 의미 최소 단위인 형태소까지 고려해 한국어특성을 최대한 반영한 언어모델을 만드는데 심혈을 기울였다.

처리 과정에서 형태소를 분석한 언어모델, 한국어에 최적화된 학습 파라미터, 방대한 데이터 기반 등이 구글과 차별성 있는 특징이다.

이러한 과정에 의해 개발된 코버트는 성능을 확인하는 5가지 기준에서 구글이 배포한 한국어 모델보다 성능이 평균 4.5% 가량 우수했으며 특히 단락 순위화(Passage Ranking) 기준에서는 7.4%나 높은 수치를 기록했다. 
 
한국전자통신연구원(ETRI) 언어지능연구그룹 김현기 박사가 개발한 한국어 언어모델 ‘코버트(KorBERT)’은 구글이 배포한 한국어 모델보다 성능이 평균 4.5% 가량 우수했고 단락 순위화(Passage Ranking) 기준에서는 7.4% 높은 수치를 기록했다./아시아뉴스통신=이기종 기자
 
한국전자통신연구원 언어지능연구그룹이 개발한 코버트(KorBERT)와 구글 언어모델의 알고리즘 비교표 중 구글 자료.(자료제공=ETRI 김현기 박사 연구팀)
 
한국전자통신연구원 언어지능연구그룹이 개발한 코버트(KorBERT)와 구글 언어모델의 알고리즘 비교표 중 코버트 자료.(자료제공=ETRI 김현기 박사 연구팀)

- 한국어 인공지능(AI) 연구의 향후 과제는?

▷ BERT 방식의 딥러닝 언어모델은 부분단어에 대한 의미를 수치벡터로 표현이 가능한 수준으로 사람이 자연스럽게 인지하는 하나 이상의 단어가 합쳐진 복합어나 관용적 표현에 대한 의미표현 방법을 모색하고 있다.

또 현재의 딥러닝 입력 처리 방식은 약 512개 이상의 단어가 들어간 문서를 한 번에 처리하지 못해 문서를 처리가능한 단위로 나누어 처리하는 방식이다.

이에 한 번에 더욱 많은 언어 데이터를 빠르고 효율적으로 처리할 수 있도록 고도화한 딥러닝 모델을 개발할 계획이다.

이와 같은 인공지능 원천기술을 개발하여 대규모 학습데이터가 필요하며 개발자가 수 많은 시행착오를 거쳐야 하는 지도학습 위주 언어지능 기술의 한계를 극복하여 엑소브레인이 다양한 논지의 쟁점을 의미적으로 이해하고 해결이 가능하여 사람의 지적 노동을 보조할 수 있는 수준의 언어지능 기술을 개발할 예정이다.

- 마지막으로 하고 싶은 말은?

▷ 구글, 페이스북, MS 등 글로벌 기업이 공개한 오픈 소스는 기본적인 성능은 쉽게 달성이 가능하지만 한국어에 최적화된 상용화 수준의 솔루션을 개발하기에는 많은 난관이 있어 우리 말인 한글에 대해서 지속적인 연구가 필요하다.
 
미국 DARPA(Defense Advanced Research Projects Agency)는 자연어의 의미를 이해하고 상식적 추론이 가능한 차세대 언어지능 기술 확보를 위해 중점적인 분야로 육성하고 있다.

또 많은 기업들이 대규모 투자를 통해 AI 비서와 스피커가 널리 보급되었으나 언어에 담긴 의미를 해석하지 못해 검색과 단순한 문답에 활용되고 있음이 현재 기술수준의 한계를 보여주는 대표적 사례이다.
 
따라서 현재 시점에서 보면 자연어 처리 분야의 인공지능 기술도 딥러닝 기술로 비약적 성능을 이뤘으나 주로 언어의 문법과 단순한 단답형 정답을 주어진 지문에서 추출하는 기계 독해 위주로 연구돼 앞으로 우리 연구팀은 인간처럼 의미와 맥락을 이해하여 추론이 가능한 기술을 지속 연구할 것이다.


dair0411@gmail.com

[ 저작권자 © 아시아뉴스통신. 무단 전재 및 재배포금지]



제보전화 : 1644-3331    이기자의 다른뉴스보기
의견쓰기

댓글 작성을 위해 회원가입이 필요합니다.
회원가입 시 주민번호를 요구하지 않습니다.

TODAY'S HOT

more