ETRI, 구글 대비 40배 규모 학습시켜 ‘한국어 인공지능(AI) 시대’ 열어

2024년 04월 27일 토요일

뉴스홈 산업/경제/기업

ETRI, 구글 대비 40배 규모 학습시켜 ‘한국어 인공지능(AI) 시대’ 열어

[대전세종충남=아시아뉴스통신] 이기종기자 송고시간 2019-06-14 09:54

한국전자통신연구원(ETRI) 언어지능연구그룹 김현기 박사가 인공지능(AI)의 최첨단 한국어 언어모델 ‘코버트(KorBERT)’에 대해 설명하고 있다./아시아뉴스통신=이기종 기자

한국전자통신연구원(ETRI)은 14일 인공지능(AI) 서비스 개발 돕는 한국어 최첨단 언어모델 ‘코버트(KorBERT)’를 공개했다.

현재 인공지능(AI)의 언어처리를 위한 딥 러닝 기술을 개발하기 위해서는 자료(텍스트)에 기술된 어절을 숫자로 표현해야 한다.

그동안 이를 위해 언어를 활용한 서비스를 개발하는 기관에서는 주로 구글의 다국어 언어모델‘버트(BERT, Bidirectional Encoder Representations from Transformers)’를 사용하고 이 버트는 문장 내 어절을 한 글자씩 나눈 뒤, 앞뒤로 자주 만나는 글자끼리 단어로 인식한다.

지난해 11월 처음 공개된 이 방식은 언어처리 11개 분야에서 많은 성능 향상을 이뤄 주목을 받았고 구글은 40여 만 건의 위키백과 문서 데이터를 사용해 한국어 언어모델을 개발했다.

하지만 단순히 입력한 데이터 양만을 늘리는 것은 언어모델 고도화에 한계가 있다.

연구진은 이러한 제한점을 해결하기 위해 한국어의 의미 최소 단위인 형태소까지 고려해 한국어특성을 최대한 반영한 언어모델을 만드는 것에 심혈을 기울였다.

한국전자통신연구원(ETRI) 언어지능연구그룹 김현기 박사팀이 개발한 인공지능(AI)의 한국어 언어모델 ‘코버트(KorBERT)’는 구글이 배포한 한국어 모델보다 성능이 평균 4.5% 가량 우수했고 단락 순위화(Passage Ranking) 기준에서는 7.4% 높은 수치를 기록했다./아시아뉴스통신=이기종 기자

연구과정을 보면 연구진은 여기에 23기가(GB)에 달하는 지난 10년간의 신문기사와 백과사전 정보를 더해 45억개의 형태소를 학습시켜 구글보다 많은 한국어 데이터를 기반으로 언어모델을 개발했다.

이번에 개발해 공개한 모델은 두 종류이며 구글의 언어표현 방법을 기반으로 더 많은 한국어 데이터를 넣어 만든 언어모델과 한국어의‘교착어’특성까지 반영해 만든 언어모델이다.

이 모델의 특징은 전처리 과정에서 형태소를 분석한 언어모델, 한국어에 최적화된 학습 파라미터, 방대한 데이터 기반 등으로 구글과 차이점이 있다.

이 연구결과에 의하면 개발된 언어모델은 성능을 확인하는 5가지 기준에서 구글이 배포한 한국어 모델보다 성능이 평균 4.5% 가량 우수했고 단락 순위화(Passage Ranking) 기준에서는 7.4% 높은 수치를 기록했다.

엑소브레(Exo-brain)인 사업의 총괄책임자인 ETRI 김현기 박사는“한국어에 최적화된 언어모델을 통해 한국어 분석, 지식추론, 질의응답 등의 다양한 한국어 딥러닝 기술의 고도화가 가능할 것으로 기대된다”고 말했다.

이 기술은 올해 3월 한컴오피스 지식검색 베타버전에 탑재됐고 하반기에는 ‘법령분야 질의응답 응용 프로그래밍 인터페이스(API)’를 추가 공개될 예정이다.