말 잘 알아듣는 인공지능(AI) 스피커 나올까?

유용하 기자

입력 2019-06-11 12:11

업데이트 2019-06-11 12:11

글씨 크기 조절
글자크기 설정

닫기

글자크기 설정 시 다른 기사의 본문도 동일하게 적용 됩니다.
- 가
- 가
- 가
- 가
- 가
프린트
공유하기
공유

닫기
- 페이스북
- 네이버블로그
- 엑스
- 카카오톡
- 밴드
https://www.seoul.co.kr/news/society/science-news/2019/06/11/20190611500068
URL 복사
댓글
14

ETRI, 인공지능(AI) 개발 돕는 한국어 소프트웨어 개발

일곱 집 건너 하나씩 있다는 인공지능(AI) 스피커. 날씨를 알려주고 원하는 음악이나 동화를 틀어주는가하면 초보적인 수준이지만 음식주문도 가능하다. 그러나 문제는 사용자의 말을 알아듣지 못해 엉뚱한 대답을 하는 경우도 여전히 많다. 외국에서 개발한 언어모델에 한국어를 덧입혔기 때문에 발생하는 문제이기도 하다.

그런데 국내 연구진이 한국어를 잘 알아듣는 인공지능 비서, 인공지능 질의응답, 지능형 검색 등에 활용할 수 있는 인공지능 개발용 언어모델을 개발해 주목받고 있다.

한국전자통신연구원(ETRI) 언어지능연구그룹 연구진은 인공지능(AI) 개발을 위한 한국어 언어모델 ‘코버트’를 개발하고 홈페이지(http://aiopen.aihub.or.kr)에 공개했다고 11일 밝혔다.

연구팀이 이번에 공개한 모델은 기존 구글의 모델에 더 많은 한국어 데이터를 넣은 것과 한국어 고유의 교착어 특성을 반영해 만든 것 2종류이다. 이번에 개발된 기술은 지난 3월 한컴오피스 지식검색 베타버전에 탑재됐고 올 하반기에는 ‘법령분야 질의응답 API(응용프로그램 인터페이스)’에 적용하는 한편 유사특허 지능형 분석기술에도 활용할 계획이다.

인공지능 딥러닝(심층학습) 기술을 활용해 언어처리를 하려면 텍스트에 기술된 어절을 숫자로 전환시켜야 한다. 이를 위해 지금까지는 구글의 다국어 언어모델 ‘버트’를 사용해 왔다. 버트는 어휘와 문장간 양방향 선후관계를 학습해 단어의 문맥을 반영한 뒤 숫자로 표현하는 방식이었다. 문장 내 어절을 한 글자씩 나눈 다음 앞 뒤로 자주 만나는 글자끼리 단어로 인식하는 것이다. 구글은 40여만건의 위키백과 문서 데이터를 사용해 한국어 언어모델을 개발했다. 그러나 한국어는 영어와 같은 인도유럽어족과 문장이나 단어 구성이 다르기 때문에 언어모델 자체에 한계를 갖고 있었다.

연구진은 구글의 한국어 모델에 23기가(GB)에 달하는 신문기사와 백과사전 정보를 더해 45억개의 형태소를 학습시킨 대용량 한국어 언어모델을 개발했다. 또 어근에 조사가 붙는 교착어라는 한글의 특성에 살린 언어모델을 추가로 개발했다.

이렇게 만들어진 언어모델은 AI 개발 언어툴 성능을 확인하는 5가지 기준에서 구글이 만든 한국어 모델보다 평균 4.5% 가량 우수한 것으로 평가됐다.

김현기 ETRI 박사는 “이번에 개발한 언어모델은 한국어에 최적화돼 한국어 분석, 지식추론, 질의응답 등 다양한 한국어 딥러닝 기술의 고도화가 가능할 것”이라며 “다양한 한국어 인공지능 서비스 성능이나 경쟁력을 높임으로써 딥러닝 연구와 교육, 상품 개발 등 다방면으로 활용될 수 있을 것으로 본다”고 말했다.

유용하 기자 edmondy@seoul.co.kr