HYUNDAI MOBIS

사람의 말 알아듣는 사물
그 시작은 음성학에서

Speech Recognition

사물이 음성을 인식하는 상상은 오래전 시작됐다.
<천일야화>로 알려진 <아라비안 나이트>의 여러 이야기 가운데
‘알리바바와 40인의 도적’이 대표적이다.
주인공이 도적들의
소굴에 들어갈 때 “열려라 참깨”라는 주문을 외쳤고, 그 음성을
인식한 동굴은 거대한 석문을 개방한다.
물론 입으로 전해진
이야기이지만 동굴이 음성을 인식했으니 현대적
의미에서 ‘음성인식(Speech Recognition)’
시스템의 전설인 셈이다.

편집실   일러스트 임성구

관련 인물

라즈 레디
Raj Reddy(1937~)
인도 태생으로 미 대통령IT자문위원회(PITAC) 위원장직에
오른 컴퓨터 공학 분야의 권위자이다. 아시아인으로는 최초로
1994년 컴퓨터공학 분야의 노벨상으로 알려진 미국컴퓨터학회
(Association for Computer Machinery)의 튜링상(Turing
Award)을 수상했다.

1952년 벨연구소는 ‘오드리(Audrey)’ 시스템을 만들었다. 사람이 숫자를 음성으로 말하면
이를 컴퓨터가 인식하는 매우 초보적인 음성인식을 시도해 성공했는데, 소리로 전달된 음성을
컴퓨터가 디지털 코드로 전환해 명령을 수행하는 방법이다.

음성인식의 시작

오늘날 일컬어지는 음성인식의 시작은 전화기에서 비롯됐다. 전화는 일반적으로 알렉산더 그레이엄 벨(Alexander Graham Bell, 1847~1922)이 발명한 것으로 알려져 있지만 2002년 미국 의회는 이탈리아 발명가인 안토니오 무치(Antonio Meucci, 1808~1889)를 자석식 전화기의 최초 발명가로 인정했다. 그레이엄 벨이 안토니오 무치의 설계도와 전화기 모델을 정당하지 않은 방법으로 입수했다는 판단이었다.

하지만 누가 최초인지를 떠나 전화의 원리는 간단하다. 음성을 물리적 신호인 전류로 바꾸고, 이를 다시 음성으로 바꾸는 것이 핵심이다. 전화기에 음성을 보내면 진동판이 흔들리며 음성전류가 만들어진다. 음성전류는 전화선을 타고 상대방의 전화에 도달해 다시 진동판을 거쳐 소리로 재생된다. 한마디로 공기의 진동을 전기의 진동으로 바꾸는 역할이다.

이후 시간이 흐르면서 많은 과학자가 음성을 전류로 바꾸지 않고 사물이 곧바로 인식할 수 있을 것이라는 믿음을 갖게 됐다. 그리고 1952년 음성을 전류가 아닌 디지털 코드로 바꿔 컴퓨터가 알아들을 수 있도록 했다.

이른바 음성인식의 초창기 시대다.

‘군나르 판트(Gunnar Fant)’와
‘라즈 레디(Raj Reddy)’

1952년 벨연구소는 ‘오드리(Audrey)’ 시스템을 만들었다. 사람이 숫자를 음성으로 말하면 이를 컴퓨터가 인식하는 매우 초보적인 음성인식을 시도해 성공했는데, 소리로 전달된 음성을 컴퓨터가 디지털 코드로 전환해 명령을 수행하는 방법이다.

이후 1960년에는 숫자가 아닌 음성 단어 인식의 가능성이 열렸고, 여기에는 ‘칼 군나르 판트(Carl Gunnar M.Fant, 1919~2009)’ 교수의 역할이 컸다. 스웨덴 왕립과학원 출신의 그는 1945년 전기공학으로 학위를 받은 후 인간 음성에 많은 관심을 가졌다. 사람마다 다른 음성을 측정해 이를 하나의 통일된 메시지로 인식시킬 수 있는 방법에 몰두했다. 물론 컴퓨터 인식을 염두에 두지 않았더라도 그의 연구 업적은 음성인식에 있어 대단히 중요한 의미를 가졌다. 예를 들어 ‘때엥~큐’와 ‘땅큐’를 인간은 모두 ‘감사함’으로 이해하지만 성대 주름의 모양에 따라 억양(Intonation)이나 강세(Accent)가 다르다는 점에 착안해 이를 과학적으로 분석하는데 몰두했다.

소리의 크기(에너지), 소리의 높이(주파수), 소리의 길이(지속 시간) 차이를 좁혀 인간의 음성과 똑같은 운율을 만드는 연구였던 셈이다. 그러나 음성에 대한 연구가 지속적으로 이어지지는 못했다. 벨연구소 내부에서조차 사물이 인간의 음성을 인식한다는 것은 현실성이 떨어진다고 우려했기 때문이다.

그러다 음성인식이 다시 연구 대상으로 주목받은 것은 연속 인식 분야를 개척한 컴퓨터 과학자 라즈 레디(Raj Reddy, 1937~) 교수 덕분이다. 인공지능의 초기 개척자 가운데 한 사람인 그는 스탠포드에서 학위를 받은 뒤 1960년부터 IBM 호주 지사에서 근무했고, 1966년에는 스탠포드 컴퓨터과학 교수로 연구실을 운영했다.

Shoebox Harpy S i r i

무엇보다 컴퓨터 인공지능 연구자로서 그의 관심은 인간 음성 언어의 체계적인 컴퓨터 수용이었다. 특히 인식의 ‘연속’ 개념은 훗날 음성인식 기술이 비약적으로 발전하는 발판이 됐다. 이전까지 컴퓨터는 사용자가 단어로 명령을 내리면 작업을 수행했고, 다시 명령을 내리는 방식이었다. 하지만 ‘레디 시스템’은 두 가지 명령을 동시에 내릴 수 있었고, 실제 레디 교수는 체스 게임에 음성 명령을 활용했다.

비슷한 시기 소비에트연방에서도 음성인식 연구가 진행됐다. 소련은 200개의 단어로 작동 가능한 인식기를 개발했는데, ‘DTW(Dynamic Time Warping)’라는 알고리즘이 활용됐다. 음성 신호를 짧은 프레임으로 자르고, 각 프레임을 단일 단위로 처리하는 기법이다. 인식의 정확성을 그만큼 높일 수 있었지만, 연구는 지속되지 못했다.

이에 앞서 음성인식 역사에서 획기적인 사건은 1962년 IBM에서 벌어졌다. 음성기기 ‘슈박스(Shoebox)’의 등장이 그것이다. 영어 단어 16개를 인식하는 것은 물론 간단한 숫자 계산까지 해주는 슈박스는 음성인식 기술의 무한한 발전 가능성을 입증하며 주목받았다. 하지만 걸림돌은 여전히 천차만별인 사람의 음성이었다. 주변의 소음이 없어야 하고, 선명하게 발음을 해야 인식이 가능했다. 그럼에도 슈박스가 음성인식 역사에서 빠지지 않는 이유는 음성을 부호로 바꾼 기술 덕분이다. 인간의 음성을 수식으로 만들어 부호화하는 것이 파형으로 인식하는 것보다 데이터 사용량이 훨씬 적었기 때문이다.

음성인식의 진화

음성인식의 진화

이후 잠잠하던 음성인식 기술의 진화를 외친 곳은 다름 아닌 미국 국방과학연구소(DARPA)다. 전쟁 무기의 음성 명령 작동 가능성을 타진해보자는 차원이었다. 1971년 시작된 음성인식 부활 프로젝트의 목표는 컴퓨터가 최소 1,000개의 단어를 인식하는 수준으로 정했다. IBM을 비롯해 카네기멜론대학과 스탠포드연구소 등이 참여했고, 덕분에 인식의 정확도는 상당히 개선됐다. 특히 카네기멜론대학은 자체 개발한 음성인식 시스템 ‘하피(Harpy)’를 활용해 인식 단어 숫자를 1,011개로 늘리는데 성공했다.

그 사이 미국의 수학자 레오나드 바움(Leonard Baum)은 ‘마르코프 체인(Markov Chian)’을 주목했다. 러시아 수학자 안드레이 마르코프에서 유래된 ‘마르코프 체인’은 어떤 현상이 일어날 확률에 앞서 일어난 일에 의존한다는 이론으로, 특정 문자의 출현 확률은 그 이전 문자에 큰 영향을 끼친다는 확률적 시행을 말한다. 예를 들어 영어 단어 ‘t’ 다음에는 ‘h’가 자주 나타나는데, 이 같은 패턴을 확률로 인식시키면 컴퓨터가 음성의 의미를 보다 정확히 파악할 수 있다는 식이다.

이후 마르코프 모델을 활용한 현대적 의미의 음성인식은 1980년대에 IBM에 의해 발현됐다. 이는 사람이 ‘아’를 발음하면 ‘아’의 저음부터 고음까지 다양한 데이터를 수집한다. 그런 다음 평균 음성의 ‘아’를 기준으로 여러 ‘아’의 음성이 어떻게 다른지 통계 학습하는 방식이다.

하지만 이 연구 또한 예외 없이 어려움에 봉착한다. 바로 컴퓨터의 처리 능력, 즉 메모리의 한계였다. 당시만 해도 음성 데이터는 용량이 너무 커서 컴퓨터가 처리 가능한 능력을 초과했다. 담아야할 내용은 많은데 그릇이 작으니 당연히 해석 가능한 단어 또는 문장도 많지 않았다.

그러나 1980년 대 중반 이후 컴퓨터의 처리 능력이 해마다 두 배씩 빨라지고, 처리 용량도 늘어나면서 음성 처리 능력의 한계가 사라졌다. 이에 음성인식 연구는 탄력을 받았고, 1990년대 말 ARS와 같은 음성인식 기능이 이해하는 단어가 1만 개까지 늘었다. 1만 개 단어를 저장할 만큼 메모리기능도 발전한 것이다. 컴퓨터의 성능 향상이 저장 가능한 단어를 늘리고, 수학적 통계 처리 속도를 높이면서 이해도와 정확도는 눈부시게 발전해나갔다.

음성을 이해하는 자동차

2000년대 들어 음성인식은 스마트폰에 경쟁적으로 적용되기 시작했다. 애플의 ‘시리(Siri)’를 비롯해 마이크로소프트의 코타나까지 음성인식은 스마트폰의 필수 기능으로 자리 잡았다. 이어 아마존의 음성인식 스피커 에코는 인공지능 알렉사와 연결돼 많은 인기를 누리고 있다. 또한 SK텔레콤의 ‘누구’와 삼성전자의 ‘빅스비’도 주목받는다. 한마디로 음성인식의 전성시대가 펼쳐지는 형국이다.

자동차도 예외는 아니다. 음성 명령이 안전에 도움이 된다는 이유로 점차 적용이 확산되는 중이다. 특히 포드는 이미 2007년 음성인식 기능인 싱크(Sync)를 자동차에 탑재해 라디오와 전화, 내비게이션 등에 음성인식이 가능하도록 했고, 현재는 라디오 채널을 변경할 만큼 3세대로 발전했다. 이 외에 크라이슬러 유커넥트, GM 마이링크를 포함해 아우디와 BMW, 메르세데스 벤츠 등도 음성인식 기능 영역을 넓혀가고 있다. 음성으로 내비게이션, 음악 재생, 운전 중 휴대폰 문자 읽어주기 등은 기본이며, 인공지능과 결합해 시동을 켜고 끄거나 경적을 울리는 것까지 가능하다. 덕분에 음성인식 기업인 미국의 뉘앙스(Nuance)는 아우디, BMW, 재규어랜드로버, 벤츠, 오펠, 포드, 토요타, 푸조 등에 이르기까지 글로벌 자동차 시장의 음성인식 강자로 군림하고 있다.

물론 한국의 음성인식 기술도 글로벌 기업과 어깨를 견주는 수준이다. 이미 현대모비스가 150만 개의 단어 인식이 가능한 내비게이션을 선보였고, 나아가 동작 기반의 명령 체계도 개발을 마쳤다. 운전의 집중도를 높이는 차원인 만큼 다양한 기업이 음성인식의 이해 범위를 확장시키는데 주력하는 중이다. 단순한 명령 외에 감성적 대화가 가능한 수준으로 진화할 때까지 말이다. 이처럼 음성인식 기술은 끝이 없다. 어쩌면 사람의 마음까지 읽어 스스로 기능을 작동시키는 감정인식으로 발전할지도 모를 일이다.

한국의 음성인식 기술도 글로벌 기업과 어깨를 견주는 수준이다.
이미 현대모비스가 150만 개의 단어 인식이 가능한 내비게이션을 선보였고,
나아가 동작 기반의 명령 체계도 개발을 마쳤다. 운전의 집중도를 높이는 차원인
만큼 다양한 기업이 음성인식의 이해 범위를 확장시키는데 주력하는 중이다.

음성을 이해하는 자동차
Prev Top
TOP