음성인식 기술에 대한 보고서 | David & Danny's Column 데이빗앤대니 컬럼

최근 음성인식 기술이 언론의 주목을 받으며 이슈가 되고 있다.사실 음성인식 기술은 1930년대 초부터 많은 과학자들의 도전 대상이자 공상과학 영화에 등장하는 단골 소재였다.그런데 최근에 들어서야 음성인식에 대한 기술이 스포트라이트를 받는 이유는 뭘까?

이번 컬럼은 음성인식 기술의 현황과 최근 주목 받는 음성포탈에 대한 이야기다.

음성인식 기술의 시도는 컴퓨터의 역사와 함께 발전하게 되는데 1960년대에 이르러 본격적인 연구가 시작된다.음성을 텍스트로 전환하는 기술은 84년에 발표 되었고,음성인식이 운영체제와 함께 선보이게 된 것은 1990년대 매킨토시에서 선보인 플레인 토크(Plain Talk)가 처음이었고 이후 국내에서 삼성전자가 ‘TTS’기능이 탑재된 PC광고를 대대적으로 하면서부터 컴퓨터와 음성인식 기술이 하나로 합쳐지는 다양한 실험들이 쏟아져 나오게 되었다.

PC와 음성인식 기술의 다양한 시도는 IBM같은 컴퓨터 생산업체 뿐만 아니라 크리에이티브랩 사 등의 사운드 카드 개발업체,필립스 같은 가전업체,ETRI 같은 연구기관 등 다양한 조직에서 개발되고 있다.

국내의 경우 벨기에에 본사를 둔 L&H,LG종합 기술원 출신의 보이스웨어를 필두로 거원시스템,한국통신,엑트밸리,보이스텍 등의 업체들과 ETRI,삼성종합기술연구소 등의 단체들이 활발한 움직임을 보이고 있다.

음성인식 기술이 최근 주목 받는 이유는?

음성인식 기술이 최근 주목 받는 이유는 그 동안 연구실 수준의 음성인식 기술이 상용화 단계로 올라서고,인터넷과 결합되어 다양한 시너지 이펙트를 창출할 것이라는 기대 때문이다.

2003년에는 380억 달러에 달할 것이라는 전망이 발표되기도 하면서 심지씀´ ‘음성포탈이 차세대 포탈의 중심이 될 것’이라는 성급한 표현까지도 만들어 내기에 이르렀다.

그러니까 인터넷이 폭발적으로 성장하면서 네트워크화 된 음성인식 기술이 수익을 만들어 내는 기술로 새롭게 주목 받게 된 것이다.한 예로 미국의 음성인식 솔루션 회사인 SpeechWorks는 IPO에서 당초 예상했던 공모가 17~19달러를 넘는 20달러를 기록했으며 이후 56.75달러 선까지 뛰어 올라 관련 업체들을 놀라게 했었다.

SpeechWorks의 음성인식 엔진 기술의 주내용은 인터넷과 전화를 이용한 은행/주식거래,고객지원,웹사이트 검색 등을 지원한다.즉,유저는 다양한 음성 디바이스를 통해 기업의 사이트를 서핑하거나 거래할 수 있을 뿐만 아니라 고객지원도 받을 수 있다.

음성인식 기술이 최근 주목 받는 첫번째 요소는 PC가 아닌 다양한 디바이스로 인터넷을 접속,제어를 가능케 한다는 점이다.휴대용 디바이스에 음성인식 기술이 접목되면 음성으로 인터넷 정보 이용과 전자상거래를 이용할 수 있고,이동이 자유스러울 뿐만 아니라 음성 주파수를 인식하기 때문에 보안성을 유지할 수가 있는 것이다.즉,무선 인터넷이라는 대세를 타고 음성인식 기술이 함께 부각된 것이다.

두 번째는 인터넷을 손이 아닌 말로써 제어하게 됨으로써 손을 사용하기 어려운 경우,특히 차량으로 이동 중 인터넷을 엑세스하여 사무나 기타 서비스를 이용할 수 있기 때문이다.

미쓰비시의 경우 음성인식 기술을 활용한 노선안내 서비스,노선을 바꿀 때 주위 차량 유무를 음성으로 알려주는 시스템이 개발 완료된 상태다.

세 번째는 음성 컨텐트를 공급,소비함으로써 유저의 다양한 니즈를 충족시킬 수 있기 때문이다.대부분의 포탈이 보이스 채팅,음성메일,음성 팩스,음성 개인정보 관리,날씨와 증권정보 등을 음성으로 서비스 하고 있다.

음성인식 기술 이해

음성인식 기술에 대해 완벽하게 이해하기란 쉽지 않다.음성인식 기술을 쉽게 이해하는 방법은 사람의 감각기관과 비유하는 방법인데 즉,음성인식 기술은 귀,음성합성 기술은 입으로 생각하면 이해하기가 쉬워진다.

음성인식 기술의 본질은 바로 소프트웨어나 하드웨어를 어떻게 사람의 귀와 입에 가장 가깝게 만들 것인가?이며 이는 우주선을 만드는 일보다 더 어려운 일이라고 한다.

자,음성인식 기술은 앞에서도 이야기 했듯이 크게 음성인식과 음성합성으로 나뉘어 진다.음성인식은 말처럼 사람의 목소리를 그 뜻대로 해석해 내는 기술이고,음성합성은 사람의 목소리를 그대로 흉내내는 기술이다.그리고 음성인증 기술이 있다.좀 더 자세하게 살펴보도록 하자.

먼저 음성인식 기술은 크게 세가지로 구분할 수 있는데 인식대상에 따른 분류와 어휘에 따른 분류,그리고 발음에 따른 분류로 나누어 진다.

인식대상에 따라 화자종속과 화자독립으로 다시 나누어 지는데 ‘화자종속’이란 학습된 화자의 명령만을 수행하는 기술이다.즉,화자가 미리 녹음을 통해 기계를 학습시킨 후에 실행하게 하는 것으로 화자 이외의 다른 사람의 명령은 인식을 보장할 수 없다.

화자독립은 불특정 다수의 화자음성을 인식하게 하는 기술로 여러명이 함께 사용할 수 있다.물론 화자독립 기술이 화자종속 기술보다 난이도가 높은 기술이다.

어휘는 다시 어휘종속과 어휘독립 기술로 나뉘는데 어휘종속은 인식시키고자 하는 특정 단어,즉 ‘우리집’같이 연결되지 않는 단독 어휘를 학습시킨 후에 인식하는 것이다.

어휘종속은 어휘의 크기에 따라 소용량 어휘인식,대용량 어휘인식으로 재분류 되는데 대용량 어휘인식은 Dictation(낭독)기술에서 볼 수 있듯이 수만 단어 이상을 인식하는 기술이다.

어휘종속은 가변 어휘인식으로도 불리는데,가변어휘 인식은 단어가 한정된 것이 아니라 기존에 학습된 어휘의 음소 특징을 추출,조합하여 인식된 어휘 외의 어휘도 인식할 수 있는 기술이다.

발음에 따른 분류는 다시 분절음 인식과 연속음 인식으로 나뉘는데 분절음 인식이란 고립단어,즉,’우리집’ 같은 고립된 단어를 인식하는 것과 고립단어가 연결된 형태,예를 들어 “Check E-mail”등을 인식하는 연결단어 인식,그리고 핵심어만 인식하는 핵심어 인식으로 문장에서 핵심어를 추출하는 기술로 구성된다.

핵심어 인식을 예를 들면 “동경에서 뉴욕까지…”의 문장에서 ‘동경’과 ‘뉴욕’이라는 핵심어를 추출,인식하는 것이다.

연속음 인식은 자연스런 문장을 인식하는 기술로 문장 전체를 모두 인식하는 것으로 음성인식 기술의 최종관문으로 인식되고 있다.

두 번째로 음성합성 기술이다.음성합성 기술은 문자를 음성으로 출력하는 것으로 TTS기술이 대표적인 예다.현재 음성합성 기술은 대단히 자연스러운 수준으로까지 발전되어 있다.

세 번째로 음성인증 기술인데 음성인증 기술이란 특정 화자의 고유 음성 주파수 특성을 미리 학습해 놓고 있다가 음성 명령을 하면 이를 비교,판단하는 인증 기술이다.

음성포탈?

여기서 우리가 짚고 넘어가야 할 것이 바로 음성포탈에 대한 부분이다.음성포탈-음성으로 엑세스하고 음성을 통해 정보를 이용하는 포탈이라 추측되는데 과연 음성포탈이 존재할 것인가?

현재 음성포탈을 강력하게 외치는 곳으로 SK의 리빙오케이(www.livingok.com)를 들 수 있다.장동건이 ‘말로 합시다’라는 멘트의 광고에서 볼 수 있듯이 OKCashbag관련 사이트들에서 보이스 브라우저를 통해 브라우저를 제어하는데 보이스로 가능한 명령어는 관련 사이트들과 ‘뒤로’,’ 앞으로’ 등의 기본적인 명령어를 포함한다.

이러한 보이스 브라우저는 보이스웨어에서도 다운로드 받아 사용할 수 있는데 역시 기본적인 ‘뒤로’,’ 앞으로’ 등의 명령어와 미리 입력한 사이트 주소-‘데이빗앤대니’를 인식하여 이동하는 기능을 담고 있다.

한마디로 말해서 음성포탈은 어느 특정 웹사이트의 전유물이 될 수 없기에 ‘음성포탈’이란 존재하지 않을 것이다.그것은 마치 브로드밴드 포탈과 같은 마케팅 용어로서만 존재할 것이라고 본다.결국,모든 포탈이 조만간 음성인식 인프라를 적용할 것이다.

음성인식 기술의 발전모습은?

음성인식이 현실적으로 가장 효율적으로 사용될 수 있는 부분은 바로 고객센터다. 정교화된 CTI(Computer Telephony Intergration)와 음성인식 기술의 접합은 고객의 접속 시 미리 음성인증을 통해 고객정보를 확인한 후 서비스 응대를 기할 수 있을 뿐만 아니라 그 고객의 서비스 이용에 대한 과거 기록을 데이터베이스와 쉽게 연동함으로써 고객이탈을 방지하는데 큰 기여를 하게 될 것이다.전화는 전산업부문을 막론하고 고객서비스의 75~95%를 점하고 있지 않은가?

두 번째는 앞에서도 거론했듯이 모바일 인터넷의 발전과 함께 언제 어디서나 말로 통하는 인터넷 정보 이용과 상거래 모델들을 만들어 낼 것이다.

그리고 세 번째는 음성인식이 가전이나 완구 등에 이식되면서 상상도 못했던 다양한 제품들을 창출해 낼 것이다.만약,냉장고에 음성인식 기술이 접목되었고,그것이 블루투스를 통해 PC와 피코넷으로 연결되어 있다면,그리고 냉장고 안의 우유에 웹코드-웹과 연동된 바코드-가 부착되어 있다면 어떤 일이 일어날까?

새벽에 컬럼을 쓰고 있는 필자에게 PC의 스피커에서 이런 가냘프게 떨리는 목소리가 들려 올 것이다.”저 우윤데요….30분만 지나면 저 상할지도 몰라요…..”

또 다른 상상을 해보면…,만약 음석인식 칩이 장착된 로봇 강아지 장난감과 블루투스가 내장된 TV가 있다면 이런 일이 일어날 것이다.”’천사의 분노’할 때 불러!’,필자가 로봇강아지에게 명령하고 컬럼을 쓰고 있노라면 ‘천사의 분노’가 TV에서 시작할 때 로봇 강아지는 TV주파선을 읽어낸 후 쪼르르 책상으로 달려와 이렇게 말할 것이다.”주인님,’천사의 분노’ 곧 시작 하는데요?”

음성인식 기술이 완벽하게 사람의 기관처럼 반응하려면 아직 수많은 난제들을 극복해야 한다.

그러나 이러한 즐거운 상상 속의 기술은 이미 개발이 완료된 상태다.음성인식과 블루투스,그리고 네트워크 기술이 한데 어우러지는 세상-오늘 우리 컬럼 독자분들의 하루는 이런 즐거운 상상으로 가득 찼으면 하는 바람으로 글을 닫는다! 2000/11/6

You may also like