AI와 함께 발전하는 음성 인식 기술을 만나다
음성은 인간이 사용하는 가장 보편적인 의사소통 방식이다. 하지만 음성만으로 소통이 어려운 상황을 위해, 인간은 음성을 문자로 나타내는 방법을 끊임없이 연구해왔다. 그러한 노력은 현대에 이르러 ‘음성 인식 기술’을 만들어 냈다. 음성 인식 기술의 사전적 정의는 ‘인간의 음성을 인식해 그 내용을 문자의 형태로 변환하는 기술’이다. 다양한 분야에서 사용되고 있는 음성 인식 기술에는 어떤 원리가 숨어 있을까?
음성 인식 기술은 크게 ▲단어 음성 인식 ▲연속 음성 인식 ▲화자 인식 시스템으로 분류된다. 단어 음성 인식 시스템은 명사만을 인식하는 시스템이다. 연속 음성 인식 시스템은 명사뿐만 아니라 목적어, 동사 등의 음성을 인식해 문자 형태로 전환한다. 음성이 무엇인지 인식하는 것이 목적인 두 시스템과 달리, 화자 인식 시스템은 음성을 발성 한 인물을 판정하거나 식별하는 것을 목표로 한다. 유하진(서울시립대학교 컴퓨터과학부) 교수는 “단어 음성 인식 시스템은 단어 단위로 끊어서 인식하는 시스템이고, 연속 음성 인식 시스템은 우리가 평소 말하는 것처럼 문장 단위로 음성을 인식한다”며 “화자 음성 인식 시스템은 ‘누가 어떤 내용을 말했는가’보다는 ‘말한 사람이 누구인가’ 를 알아내는 것”이라고 설명했다.
음성 인식 기술의 원리를 파악하기 위해서는 사람이 소리를 내고 듣는 원리부터 이해해야 한다. 모든 소리는 물체의 진동으로 인해 발생하는 파동*의 형태를 띠며, 이는 음성도 마찬가지다. 폐에서 나온 공기가 성대를 때리면서 진동을 발생시키고, 이 진동이 성대의 상단 부분인 ‘성도’와 입을 통과해 외부로 퍼져나가 파동의 형태로 나타난다. 파동의 형태를 띤 음성은 우리 귀로 들어가 고막을 진동시키고, 이 진동은 달팽이관까지 이어져 청각세포를 자극시킨다. 이후 청각세포의 활동이 신경을 거쳐 뇌로 전달되면 음성으로 인식한다.
이처럼 사람이 진동으로 소리를 전달받듯, 컴퓨터도 진동으로 음성을 전달받는다. 사람이 컴퓨터와 연결된 마이크에 소리를 내면 마이크의 진동판이 고막처럼 진동한다. 마이크는 진동으로 생기는 파형을 인식하고 이를 컴퓨터로 전달한다.
마이크를 통해 전달된 소리는 음성 인식에 필요하지 않은 소리도 포함하고 있기에, 필요한 음성만을 추출해야 한다. 일상생활에서의 모든 소리는 인식하고자 하는 음성 뿐만 아니라 잡음, 잔향 등 소음을 포함한 다. 따라서 정확한 음성을 인식하기 위해서는 소음을 제거하는 과정을 거쳐야 한다. 이 과정에서는 인식하고자 하는 음성을 식별해 어떤 주파수** 대역을 갖는지 알아낸 후, 불필요한 소리의 주파수 대역을 제거한다. 유 교수는 “소음을 제거할 때는 소음이 있는 주파수 대역을 제거하는 방법을 주로 사용한다”고 밝혔다.
소음이 제거된 음성은 컴퓨터가 인식할 수 있도록 수치화된다. 음성은 물리적인 진동이기에 이를 컴퓨터가 처리하기 위해서는 숫자로 변환시켜야 한다. 수치화하는 과정에서는 ‘Analog-to-Digital Converter(이하 ADC)’ 회로를 사용한다. ADC는 음성에서 발생하는 물리적 신호를 0과 1로 구성된 디지털 신호로 변환시켜, 컴퓨터가 이를 인식할 수 있게 만드는 회로다. 김준태(SK텔레콤 음성인식팀) 연구원은 “어떤 물리적인 신호를 분석할 때 그 신호의 값이 있어야 정량적인 분석을 수행할 수 있다”며 “자연의 물리신호를 수치화하는 데 ADC 회로를 활용한다”고 전했다.
수치화된 음성에서 ‘음소’를 추출하는 과정 또한 거쳐야 한다. 음소란 말의 뜻을 구별해주는 최소의 언어 단위다. 예를 들어 ‘가방’이라는 단어를 음소 단위로 쪼개면 ‘ㄱ’, ‘ㅏ’, ‘ㅂ’, ‘ㅏ’, ‘ㅇ’이 된다. 음소를 추출하는 과정은 수치화된 음성이 어떤 음소들로 구성돼 있는지 파악하는 과정이라고 설명할 수 있다. 이때는 수치화한 음성과 ‘특징 벡터’를 비교하는 방식을 사용한다. 특징 벡터란 모든 음소의 정보를 수치화한 값의 모음이다. 입력한 음성에 대한 특징 벡터값이 컴퓨터 내에 존재하지 않는다면 잘못된 음소를 추출하거나 음소를 아예 추출할 수 없기에 특징 벡터는 음소를 추출하는 과정에서 중요한 요소로 여겨진다. 송정영(배재대학교 컴퓨터공학과) 교수는 “컴퓨터가 얼마나 많은 음성 정보를 추출할 수 있는가에 따라 정확성이 달라질 것”이라고 밝혔다.
최근에는 음소를 효과적으로 추출하기 위해 ‘딥러닝’ 기술을 사용하고 있다. 딥러닝이란 대량의 데이터를 처리하는 등의 복잡한 작업 과정을 학습시킨 후, 스스로 수행하도록 하는 인공지능(이하 AI)의 한 방식이다. 기존에는 음소를 추출하기 위해 각각의 음소를 파악해야 하는 구간마다 특징 벡터를 하나씩 맞춰가며 수작업으로 비교했기 때문에 시간이 오래 걸리는 불편함이 있었다. 하지만 AI가 발달한 최근에는 컴퓨터가 딥러닝 기술을 이용해 입력된 음성을 대량의 특징 벡터와 스스로 비교함으로써, 단어나 문장을 한 번에 추출할 수 있게 된 것이다. 송 교수는 “AI를 사용하기 이전에는 음성을 각각 수작업으로 처리했지만, 현재는 AI 학습을 통해 한꺼번에 처리하는 기술을 사용한다”고 설명했다.
컴퓨터는 추출된 음소를 조합하고, ‘패턴 비교’ 과정을 통해 조합된 음소로 완성된 단어나 문장이 유의미하도록 만든다. 패턴 비교란 두 가지 이상의 음성 정보를 서로 비교해 전체 문맥과 맞는 단어 및 문장을 연결하는 과정을 말한다. 이 과정에서는 ‘언어 모델’이 쓰인다. 언어 모델은 자주 사용하는 단어나 문장을 학습시켜, 자연스럽고 적절한 문장을 만들어내는 모델이다. 컴퓨터는 추출된 음소를 조합해 단어 혹은 문장을 완성하고, 컴퓨터에 내재된 언어 모델과 패턴 비교 과정을 거쳐 문맥에 맞는 구문을 만든다. 예를 들어, 컴퓨터가 음소를 조합하는 과정에서 ‘가바’와 ‘가방’이라는 단어가 나왔다 고 가정해 보자. 전체 문장이 “OO이 예쁘다” 라면 패턴 비교를 통해 컴퓨터는 ‘가바’보다 ‘가방’이 문맥상 더 적절하다고 판단해 가방이라는 언어 모델을 통과시켜 문장을 완성한다. 컴퓨터 내 존재하는 언어 모델의 학습량이 적다면 컴퓨터가 유사한 단어나 문장을 찾을 수 없어, 음성을 낸 사람이 의도치 않은 문자 형태로 음성이 전환된다. 이에 언어 모델 학습은 음성 인식 기술에서 중요한 역할을 수행한다.
음성 인식 기술은 최종적으로 적절하다고 판단된 단어나 문장을 문자 형태로 추출한다. 패턴 비교 과정을 통해 추출된 단어나 문장은 컴퓨터가 처리했기에 컴퓨터만이 인식할 수 있는 수치로 나타나 있다. 이를 사람이 알아볼 수 있게 문자 형태로 전환하는 과정이 필요하다. 이 과정에서는 물리적 신호를 디지털 신호로 전환한 ADC 회로를 역방향으로 처리해, 디지털 신호를 물리적 신호로 변환시켜 사람이 인식할 수 있는 문자 형태로 변환한다.
다만 음성 인식 기술을 사용하는 과정에서 개인 정보 유출 문제가 발생하기도 한다. 음성 인식 기술이 사용자의 목소리를 수집하기에 이를 누군가가 해킹할 우려가 있기 때문이다. 사람의 지문처럼 각각의 목소리도 개인의 고유한 특성이기에 개인 정보 보호가 필요하다. 송 교수는 “사람마다 모두 다른 특성을 가진 고유한 음성을 보호하기 위한 연구가 필요하다”고 말했다.
개인 정보 문제를 해결하기 위해 ‘On Device AI 음성인식기(이하 온 디바이스 AI)’에 대한 연구가 진행되고 있다. 온 디바이스 AI는 클라우드 서버***를 거치지 않고 자체적으로 정보를 수집하고 처리하는 AI 기술을 말한다. 기존의 음성 인식 기술은 클라우드 서버를 거쳐 음성을 저장하고, 저장된 음성을 인식한다. 이는 저장된 음성을 해킹하거나 조작해 음성을 활용한 보안 장치, 화자 인식 시스템 등에 악용할 가능성이 존재한다. 반면 온 디바이스 AI를 활용하면 클라우드 서버를 거치지 않아 음성이 저장되지 않고, 곧바로 음성을 문자 형태로 전환해 개인 정보 유출 문제 가능성이 줄어든다. 김 연구원은 “온 디바이스 AI는 개인 정보 유출 우려가 존재하는 기존의 음성 인식 기술과 다르게 사용자의 음성은 저장하지 않는다”라고 밝혔다.
전문가들은 음성 인식 기술에 관한 연구가 확대돼야 한다고 말한다. AI가 등장한 이후, 음성 인식 기술 연구보다 음성 명령을 통해 정보 검색, 일상 대화 등의 서비스를 제공하는 AI 연구가 주로 이뤄지고 있다. 하지만 이와 같은 AI도 음성 인식 기술을 활용하고 있기에, 음성 인식에 관한 연구는 필수적이다. 송 교수는 “AI 기술이 등장함에 따라 음성 인식에 관한 연구의 필요성이 없다고 하는 사람도 존재하지만, 음성 인식의 중요성과 응용 범위는 점점 커지고 있기에 지속적인 연구가 필요하다”고 전했다.
*파동 : 한 지점에서 발생한 진동이 사방으로 퍼져 나가는 현상
**주파수 : 1초 동안의 진동 및 파동의 횟수
***클라우드 서버 : 정보를 처리하거나 데이터를 제공하는 인터넷 기반의 가상공간
권수연 기자