특허받은 음성 인식 기술

영어낭독도서관 클리어플루언시는 "책을 읽는 바로 그 순간" 실시간으로 음성 교정을 해주는 유일한 프로그램입니다.


미국 특허번호 6986663 는 음성 인식 및 처리 기술에 관련된 특허로, 클리어플루언시의 정확한 음성 인식 기능은 이 특허에서 비롯합니다. 특히 소음이 있는 환경에서도 발음을 정확히 인식하여, 일반 가정이나 학원의 랩실 같은 환경에서도 정확한 지도가 가능합니다.


이 외에도 카네기 러닝의 독특한 ‘지도받으며 소리내어 읽기’ 방식은 여러 특허(등록된 특허와 출원 중인 특허 모두)와 연관되어 있습니다.


  • “Assessing fluency based on elapsed time”, U.S. Patent No. 7433819
  • “Intelligent Tutoring Feedback”, U.S. Patent No. 8109765
  • “Word competition models in voice recognition”, U.S. Patent No. 7624013
  • “Microphone setup and testing in voice recognition software”, U.S. Patent No. 7243068
  • “Sentence Level Analysis”, U.S. Patent Application No. 20060069558


* 왼쪽 이미지는 미국 특허에 대해 이해를 돕기 위한 예시 이미지이며, 실제 특허권은 A4 문서 형태입니다.

특허받은 음성 인식 기술 

영어낭독도서관 클리어플루언시는 "책을 읽는 바로 그 순간" 실시간으로 음성 교정을 해주는 유일한 프로그램입니다.

미국 특허번호 6986663 는 음성 인식 및 처리 기술에 관련된 특허로, 클리어플루언시의 정확한 음성 인식 기능은 이 특허에서 비롯합니다. 


이 외에도 카네기 러닝의 독특한 ‘지도받으며 소리내어 읽기’ 방식은 여러 특허(등록된 특허와 출원 중인 특허 모두)와 연관되어 있습니다.


- “Assessing fluency based on elapsed time”, U.S. Patent No. 7433819

- “Intelligent Tutoring Feedback”, U.S. Patent No. 8109765

- “Word competition models in voice recognition”, U.S. Patent No. 7624013

- “Microphone setup and testing in voice recognition software”, U.S. Patent No. 7243068

- “Sentence Level Analysis”, U.S. Patent Application No. 20060069558


* 위 이미지는 미국 특허에 대해 이해를 돕기 위한 예시 이미지이며, 실제 특허권은 A4 문서 형태입니다.

원어민 독서 지도 교사와

95% 일치합니다 

보스턴의 초등학생 153명의 녹음파일을 전문적인 독사교사 두 명이 평가한 결과, 두 교사간의 의견은 약 98% 일치하였으며 전문 독서 교사들의 의견과 클리어플루언시의 지도 내용 비교에서는 95% 일치하였습니다.

클리어플루언시에 사용된 기술 

클리어플루언시는, 단순하고 직관적인 프로그램이지만

그 안에 사용된 음성 인식 기술은 복잡하교 정교합니다.

16만개 이상의 오디오 파일 기반 음향 모델

다른 많은 음성 인식 애플리케이션과 달리, 클리어플루언시는 5세 어린이부터 성인까지 다양한 연령대의 학생들의 음성을 해석할 수 있어야 합니다. 또한 다양한 문화의 억양, 영어를 학습 중인 학습자의 발음, 그리고 학생들이 많은 실습실의 어려운 소음 조건도 처리해야 합니다.

이러한 다양한 변수를 처리할 수 있는 음향 모델을 만들기 위해서는 방대한 양의 다양한 오디오 데이터가 필요합니다. 클리어플루언시의 음향 모델을 만들기 위해 사용된 데이터의 양은, 어린이와 청소년, 그리고 성인의 읽기 데이터를 기반으로 약 80시간 이상의 녹음 자료가 포함되어 있습니다. 전체적으로 클리어플루언시의 음향 모델을 개발하는 데 사용된 오디오 파일은 16만 개가 넘습니다.

정교한 '음성 인식 문법' 

음성 인식 프로그램에서 또 하나 중요한 요소는 음성 인식 문법입니다. 이 문법은 사용자가 어떤 단어를 말할 것으로 예상되는지와 그 단어들이 어떤 순서로 말해질지에 대한 규칙을 정의합니다. ‘지도받으며 소리내어 읽기 기술’의 경우, 소프트웨어는 사용자가 화면에 표시된 텍스트를 읽을 것으로 기대하지만, 사용자가 실수를 하거나 단어를 반복하거나 문장을 다시 시작할 가능성도 고려해야 합니다. 음성 인식 문법은 이러한 모든 행동을 소프트웨어가 해석할 수 있도록 지원하며, 텍스트의 단어들이 말해질 다양한 방식에 대해 서로 다른 확률을 부여할 수도 있습니다. 


필러 filler 단어가 포함된 음성 사운드 모델

사용자가 산만해져서 이야기와 전혀 상관없는 단어를 말할 수도 있습니다. 이러한 경우를 처리하기 위해, 이른바 "필러(filler)" 단어가 포함된 일반 음성 사운드 모델이 문법에 포함됩니다. 필러 단어는 이런 예외적인 행동을 소프트웨어가 처리할 수 있도록 돕는 역할을 합니다.

크로스 플랫폼

클리어플루언시 플러그인은 브라우저 플러그인을 제작하기 위해 FireBreath 프레임워크를 사용합니다. FireBreath 아키텍처는 플러그인의 핵심 기능을 Mac과 Windows 같은 다양한 플랫폼에서, 그리고 여러 브라우저에서 사용할 수 있도록 지원합니다. Chrome 브라우저에서는 음성 인식과 음성 처리 기능이 웹 애플리케이션 자체 내에서 구현되기 때문에 플러그인이 필요하지 않습니다.

음성 압축 기술

클리어플루언시는 학생의 읽기 내용을 녹음하여 이후 재생할 수 있도록 저장합니다. 학생의 읽기 데이터를 업로드하고 저장하기 위해, 음성 압축 기술을 활용하여 대역폭과 저장 공간 요구 사항을 줄입니다. 클리어플루언시는 VoIP(Voice over IP) 애플리케이션을 위해 설계된 Speex 인코더를 사용하며, 이를 브라우저 기반 재생에 적합한 형식으로 캡슐화할 수 있습니다.

마이크 볼륨 자동 조절 기능

마이크 입력 감도(볼륨)를 제어하는 것은 양질의 오디오 품질과 성공적인 ‘지도받으며 소리내어 읽기’ 경험을 보장하기 위해 필수적입니다. 감도가 너무 낮으면 사용자의 목소리가 들리지 않고, 너무 높으면 음이 왜곡되어 학생의 발화를 이해할 수 없게 됩니다. 클리어플루언시는 마이크 입력 수준을 지속적으로 모니터링하며 필요에 따라 조정합니다.

영어교육학 이론을 접목한

지능형 피드백 기술

영어낭독도서관 클리어플루언시는 "책을 읽는 바로 그 순간" 실시간으로 음성 교정을 해주는 유일한 프로그램입니다.

읽기 중 지능형 피드백

성공적인 ‘지도받으며 소리내어 읽기’ 경험을 위해, 피드백을 제공하는 시점과 방법을 결정하는 애플리케이션 로직은 음성 인식 엔진의 성능만큼이나 중요합니다.


균형 잡기: 유창성을 촉진하면서도 필요한 경우 개입

클리어플루언시는 매우 다양한 읽기 능력과 접근 방식을 가진 학생들을 효과적으로 안내할 수 있어야 합니다. 소프트웨어는 필요한 경우 개입하여 학생이 단어를 반복하거나 정확한 단어를 제공하도록 돕습니다. 그러나 불필요한 개입은 유창성을 방해하고 좌절감을 초래할 수 있기 때문에 주의가 필요합니다. 소프트웨어가 피드백을 제공할 시점과 방식, 그리고 학생이 스스로 계속 읽도록 허용할 시점을 결정하는 세부 사항은 긍정적인 사용자 경험을 위해 매우 중요합니다.


읽기 수준에 따른 피드백 타이밍 조정

초급 독자는 단어를 해독하고 단어 공격 전략(word attack strategies)을 적용하는 데 더 많은 시간이 필요합니다. 반면, 더 유창한 독자는 단어에 대한 도움이 필요할 때 더 빠른 피드백을 받는 것이 유리합니다. 이러한 이유로, 클리어플루언시는 콘텐츠의 읽기 수준에 따라 피드백 타이밍을 조정합니다. 예를 들어, 2학년 수준 이하의 읽기 수준에서는 피드백이 제공되기 전에 일반적으로 3초의 시간이 주어지며, 더 높은 읽기 수준에서는 2초로 줄어듭니다.

전문 독서 지도 교사와 95% 일치합니다

보스턴의 초등학생 153명의 녹음파일을 전문적인 독사교사 두 명이 평가한 결과, 두 교사간의 의견은 약 98% 일치하였으며

전문 독서 교사들의 의견과 클리어플루언시의 지도 내용 비교에서는 95% 일치하였습니다.

클리어플루언시에 사용된 기술

클리어플루언시는, 단순하고 직관적인 프로그램이지만

그 안에 사용된 음성 인식 기술은 복잡하교 정교합니다.

16만개 이상의 오디오 파일 기반 음향 모델


다른 많은 음성 인식 애플리케이션과 달리, 클리어플루언시는 5세 어린이부터 성인까지 다양한 연령대의 학생들의 음성을 해석할 수 있어야 합니다. 또한 다양한 문화의 억양, 영어를 학습 중인 학습자의 발음, 그리고 학생들이 많은 실습실의 어려운 소음 조건도 처리해야 합니다.

이러한 다양한 변수를 처리할 수 있는 음향 모델을 만들기 위해서는 방대한 양의 다양한 오디오 데이터가 필요합니다. 클리어플루언시의 음향 모델을 만들기 위해 사용된 데이터의 양은, 어린이와 청소년, 그리고 성인의 읽기 데이터를 기반으로 약 80시간 이상의 녹음 자료가 포함되어 있습니다. 전체적으로 클리어플루언시의 음향 모델을 개발하는 데 사용된 오디오 파일은 16만 개가 넘습니다.


정교한 '음성 인식 문법' 


음성 인식 프로그램에서 또 하나 중요한 요소는 음성 인식 문법입니다. 이 문법은 사용자가 어떤 단어를 말할 것으로 예상되는지와 그 단어들이 어떤 순서로 말해질지에 대한 규칙을 정의합니다. ‘지도받으며 소리내어 읽기 기술’의 경우, 소프트웨어는 사용자가 화면에 표시된 텍스트를 읽을 것으로 기대하지만, 사용자가 실수를 하거나 단어를 반복하거나 문장을 다시 시작할 가능성도 고려해야 합니다. 음성 인식 문법은 이러한 모든 행동을 소프트웨어가 해석할 수 있도록 지원하며, 텍스트의 단어들이 말해질 다양한 방식에 대해 서로 다른 확률을 부여할 수도 있습니다.


필러 filler 단어가 포함된 음성 사운드 모델


사용자가 산만해져서 이야기와 전혀 상관없는 단어를 말할 수도 있습니다. 이러한 경우를 처리하기 위해, 이른바 "필러(filler)" 단어가 포함된 일반 음성 사운드 모델이 문법에 포함됩니다. 필러 단어는 이런 예외적인 행동을 소프트웨어가 처리할 수 있도록 돕는 역할을 합니다.


크로스 플랫폼 


클리어플루언시 플러그인은 브라우저 플러그인을 제작하기 위해 FireBreath 프레임워크를 사용합니다. FireBreath 아키텍처는 플러그인의 핵심 기능을 Mac과 Windows 같은 다양한 플랫폼에서, 그리고 여러 브라우저에서 사용할 수 있도록 지원합니다. Chrome 브라우저에서는 음성 인식과 음성 처리 기능이 웹 애플리케이션 자체 내에서 구현되기 때문에 플러그인이 필요하지 않습니다.


음성 압축 기술 


클리어플루언시는 학생의 읽기 내용을 녹음하여 이후 재생할 수 있도록 저장합니다. 학생의 읽기 데이터를 업로드하고 저장하기 위해, 음성 압축 기술을 활용하여 대역폭과 저장 공간 요구 사항을 줄입니다. 클리어플루언시는 VoIP(Voice over IP) 애플리케이션을 위해 설계된 Speex 인코더를 사용하며, 이를 브라우저 기반 재생에 적합한 형식으로 캡슐화할 수 있습니다.


마이크 볼륨 자동 조절 기능 


마이크 입력 감도(볼륨)를 제어하는 것은 양질의 오디오 품질과 성공적인 ‘지도받으며 소리내어 읽기’ 경험을 보장하기 위해 필수적입니다. 감도가 너무 낮으면 사용자의 목소리가 들리지 않고, 너무 높으면 음이 왜곡되어 학생의 발화를 이해할 수 없게 됩니다. 클리어플루언시는 마이크 입력 수준을 지속적으로 모니터링하며 필요에 따라 조정합니다.


영어교육학 이론을 접목한


지능형 피드백 기술

읽기 중 지능형 피드백

성공적인 ‘지도받으며 소리내어 읽기’ 경험을 위해, 피드백을 제공하는 시점과 방법을 결정하는 애플리케이션 로직은 음성 인식 엔진의 성능만큼이나 중요합니다.


균형 잡기: 유창성을 촉진하면서도 필요한 경우 개입

클리어플루언시는 매우 다양한 읽기 능력과 접근 방식을 가진 학생들을 효과적으로 안내할 수 있어야 합니다. 소프트웨어는 필요한 경우 개입하여 학생이 단어를 반복하거나 정확한 단어를 제공하도록 돕습니다. 그러나 불필요한 개입은 유창성을 방해하고 좌절감을 초래할 수 있기 때문에 주의가 필요합니다. 소프트웨어가 피드백을 제공할 시점과 방식, 그리고 학생이 스스로 계속 읽도록 허용할 시점을 결정하는 세부 사항은 긍정적인 사용자 경험을 위해 매우 중요합니다.


읽기 수준에 따른 피드백 타이밍 조정

초급 독자는 단어를 해독하고 단어 공격 전략(word attack strategies)을 적용하는 데 더 많은 시간이 필요합니다. 반면, 더 유창한 독자는 단어에 대한 도움이 필요할 때 더 빠른 피드백을 받는 것이 유리합니다. 이러한 이유로, 클리어플루언시는 콘텐츠의 읽기 수준에 따라 피드백 타이밍을 조정합니다. 예를 들어, 2학년 수준 이하의 읽기 수준에서는 피드백이 제공되기 전에 일반적으로 3초의 시간이 주어지며, 더 높은 읽기 수준에서는 2초로 줄어듭니다.


클리어플루언시는 이런 읽기 지도 이론에 따라, 프로그램이 교사의 역할을 하며 학생을 1:1 지도합니다.

클리어플루언시의 2단계 지도

충분한 연습기회를 제공하기 위해 2단계 과정으로 진행합니다.

   

 클리어플루언시의 ‘Step2. Record’에서는 학생이 단어를 못 읽거나, 틀리게 발음하는 것을 감지하여 올바른 발음을 할 수 있도록 실시간으로 도움을 주며, 학생의 자기주도학습을 위해 2단계로 진행합니다.


1단계 시각적 지도

어떤 단어를 지도할 필요가 있다고 판단하면, 그 단어에 노랑색 하이라이트로 표시를 해 줍니다. 교사가 지정한 [특정 시간]을 기다려 학생 스스로 ‘필요’를 알아 챌 수 있도록 도움을 줍니다.


2단계 청각적 지도

교사가 지정한 [특정 시간]이 지나도 학생이 읽지 못하거나, 발음을 틀리면 클리어플루언시가 그 단어의 올바른 발음을 들려주고, 학생이 따라서 발음할 수 있도록 합니다. 계속해서 제대로 발음하지 못할 경우, 학습을 계속할 수 있도록 다음 문장으로 나아갑니다.


2초 간의 기다림 

시각적 지도(노랑색 하이라이트)와 청각적 지도(음성 안내)의 기본 간격은 각 2초 입니다. 학생이 머뭇거리거나 틀리게 읽은 시점에서 4초(시각 2초, 청각 2초를 기다림)가 지나야  음성(발음) 지도가 시작됩니다. 이 과정으로 학생의 자기 주도적인 학습을 강화합니다.


지능형 피드백 알고리즘 

초보에게는 더 많은 기회와 시간을 줍니다


초보 학습자와 유창한 학습자에게 적절한 지도 타이밍이 언제인지를 알기 위해 카네기러닝에서는 광범위한 연구를 진행했습니다. 연구 내용에는 얼마나 시간을 주어야 학생이 모르던 단어를 올바르게 발음할 수 있는지도 포함되어 있습니다. 연구 결과와 영어 교육학 이론, 그리고 클리어플루언시 책 난이도에 따라 시각적, 청각적 지도 시점을 다르게 적용했습니다.


초보 학습자에게는 스스로 충분히 연습할 시간적 여유를 주기 위해서 기본 지도 시간 보다 1초씩 더 길게 설정했습니다. 난이도 Grade 2 미만의 책은 시각과 청각 지도 타이밍이 각 3초 입니다.

지도할 시점이 되었어도, 학생이 연습 중이면 기다려 줍니다.


학생이 단어를 틀리게 읽었는데도 스스로 고치지 않고 계속해서 읽어나가면, 학생이 틀린 채로 너무 많은 진도를 나가지 못하도록 기본으로 설정한 시간보다 빠르게 개입하는 기술이 적용되어 있습니다.


또한 클리어플루언시가 시각적 지도나 청각적 지도를 주려는 순간, 학생이 무엇인가를 발음하려는 시도가  감지되면,  자동으로 짧은 시간(0.75초) 동안 지도 시점을 미룹니다. 학생이 어떤 단어를 발음하려는 과정에 있다면, 가능한 한 ‘그 노력을 방해하지 않고’ 학생 스스로 단어의 올바른 발음을 완성할 수 있도록 돕기 위한 목적입니다.


다만, Grade2 미만의 책에서 각 3초의 발음 교정 시간 설정을 사용하고 있을  경우에는 0.75초의 대기 기능 작동이 효과적이지 않다는 영어 읽기 연구 결과에 따라 ‘대기 기능’을 작동시키지 않습니다.


음성 지원 후, 3초간 학생이 단어를 발음하지 않을 경우, 클리어플루언시는 그 단어를 건너뛰고 다음 문장으로 넘어갑니다.


교사는 학생의 학습 유형에 따라 지도 타이밍을 더 늦게 또는 더 빠르게 조정할 수 있습니다. 또한 교사는 학생 지도 목적에 따라 원어민 음성 모델과 비교한 발음 정확도를 10% 정확도에서 ~ 100% 정확도 까지 자유롭게 조정할 수 있습니다.

지능형 피드백 알고리즘

초보에게는 더 많은 기회와 시간을 줍니다


초보 학습자와 유창한 학습자에게 적절한 지도 타이밍이 언제인지를 알기 위해 카네기러닝에서는 광범위한 연구를 진행했습니다. 연구 내용에는 얼마나 시간을 주어야 학생이 모르던 단어를 올바르게 발음할 수 있는지도 포함되어 있습니다. 연구 결과와 영어 교육학 이론, 그리고 클리어플루언시 책 난이도에 따라 시각적, 청각적 지도 시점을 다르게 적용했습니다.


초보 학습자에게는 스스로 충분히 연습할 시간적 여유를 주기 위해서 기본 지도 시간 보다 1초씩 더 길게 설정했습니다. 난이도 Grade 2 미만의 책은 시각과 청각 지도 타이밍이 각 3초 입니다.

지도할 시점이 되었어도, 학생이 연습 중이면 기다려 줍니다.


학생이 단어를 틀리게 읽었는데도 스스로 고치지 않고 계속해서 읽어나가면, 학생이 틀린 채로 너무 많은 진도를 나가지 못하도록 기본으로 설정한 시간보다 빠르게 개입하는 기술이 적용되어 있습니다.


또한 클리어플루언시가 시각적 지도나 청각적 지도를 주려는 순간, 학생이 무엇인가를 발음하려는 시도가  감지되면,  자동으로 짧은 시간(0.75초) 동안 지도 시점을 미룹니다. 학생이 어떤 단어를 발음하려는 과정에 있다면, 가능한 한 ‘그 노력을 방해하지 않고’ 학생 스스로 단어의 올바른 발음을 완성할 수 있도록 돕기 위한 목적입니다.


다만, Grade2 미만의 책에서 각 3초의 발음 교정 시간 설정을 사용하고 있을  경우에는 0.75초의 대기 기능 작동이 효과적이지 않다는 영어 읽기 연구 결과에 따라 ‘대기 기능’을 작동시키지 않습니다.


음성 지원 후, 3초간 학생이 단어를 발음하지 않을 경우, 클리어플루언시는 그 단어를 건너뛰고 다음 문장으로 넘어갑니다.


교사는 학생의 학습 유형에 따라 지도 타이밍을 더 늦게 또는 더 빠르게 조정할 수 있습니다. 또한 교사는 학생 지도 목적에 따라 원어민 음성 모델과 비교한 발음 정확도를 10% 정확도에서 ~ 100% 정확도 까지 자유롭게 조정할 수 있습니다.

Glue Words

클리어플루언시의 음성인식기술은 각 단어들을 단어의 중요도에 따라 다르게 인식합니다. 이 점은 영어 읽기유창성 습득을 돕는 클리어플루언시가 일반적인 음성인식 프로그램과의 큰 차이점이기도 합니다.


‘Glue Words’는 학생이 이미 알고 있을 것이라고 추정하는 관사나 전치사와 같은 짧고 흔한 단어들이라고 간단히 요약할 수 있습니다. 기본적으로 65개의 단어들이 Glue Word로 지정되어 있으며, 대명사와 다른 자주 쓰이는 단어들이 포함되어 있습니다.


이 단어들은 대개 의미상 크게 중요하지 않습니다. 종종 발음이 생략되기도 하고 약하게 발음되기 때문에, 인식이 잘 안 되는 쉬운 단어로 볼 수 있습니다. 클리어플루언시는 학생의 낭독을 가급적 방해하지 않기 위해 이런 단어들에 대해서는 엄격하게 인식하지 않도록 설계했습니다.


클리어플루언시는 특별히 낮은 레벨의 텍스트에 적용할 새로운 Glue Words 목록도 개발했습니다. 원래의 Glue Words 목록의 단어라도 낮은 레벨의 독자에게는 낯설 수 있고, 문장 내에서 차지하는 중요도도 높을 수 있다고 판단했기 때문입니다. 낮은 레벨에서는 대명사도 주어나 목적어로서 중요한 의미를 가지는 경우가 많기 때문에 대부분의 대명사를 Glue Words 목록에서 제했습니다.

대표전화 1544-3377 | 이메일 ceo@nslearning.co.kr

㈜뉴로사이언스러닝

서울특별시 중구 남대문로 117, 11층(다동, 동아빌딩) ㅣ대표 최인태

사업자등록번호 120-86-76429 ㅣ통신판매업신고 제2016-서울중구-0735호 ㅣ 개인정보관리 책임자 최인태ㅣ제안 및 고객(사업)최고책임자 ceo@nslearning.co.kr  |  호스팅제공자 (주)아임웹

Copyright © 2025 NeuroScience Learning. All Rights Reserved.

대표전화 1544-3377 | 이메일 ceo@nslearning.co.kr


㈜뉴로사이언스러닝

서울특별시 중구 남대문로 117, 11층(다동, 동아빌딩) ㅣ 이용약관 ㅣ  개인정보처리방침

대표 최인태 ㅣ 사업자등록번호 120-86-76429 ㅣ통신판매업신고 제2016-서울중구-0735호

개인정보관리 책임자 최인태  ㅣ 제안 및 고객(사업)최고책임자 ceo@nslearning.co.kr 

Exclusivity Partner  : (미)Carnegie Learning, (미)DynEd International/Nexgen English Online

Copyright © 2024 NeuroScience Learning. All Rights Reserved.  Hosting by (주)아임웹