음성 인식 API (Speech Recognition API)

Chrome의 음성 인식 API (Speech Recognition API) 는  크롬이 25버전 부터 지원된 스팩입니다.
현재는 Chrome과 Opera만 지원하고 있으며 사용 방법은 간단합니다.

음성인식 API 인스턴스 생성 후 간단한 호출로 브라우저에 내장되어 있는 음성인식 API를
사용 할 수 있습니다. (예제 보기 | 예제 코드)

마이크로 입력된 음성을 Text로 변환하여 리턴해주며, 내부적으로 크롬 speech 서버를 거쳐서 그 결과를 만들어 냅니다.  (1인 환경에서는 생각보다 빠르고 정확한 인식률을 보여줍니다.)

제가 이 분야에 관심은 갖게 된 계기는 이전에 포스팅했던 “스카이프 음성 통역 영상“을 본 후 인데요.
음성 인식 기술을 활용하여 서로 다른 국가의 어린이가 다른 언어로 대화해도 그 음성을 Text로 변환하고, 또 번역API를 통해 실시간으로 상대방이 이해할 수 있는 메시지로 전달하여 자국어로 다른 나라의 사람과 대화가 통하도록 한 것 을 보고 실생활에 많은 도움을 줄 수 있는 기술이라고 생각했습니다.

이 후 활용 가치를 판단하기 위해 여러차례 테스트를 해보았습니다.
1인 환경에서 맥북을 사용하였습니다.
한국어로 같은 글귀를 여러차례 읽어서 인식률을 테스트한 결과는 아래와 같습니다.

  • 1m 이내, 인식률 최대 80%이상
  • 1.2m 이내, 인식률 약 60~70%
  • 1.5m 초과, 인식률 약 10% 문자 인식 거의 못함

이어폰 마이크를 사용하면 90%이상의 인식률을 보였습니다.

다양한 활용사례가 있지만, 한가지 예를들면 구글 Docs에서는 음성으로 워드 파일을 작성할 수 있게 보조 도구로 제공하고 있습니다.

이 처럼 사람의 손과 발을 완전히 대체 할 수는 없겠지만, 보조 수단으로서의 가치는 충분 하다고 생각이 들기 때문에 앞으로 더 많은 분야에서 적극적으로 활용 될 것이라 생각됩니다.