음성 인식 API (Speech Recognition API)

Chrome의 음성 인식 API (Speech Recognition API) 는  크롬이 25버전 부터 지원된 스팩입니다.
현재는 Chrome과 Opera만 지원하고 있으며 사용 방법은 간단합니다.

음성인식 API 인스턴스 생성 후 간단한 호출로 브라우저에 내장되어 있는 음성인식 API를
사용 할 수 있습니다. (예제 보기 | 예제 코드)

마이크로 입력된 음성을 Text로 변환하여 리턴해주며, 서버를 거치지 않기 때문에 1인 환경에서는
생각보다 빠르고 정확한 인식률을 보여줍니다.

제가 이 분야에 관심은 갖게 된 계기는 이전에 포스팅했던 “스카이프 음성 통역 영상“을 본 후 인데요.
음성 인식 기술을 활용하여 서로 다른 국가의 어린이가 다른 언어로 대화하여도 그 음성을 Text로 변환하고, 또 번역API를 통해 실시간으로 상대방에게 메시지를 전달하여 자국어로 다른 나라의 사람과
대화가 통하도록 한것을 보고 실생활에 많은 도움을 줄 수 있는 기술이라고 생각 했습니다.

이 후 활용 가치를 판단하기 위해 여러차례 테스트를 해보았습니다.
1인 환경에서 맥북을 켜고 한국어로 같은 글귀를 읽어서 인식률을 테스트한 결과는 아래와 같습니다.

  • 1m 이내, 인식률 최대 80%이상
  • 1.2m 이내, 인식률 약 60~70%
  • 1.5m 초과, 인식률 약 10% 문자 인식 거의 못함

이어폰 마이크를 사용하면 10%가량 더 좋은 인식률을 보였습니다.

다양한 활용사례가 있지만, 한가지 예를들면 구글 Docs에서는 음성으로 워드 파일을 작성할 수 있게 보조 기구로 제공하고 있습니다.

이 처럼 사람의 손과 발을 완전히 대체 할 수는 없겠지만, 보조 수단으로서의 가치는 충분 하다고 생각이 들기 때문에 앞으로 더 많은 분야에서 적극적으로 활용 될 것이라 생각됩니다.

 

“음성 인식 API (Speech Recognition API)”에 대한 6개의 생각

  1. 안녕하세요 STT 관심있는 사람입니다. 본문에 서버를 거치지 않는다는 말씀이 있는데 그게 정확히 어떤 의미인지 구체적인 설명 부탁드려도 될까요?

    1. 크롬 브라우저 자체에 STT API가 embed 되어 있기때문에,
      서버를 거치지 않고 javascript에서 마이크 stream을 분석하여 text를 리턴합니다.

      물론, 구글이 제공하는 방식중 서버를 통하는 방법도 있습니다.

  2. 안녕하세요 STT를 이용하여 졸업작품에 넣을려합니다.. 깃허브에있는 예제파일을 다운후 넣고 마이크를 누르니 JS 는 134 번째줄이 에러가 뜨고 크롬에서는 마이크 엑세스가 거부되었다는 응답이 나와서요.. ㅎㅎ 해결방법이있을까요?.>

    1. https://webrtclab.herokuapp.com/speech-recognition/ 에서는 되고
      깃허브에 있는 예제파일을 로컬에서 확인할때 에러가 발생한다면 아래 두가지를 확인해보세요.
      1. 카메라 마이크 접근은 https와 localhost도메인에서만 동작합니다.
      2. 크롬 주소창 앞에 아이콘을 클릭한 후 마이크 권한이 허용되어 있는지 확인해주세요

    1. 네 오히려 한글보단 영어가 인식이 잘 됩니다.
      음성인식 옵션의 인식언어를 en으로 바꿔서 해주시면 됩니다.
      (recognition.lang = ‘ko-KR’; ‘en-US’로 변경)

답글 남기기

이메일은 공개되지 않습니다. 필수 입력창은 * 로 표시되어 있습니다.