ToolzPod

AI 음성 텍스트 변환

AI가 음성을 텍스트로 변환합니다. 오디오 파일을 업로드하세요.

모델을 선택하고 «AI 모델 로드»를 클릭하세요. 오디오는 브라우저에서 완전히 처리되며 — 서버로 전송되지 않습니다.

🎤

오디오 파일을 여기에 드래그하거나 클릭하여 선택하세요

지원 형식: MP3, WAV, FLAC, OGG, M4A, WEBM (최대 100MB)

처리 후 음성 인식 결과가 여기에 표시됩니다...

AI 음성 인식 도구란?

AI 음성 인식 도구는 OpenAI의 Whisper 모델을 사용하여 오디오 녹음을 텍스트로 변환합니다. 브라우저 내에서 완전히 실행됩니다. WebGPU 가속을 통해 음성 인식 과정이 기기에서 로컬로 처리되므로, 오디오 파일이 외부 서버로 전송되지 않습니다. 회의, 인터뷰, 강의 또는 기밀 오디오 콘텐츠를 텍스트로 변환하는 데 적합합니다.

사용 방법

  1. 드롭다운에서 Whisper 모델을 선택합니다. 작은 모델은 더 빠르지만 정확도가 낮습니다.
  2. 오디오의 언어를 선택하거나 자동 감지로 둡니다.
  3. «AI 모델 로드»를 클릭하여 모델 가중치를 다운로드합니다. 이 과정은 처음 한 번만 필요합니다.
  4. 오디오 파일을 드래그 앤 드롭하거나 드롭존을 클릭합니다.
  5. 시간 구간별 세그먼트가 필요하면 타임스탬프를 활성화합니다.
  6. «음성 인식»을 클릭하고 결과를 기다립니다.

기술적 작동 방식

이 도구는 OpenAI의 Whisper 모델을 ONNX Runtime Web과 WebGPU 백엔드를 통해 브라우저에서 실행합니다. 오디오는 디코딩되어 16kHz 모노로 리샘플링된 후, Whisper의 인코더-디코더 아키텍처를 통해 텍스트로 변환됩니다.

지원 오디오 형식

MP3, WAV, FLAC, OGG, M4A, WEBM 형식을 지원합니다. 최대 파일 크기는 100MB입니다. 긴 녹음은 자동으로 세그먼트로 분할되어 처리됩니다.

자주 묻는 질문

오디오가 서버로 전송되나요?

아니요. Whisper 모델은 WebGPU를 통해 브라우저 내에서 완전히 실행됩니다. 오디오 파일은 전체 과정에서 기기에 머물며, 외부 서비스로 데이터가 전송되지 않습니다.

어떤 언어가 지원되나요?

Whisper는 한국어, 영어, 일본어, 프랑스어, 독일어, 스페인어, 중국어 등 90개 이상의 언어를 지원합니다. 수동으로 언어를 선택하거나 자동 감지를 사용할 수 있습니다.

최대 파일 크기는 얼마인가요?

최대 100MB의 오디오 파일을 지원합니다. 최적의 결과를 위해 25분 미만의 파일이 가장 안정적인 음성 인식 결과를 제공합니다.

관련 도구