Transcreva áudio para texto localmente com o Whisper AI rodando no seu navegador via WebGPU

O que é a ferramenta de Transcrição de Áudio com IA?

A ferramenta de Transcrição de Áudio com IA converte gravações de áudio em texto escrito utilizando o modelo Whisper da OpenAI, executado inteiramente no seu navegador. Com a aceleração WebGPU, o processo de transcrição acontece localmente no seu dispositivo — seus arquivos de áudio nunca são enviados a nenhum servidor externo. É ideal para transcrever reuniões, entrevistas, aulas, notas de voz e qualquer conteúdo de áudio em que a privacidade seja prioridade.

Como usar esta ferramenta

Escolha um modelo Whisper no menu suspenso. Modelos menores são mais rápidos para carregar e transcrever, mas menos precisos. Modelos maiores produzem resultados de maior qualidade, porém levam mais tempo.
Selecione o idioma do seu áudio ou deixe em "Detecção automática" para que o modelo identifique o idioma sozinho.
Clique em "Carregar Modelo IA" para baixar os pesos do modelo para o seu navegador. Isso só precisa ser feito uma vez — o modelo fica armazenado em cache localmente.
Depois que o modelo estiver carregado, arraste e solte um arquivo de áudio na área de upload ou clique para selecionar.
Opcionalmente, ative a opção "Incluir marcações de tempo" para obter segmentos com registro temporal na transcrição.
Clique em "Transcrever" e aguarde o resultado. Arquivos mais longos podem levar alguns instantes dependendo do seu hardware.

Como funciona

Esta ferramenta utiliza o modelo Whisper da OpenAI, compilado para rodar no navegador através do framework ONNX Runtime Web com WebGPU como backend de execução. O áudio é decodificado, reamostrado para 16 kHz mono e processado pela arquitetura codificador-decodificador do Whisper para produzir o texto transcrito. Quando as marcações de tempo estão ativadas, o decodificador gera dados de temporização por segmento junto com o texto.

Formatos de áudio suportados

A ferramenta aceita os formatos MP3, WAV, FLAC, OGG, M4A e WEBM. O tamanho máximo é de 100 MB. Para melhores resultados com gravações longas, arquivos com menos de 25 minutos geralmente produzem transcrições mais confiáveis. Gravações mais longas são automaticamente divididas em segmentos para processamento.

Perguntas frequentes

Meu áudio é enviado para algum servidor?

Não. O modelo Whisper roda inteiramente no seu navegador usando WebGPU. Seu arquivo de áudio permanece no seu dispositivo durante todo o processo de transcrição. Nada é enviado, transmitido ou carregado para nenhum serviço externo. Essa abordagem garante privacidade total para gravações sensíveis.

Quais idiomas são suportados?

O Whisper suporta mais de 90 idiomas, incluindo português, inglês, japonês, francês, alemão, espanhol, chinês, coreano, árabe, hindi e muitos outros. Você pode selecionar o idioma manualmente no menu suspenso para maior precisão ou usar a detecção automática.

Qual é o tamanho máximo de arquivo?

A ferramenta aceita arquivos de áudio com até 100 MB. Para desempenho ideal, arquivos mais curtos (menos de 25 minutos) tendem a produzir transcrições mais precisas. Gravações mais longas são automaticamente segmentadas e processadas em blocos.

Transcrição de Áudio com IA