O Windows Voice Typing (Win+H) usa modelos de fala pré-transformer da Microsoft. A precisão em inglês claro fica em torno de 88%. Acentos estragam. Outros idiomas estragam. O OpenAI Whisper é a alternativa moderna, com precisão em torno de 98% em inglês claro, forte em sotaques e 96 idiomas, e ele roda gratuito, localmente, no mesmo PC Windows.
Mesmo microfone, mesmo PC Windows, dois modelos de fala diferentes.
O reconhecimento de fala embutido da Microsoft é conveniente, mas usa uma pilha de reconhecimento de fala mais antiga. A precisão em benchmarks de inglês americano claro fica em torno de 88% (um erro a cada nove palavras). Em inglês com sotaque, cai na faixa dos 70. Na maioria dos idiomas não ingleses, é inutilizável para escrita real. É gratuito, é embutido, funciona para listas de compras.
O Whisper é um modelo moderno de reconhecimento de fala transformer da OpenAI, treinado em 680.000 horas de áudio. Benchmarks independentes colocam a precisão em torno de 97 a 98% em inglês claro, com forte desempenho em sotaques e 96 idiomas. StarWhisper empacota o Whisper em um aplicativo Windows gratuito que roda localmente no seu PC. Mesmo microfone. Texto substancialmente melhor.
Diferenças de precisão específicas que você notará no primeiro dia
Inglês indiano, escocês, singapurense, sul-africano, caribenho, australiano. O Whisper foi treinado em todos eles. O Win+H foi treinado principalmente em inglês americano e isso mostra. A lacuna é muito maior do que os 10 pontos do título.
O Whisper lida com 96 idiomas. O Win+H suporta uma lista muito mais curta e a precisão varia muito. Para alemão, francês, espanhol, mandarim, japonês, coreano, hindi, árabe, russo e a maioria dos outros, a lacuna é funcionalmente a diferença entre utilizável e inutilizável.
O Whisper lida com termos de programação, vocabulário médico, linguagem jurídica e terminologia científica com mais precisão porque o corpus de treinamento incluiu esse conteúdo. O Win+H tende a corrigir automaticamente palavras técnicas em equivalentes comuns em inglês.
Nomes de pessoas, lugares, marcas, produtos. O Whisper preserva mais deles. O Win+H frequentemente distorce nomes não ingleses ou substitui por um palpite fonético.
O Whisper mantém o contexto entre frases e produz parágrafos mais coerentes. O Win+H é otimizado para falas curtas e tende a perder o fio no ditado de múltiplas frases.
O Whisper insere pontuação contextualmente e respeita os limites das frases. O Win+H exige que você diga "vírgula" e "ponto" explicitamente, o que diminui a fala natural e produz transcrições desajeitadas.
A Microsoft lançou o reconhecimento de fala no Windows há mais de vinte anos. O Windows Vista tinha o Windows Speech Recognition (WSR), a ferramenta de ditado acionada pelo teclado que quase ninguém usava. O Windows 10 adicionou um redesenho do Voice Typing em 2017, acessível pelo atalho Win+H. O Windows 11 refinou ainda mais a interface. O que não mudou de forma significativa é o modelo de fala subjacente.
O modelo acústico subjacente no Windows Voice Typing data da era pré-transformer. Ele usa arquiteturas de rede neural recorrente treinadas em um corpus relativamente pequeno, composto principalmente por inglês americano. Por contraste, o campo avançou duas vezes: primeiro para modelos baseados em transformer, e depois para pré-treinamento multilíngue em escala massiva. O Whisper é o exemplo aberto mais proeminente da segunda onda, com 680.000 horas de dados de treinamento em 96 idiomas.
A lacuna de precisão é estrutural, não um problema de ajuste. A Microsoft está presumivelmente trabalhando em fala de próxima geração, mas por enquanto, a ferramenta embutida do Windows repousa sobre tecnologia mais antiga. Se você já se perguntou por que o ditado no seu telefone Pixel ou no seu iPhone parece mais preciso do que no seu laptop Windows, é a mesma explicação: esses telefones rodam modelos mais novos.
A diferença de precisão aparece imediatamente em frases reais. Abaixo estão exemplos típicos de relatórios de usuários. A coluna Falado é o que foi dito. A coluna Win+H é a saída literal. A coluna Whisper é o que o StarWhisper produziu a partir de áudio idêntico.
| Falado | Saída Win+H | Saída Whisper (StarWhisper) |
|---|---|---|
| "A implantação foi para staging às 15h" | a implantação foi para staging às três p m | A implantação foi para staging às 15h. |
| "Agende uma reunião com Aoife na quinta-feira" | agendar uma reunião com eva na quinta-feira | Agende uma reunião com Aoife na quinta-feira. |
| "O paciente relatou dispneia intermitente" | o paciente relatou disney intermitente | O paciente relatou dispneia intermitente. |
| "Refatorar o middleware de autenticação para usar tokens JWT" | refatorar o middleware de off para usar tokens jay w t | Refatorar o middleware de autenticação para usar tokens JWT. |
| "Enviar o contrato para [email protected]" | enviar o contrato para monara em example ponto com | Enviar o contrato para [email protected]. |
Estes exemplos não foram escolhidos aleatoriamente. Eles são representativos do tipo de erro que você vê se ditar por qualquer período de tempo com qualquer coisa que não seja o vocabulário americano mais genérico.
A diferença de precisão não é mágica, é arquitetura e escala. O Whisper é um transformer sequence-to-sequence treinado de ponta a ponta em um corpus de áudio massivo e diverso. StarWhisper empacota o modelo Whisper e o executa localmente no seu PC Windows.
O OpenAI treinou o Whisper em aproximadamente 680.000 horas de áudio coletado da web, incluindo 117.000 horas de dados multilíngues e 125.000 horas de dados de tradução. Isso é aproximadamente duas ordens de magnitude mais do que o que a pilha antiga da Microsoft foi treinada. Dados de treinamento maiores e mais diversos são o maior motivo pelo qual o Whisper lida bem com sotaques, vocabulário técnico e idiomas não ingleses.
O Whisper usa um transformer encoder-decoder, a mesma arquitetura geral de GPT e modelos de tradução modernos. Esta arquitetura é muito melhor em contexto de longo alcance do que os modelos recorrentes que dominaram o reconhecimento de fala durante a década de 2010. É por isso que o Whisper produz parágrafos coerentes, enquanto sistemas mais antigos produzem frases coerentes e perdem o fio entre elas.
O Whisper foi treinado conjuntamente em múltiplas tarefas de fala: transcrição, tradução, identificação de idioma, detecção de atividade de voz. Essa configuração multitarefa produz um modelo que é robusto em condições onde qualquer modelo de tarefa única degradaria. Na prática, isso significa que o Whisper lida com lacunas silenciosas, ruído de fundo e troca de idioma com graça.
Como o Whisper é de código aberto e de tamanho razoável, ele cabe em uma máquina Windows de consumo e roda em velocidades utilizáveis na CPU. É por isso que o StarWhisper pode empacotá-lo como uma ferramenta local gratuita. Nenhuma assinatura em nuvem está envolvida, nenhum áudio sai do seu PC, e a vantagem de precisão se aplica independentemente da conectividade com a internet. O detalhamento completo de como o modelo roda localmente está na página de privacidade e recursos offline.
O Windows Voice Typing é gratuito, vem embutido, é instalado em todas as máquinas Windows 10 e 11, e não requer nenhuma configuração. Para o caso em que você deseja ditar uma única frase em uma caixa de texto e não se importa com acentos, vocabulário técnico ou idiomas não ingleses, ele funciona. Muitos usuários também obtêm valor real dele em celulares, onde a ditação embutida equivalente também é boa o suficiente para mensagens curtas.
Se suas necessidades de ditado se limitam a "ocasionalmente uma frase curta no Notepad, em inglês americano claro, sem nomes próprios", não há motivo para instalar mais nada. O atrito de instalar um aplicativo separado não vale a pena por uma frase a cada poucas semanas.
| Capacidade | Windows Voice Typing (Win+H) | StarWhisper (Whisper) |
|---|---|---|
| Precisão em inglês claro | ~88% | ~97-98% |
| Inglês com acento | Fraco | Forte |
| Idiomas não ingleses | Limitado | 96 idiomas |
| Vocabulário técnico / médico / jurídico | Distorcido | Preservado |
| Pontuação automática | Manual ("vírgula", "ponto") | Automático |
| Números automáticos (3 PM vs three p m) | Não | Sim |
| Áudio sai do seu dispositivo | Sim (nuvem Microsoft) | Não (Modo Local) |
| Funciona offline | Não | Sim |
| Aceleração GPU | Não | NVIDIA CUDA + Vulkan |
| Custo | Gratuito, embutido | Grátis até 500 wpd, $10/mês ilimitado |
| Atalho de teclado | Win+H (fixo) | Configurável |
| Funciona em qualquer campo de texto | A maioria | Todos |
Você não precisa escolher. Ambos podem coexistir. Aqui está o caminho mais simples.
A maioria dos usuários descobre que em uma semana eles param de pressionar Win+H completamente porque a diferença de precisão é grande o suficiente para que a ferramenta embutida se torne irritante em comparação. Se você deseja uma comparação mais profunda dos dois recursos lado a lado, a página dedicada StarWhisper vs Windows Voice Typing cobre os trade-offs com mais detalhes.
Whisper é uma rede neural real e precisa de algum poder de processamento para rodar rápido, mas os requisitos são modestos pelos padrões de 2026.
Para máquinas mais antigas ou de especificações mais baixas, o StarWhisper escolhe automaticamente o tamanho do modelo Whisper correto. O modelo pequeno roda em tempo real em basicamente qualquer laptop Windows moderno, até mesmo gráficos integrados. Os modelos médio e grande são mais lentos, mas mais precisos e se beneficiam da GPU. Vulkan está disponível como um caminho GPU cross-vendor para placas AMD e Intel.
Se o motivo pelo qual você pergunta "por que a ditação do Windows é tão ruim" é que você quer um fix local gratuito que respeite seu hardware, a resposta é sim, isso funciona em máquinas que você já possui. Há mais detalhes na página de recursos de precisão profissional.
Esta é uma reclamação comum do Win+H. O fix da documentação de suporte da Microsoft geralmente é redefinir as permissões de fala ou reinstalar pacotes de idioma. Se você encontrou isso várias vezes e deseja uma ferramenta mais estável, instalar um aplicativo de ditado separado é uma solução alternativa razoável. StarWhisper roda de forma independente da pilha de fala do Windows, então ele não quebra da mesma maneira.
Win+H não pontua automaticamente por padrão. Você pode ativar uma configuração chamada "pontuação automática" em algumas versões recentes do Windows, mas o comportamento é inconsistente. Whisper lida com a pontuação de forma contextual baseada na estrutura da frase, então pausas faladas se tornam vírgulas, finais se tornam pontos, e assim por diante, sem intervenção manual.
Esta é a reclamação mais comum e aquela com o maior fix. Whisper lida com inglês com acento com precisão próxima à de um falante nativo. Se o seu sotaque for diferente de americano, a lacuna é grande o suficiente para que mudar para uma ferramenta baseada em Whisper pareça ganhar óculos pela primeira vez.
Win+H funciona na maioria dos campos de texto padrão do Windows, mas tem casos extremos em aplicativos específicos. StarWhisper usa o mesmo mecanismo de colagem que qualquer outro IME do Windows, então funciona onde quer que seu teclado funcione, incluindo em aplicativos onde Win+H falha. Isso se aplica ao Word, Outlook, barras de endereço do Chrome, Slack, e assim por diante. A página dedicada FAQ de ditado de voz offline detalha a lista de compatibilidade.
O plano gratuito cobre 500 palavras por dia, o que é suficiente para avaliar a diferença de precisão em trabalho real por uma ou duas semanas. Se você se encontrar usando ditado intensamente (escritores, pesquisadores, criadores de conteúdo, qualquer pessoa que produza mais de alguns milhares de palavras por dia), o Pro custa $10 por mês ou $80 por ano. Não há cálculo por assento e nenhum nível de upsell. Detalhes de preços na seção de preços da página inicial.
Para escritores em particular, a velocidade do ditado baseado em Whisper é o principal atrativo quando a precisão não é mais o bloqueador. Veja voice to text para escritores para o fluxo de trabalho de escrita de formato longo especificamente.
Comparação detalhada lado a lado das duas ferramentas.
Como o StarWhisper atinge 97-98% de precisão em ditado do mundo real.
Configuração, atalhos, aplicativos compatíveis e comportamento offline no Windows.
Fluxos de trabalho de ditado de longa forma para autores, blogueiros e jornalistas.