Problema a Ser Corrigido

Por Que o Ditado do Windows é Tão Ruim?
(E o Corretivo Gratuito)

O Windows Voice Typing (Win+H) usa modelos de fala pré-transformer da Microsoft. A precisão em inglês claro fica em torno de 88%. Acentos estragam. Outros idiomas estragam. O OpenAI Whisper é a alternativa moderna, com precisão em torno de 98% em inglês claro, forte em sotaques e 96 idiomas, e ele roda gratuito, localmente, no mesmo PC Windows.

Baixar Grátis para Windows
Microsoft Store
  • Confiado pelo Windows
  • Configuração rápida de 30 segundos
"Precisão do Whisper: 98%. Win+H: 88%. Mesmo microfone."

A Lacuna de Precisão, em Números Simples

Mesmo microfone, mesmo PC Windows, dois modelos de fala diferentes.

O embutido

Windows Voice Typing (Win+H)

O reconhecimento de fala embutido da Microsoft é conveniente, mas usa uma pilha de reconhecimento de fala mais antiga. A precisão em benchmarks de inglês americano claro fica em torno de 88% (um erro a cada nove palavras). Em inglês com sotaque, cai na faixa dos 70. Na maioria dos idiomas não ingleses, é inutilizável para escrita real. É gratuito, é embutido, funciona para listas de compras.

O corretivo

OpenAI Whisper via StarWhisper

O Whisper é um modelo moderno de reconhecimento de fala transformer da OpenAI, treinado em 680.000 horas de áudio. Benchmarks independentes colocam a precisão em torno de 97 a 98% em inglês claro, com forte desempenho em sotaques e 96 idiomas. StarWhisper empacota o Whisper em um aplicativo Windows gratuito que roda localmente no seu PC. Mesmo microfone. Texto substancialmente melhor.

Seis Coisas que o Whisper Acerta e o Win+H Erra

Diferenças de precisão específicas que você notará no primeiro dia

Inglês com Sotaque

Inglês indiano, escocês, singapurense, sul-africano, caribenho, australiano. O Whisper foi treinado em todos eles. O Win+H foi treinado principalmente em inglês americano e isso mostra. A lacuna é muito maior do que os 10 pontos do título.

Idiomas Não Ingleses

O Whisper lida com 96 idiomas. O Win+H suporta uma lista muito mais curta e a precisão varia muito. Para alemão, francês, espanhol, mandarim, japonês, coreano, hindi, árabe, russo e a maioria dos outros, a lacuna é funcionalmente a diferença entre utilizável e inutilizável.

Vocabulário Técnico

O Whisper lida com termos de programação, vocabulário médico, linguagem jurídica e terminologia científica com mais precisão porque o corpus de treinamento incluiu esse conteúdo. O Win+H tende a corrigir automaticamente palavras técnicas em equivalentes comuns em inglês.

Nomes Próprios

Nomes de pessoas, lugares, marcas, produtos. O Whisper preserva mais deles. O Win+H frequentemente distorce nomes não ingleses ou substitui por um palpite fonético.

Ditado Mais Longo

O Whisper mantém o contexto entre frases e produz parágrafos mais coerentes. O Win+H é otimizado para falas curtas e tende a perder o fio no ditado de múltiplas frases.

Pontuação e Caixa

O Whisper insere pontuação contextualmente e respeita os limites das frases. O Win+H exige que você diga "vírgula" e "ponto" explicitamente, o que diminui a fala natural e produz transcrições desajeitadas.

Por Que o Ditado do Windows Parece Preso em 2014

A Microsoft lançou o reconhecimento de fala no Windows há mais de vinte anos. O Windows Vista tinha o Windows Speech Recognition (WSR), a ferramenta de ditado acionada pelo teclado que quase ninguém usava. O Windows 10 adicionou um redesenho do Voice Typing em 2017, acessível pelo atalho Win+H. O Windows 11 refinou ainda mais a interface. O que não mudou de forma significativa é o modelo de fala subjacente.

O modelo acústico subjacente no Windows Voice Typing data da era pré-transformer. Ele usa arquiteturas de rede neural recorrente treinadas em um corpus relativamente pequeno, composto principalmente por inglês americano. Por contraste, o campo avançou duas vezes: primeiro para modelos baseados em transformer, e depois para pré-treinamento multilíngue em escala massiva. O Whisper é o exemplo aberto mais proeminente da segunda onda, com 680.000 horas de dados de treinamento em 96 idiomas.

A lacuna de precisão é estrutural, não um problema de ajuste. A Microsoft está presumivelmente trabalhando em fala de próxima geração, mas por enquanto, a ferramenta embutida do Windows repousa sobre tecnologia mais antiga. Se você já se perguntou por que o ditado no seu telefone Pixel ou no seu iPhone parece mais preciso do que no seu laptop Windows, é a mesma explicação: esses telefones rodam modelos mais novos.

Exemplos Concretos de Onde o Win+H Falha

A diferença de precisão aparece imediatamente em frases reais. Abaixo estão exemplos típicos de relatórios de usuários. A coluna Falado é o que foi dito. A coluna Win+H é a saída literal. A coluna Whisper é o que o StarWhisper produziu a partir de áudio idêntico.

Falado Saída Win+H Saída Whisper (StarWhisper)
"A implantação foi para staging às 15h" a implantação foi para staging às três p m A implantação foi para staging às 15h.
"Agende uma reunião com Aoife na quinta-feira" agendar uma reunião com eva na quinta-feira Agende uma reunião com Aoife na quinta-feira.
"O paciente relatou dispneia intermitente" o paciente relatou disney intermitente O paciente relatou dispneia intermitente.
"Refatorar o middleware de autenticação para usar tokens JWT" refatorar o middleware de off para usar tokens jay w t Refatorar o middleware de autenticação para usar tokens JWT.
"Enviar o contrato para [email protected]" enviar o contrato para monara em example ponto com Enviar o contrato para [email protected].

Estes exemplos não foram escolhidos aleatoriamente. Eles são representativos do tipo de erro que você vê se ditar por qualquer período de tempo com qualquer coisa que não seja o vocabulário americano mais genérico.

O que o Whisper faz de diferente, tecnicamente

A diferença de precisão não é mágica, é arquitetura e escala. O Whisper é um transformer sequence-to-sequence treinado de ponta a ponta em um corpus de áudio massivo e diverso. StarWhisper empacota o modelo Whisper e o executa localmente no seu PC Windows.

Dados de treinamento maiores e mais diversos

O OpenAI treinou o Whisper em aproximadamente 680.000 horas de áudio coletado da web, incluindo 117.000 horas de dados multilíngues e 125.000 horas de dados de tradução. Isso é aproximadamente duas ordens de magnitude mais do que o que a pilha antiga da Microsoft foi treinada. Dados de treinamento maiores e mais diversos são o maior motivo pelo qual o Whisper lida bem com sotaques, vocabulário técnico e idiomas não ingleses.

Arquitetura Transformer

O Whisper usa um transformer encoder-decoder, a mesma arquitetura geral de GPT e modelos de tradução modernos. Esta arquitetura é muito melhor em contexto de longo alcance do que os modelos recorrentes que dominaram o reconhecimento de fala durante a década de 2010. É por isso que o Whisper produz parágrafos coerentes, enquanto sistemas mais antigos produzem frases coerentes e perdem o fio entre elas.

Treinamento Multitarefa

O Whisper foi treinado conjuntamente em múltiplas tarefas de fala: transcrição, tradução, identificação de idioma, detecção de atividade de voz. Essa configuração multitarefa produz um modelo que é robusto em condições onde qualquer modelo de tarefa única degradaria. Na prática, isso significa que o Whisper lida com lacunas silenciosas, ruído de fundo e troca de idioma com graça.

Ele roda localmente

Como o Whisper é de código aberto e de tamanho razoável, ele cabe em uma máquina Windows de consumo e roda em velocidades utilizáveis na CPU. É por isso que o StarWhisper pode empacotá-lo como uma ferramenta local gratuita. Nenhuma assinatura em nuvem está envolvida, nenhum áudio sai do seu PC, e a vantagem de precisão se aplica independentemente da conectividade com a internet. O detalhamento completo de como o modelo roda localmente está na página de privacidade e recursos offline.

Onde o Win+H vence, honestamente

A ferramenta embutida tem seu lugar

O Windows Voice Typing é gratuito, vem embutido, é instalado em todas as máquinas Windows 10 e 11, e não requer nenhuma configuração. Para o caso em que você deseja ditar uma única frase em uma caixa de texto e não se importa com acentos, vocabulário técnico ou idiomas não ingleses, ele funciona. Muitos usuários também obtêm valor real dele em celulares, onde a ditação embutida equivalente também é boa o suficiente para mensagens curtas.

Se suas necessidades de ditado se limitam a "ocasionalmente uma frase curta no Notepad, em inglês americano claro, sem nomes próprios", não há motivo para instalar mais nada. O atrito de instalar um aplicativo separado não vale a pena por uma frase a cada poucas semanas.

Especificamente, Win+H é bom quando

  • Você dita ocasionalmente. Uma vez por semana, uma frase por vez, em campos de texto casuais.
  • Sua fala é inglês americano claro. Vocabulário padrão, sem nomes próprios, sem acrônimos.
  • Você não quer instalar nada. Já está lá, custo zero de configuração.
  • Você está testando a entrada de voz antes de se comprometer. Win+H informa se a voz, em geral, funciona para o seu fluxo de trabalho.

Comparação de recursos lado a lado

Capacidade Windows Voice Typing (Win+H) StarWhisper (Whisper)
Precisão em inglês claro ~88% ~97-98%
Inglês com acento Fraco Forte
Idiomas não ingleses Limitado 96 idiomas
Vocabulário técnico / médico / jurídico Distorcido Preservado
Pontuação automática Manual ("vírgula", "ponto") Automático
Números automáticos (3 PM vs three p m) Não Sim
Áudio sai do seu dispositivo Sim (nuvem Microsoft) Não (Modo Local)
Funciona offline Não Sim
Aceleração GPU Não NVIDIA CUDA + Vulkan
Custo Gratuito, embutido Grátis até 500 wpd, $10/mês ilimitado
Atalho de teclado Win+H (fixo) Configurável
Funciona em qualquer campo de texto A maioria Todos

Como instalar o fix e manter o Win+H

Você não precisa escolher. Ambos podem coexistir. Aqui está o caminho mais simples.

Instale StarWhisper

  • Baixe o instalador gratuito na página inicial do StarWhisper
  • Execute o instalador. As configurações padrão estão boas. O modelo Whisper empacotado está incluído.
  • O aplicativo é lançado e fica na bandeja do sistema

Configure seu atalho de teclado

  • Abra as configurações do StarWhisper
  • Escolha um atalho de teclado que não conflite com Win+H. Muitos usuários escolhem uma tecla lateral como a tecla menu, ou remapeiam Caps Lock.
  • Teste abrindo o Notepad, pressionando o atalho de teclado e falando uma frase

Mantenha o Win+H como fallback

  • Win+H ainda funciona. Use-o para quaisquer casos rápidos para os quais você prefere a ferramenta embutida.
  • Use StarWhisper para tudo que precisa de precisão ou suporte para idiomas não ingleses

A maioria dos usuários descobre que em uma semana eles param de pressionar Win+H completamente porque a diferença de precisão é grande o suficiente para que a ferramenta embutida se torne irritante em comparação. Se você deseja uma comparação mais profunda dos dois recursos lado a lado, a página dedicada StarWhisper vs Windows Voice Typing cobre os trade-offs com mais detalhes.

Hardware: o que sua máquina precisa

Whisper é uma rede neural real e precisa de algum poder de processamento para rodar rápido, mas os requisitos são modestos pelos padrões de 2026.

O caso mínimo

  • Windows 10 (64-bit) ou Windows 11
  • Um CPU x64 multi-core feito nos últimos 7-8 anos
  • 4 GB de RAM (8 GB recomendado para os modelos Whisper maiores)
  • Cerca de 1 GB de espaço livre em disco para arquivos de modelo empacotado

O caso rápido

  • GPU NVIDIA com suporte CUDA (qualquer GTX 10-series ou mais novo é suficiente)
  • 16 GB de RAM do sistema
  • Armazenamento SSD (não estritamente necessário, apenas melhor)

Para máquinas mais antigas ou de especificações mais baixas, o StarWhisper escolhe automaticamente o tamanho do modelo Whisper correto. O modelo pequeno roda em tempo real em basicamente qualquer laptop Windows moderno, até mesmo gráficos integrados. Os modelos médio e grande são mais lentos, mas mais precisos e se beneficiam da GPU. Vulkan está disponível como um caminho GPU cross-vendor para placas AMD e Intel.

Se o motivo pelo qual você pergunta "por que a ditação do Windows é tão ruim" é que você quer um fix local gratuito que respeite seu hardware, a resposta é sim, isso funciona em máquinas que você já possui. Há mais detalhes na página de recursos de precisão profissional.

E quanto a problemas específicos de ditação do Windows

"O Windows Voice Typing não funciona de jeito nenhum"

Esta é uma reclamação comum do Win+H. O fix da documentação de suporte da Microsoft geralmente é redefinir as permissões de fala ou reinstalar pacotes de idioma. Se você encontrou isso várias vezes e deseja uma ferramenta mais estável, instalar um aplicativo de ditado separado é uma solução alternativa razoável. StarWhisper roda de forma independente da pilha de fala do Windows, então ele não quebra da mesma maneira.

"O Windows Voice Typing não pontua"

Win+H não pontua automaticamente por padrão. Você pode ativar uma configuração chamada "pontuação automática" em algumas versões recentes do Windows, mas o comportamento é inconsistente. Whisper lida com a pontuação de forma contextual baseada na estrutura da frase, então pausas faladas se tornam vírgulas, finais se tornam pontos, e assim por diante, sem intervenção manual.

"O Windows Voice Typing não entende meu sotaque"

Esta é a reclamação mais comum e aquela com o maior fix. Whisper lida com inglês com acento com precisão próxima à de um falante nativo. Se o seu sotaque for diferente de americano, a lacuna é grande o suficiente para que mudar para uma ferramenta baseada em Whisper pareça ganhar óculos pela primeira vez.

"O Windows Voice Typing não funciona em [aplicativo específico]"

Win+H funciona na maioria dos campos de texto padrão do Windows, mas tem casos extremos em aplicativos específicos. StarWhisper usa o mesmo mecanismo de colagem que qualquer outro IME do Windows, então funciona onde quer que seu teclado funcione, incluindo em aplicativos onde Win+H falha. Isso se aplica ao Word, Outlook, barras de endereço do Chrome, Slack, e assim por diante. A página dedicada FAQ de ditado de voz offline detalha a lista de compatibilidade.

Custo: grátis para começar, $10/mês se você precisar de ilimitado

O plano gratuito cobre 500 palavras por dia, o que é suficiente para avaliar a diferença de precisão em trabalho real por uma ou duas semanas. Se você se encontrar usando ditado intensamente (escritores, pesquisadores, criadores de conteúdo, qualquer pessoa que produza mais de alguns milhares de palavras por dia), o Pro custa $10 por mês ou $80 por ano. Não há cálculo por assento e nenhum nível de upsell. Detalhes de preços na seção de preços da página inicial.

Para escritores em particular, a velocidade do ditado baseado em Whisper é o principal atrativo quando a precisão não é mais o bloqueador. Veja voice to text para escritores para o fluxo de trabalho de escrita de formato longo especificamente.

Perguntas Frequentes

O que há de errado com o Windows Voice Typing (Win+H)?
O Windows Voice Typing usa a pilha de reconhecimento de fala mais antiga da Microsoft, que remonta à era pré-transformer. A precisão em inglês norte-americano claro é de cerca de 88%. Ela degrada rapidamente em inglês com sotaque, vocabulário técnico, nomes próprios e idiomas não ingleses. Ele também tem dificuldade com ditados de formato longo porque não mantém contexto suficiente entre as falas. Nada disso é novidade para a Microsoft; a tecnologia subjacente é apenas antiga.
Por que o OpenAI Whisper é mais preciso?
Whisper é um modelo de reconhecimento de fala mais novo baseado em transformer da OpenAI, treinado em cerca de 680.000 horas de áudio multilíngue. O corpus de treinamento é aproximadamente duas ordens de magnitude maior do que o que a pilha mais antiga da Microsoft foi treinada, e a arquitetura é mais moderna. Benchmarks independentes colocam consistentemente a precisão do Whisper em inglês claro em torno de 97 a 98 por cento, com desempenho forte em sotaques e idiomas não ingleses, onde a pilha do Windows colapsa.
Eu tenho que desinstalar o Windows Dictation para usar o StarWhisper?
Não. Windows Voice Typing e StarWhisper coexistem pacificamente. Eles usam atalhos diferentes (Win+H para o embutido, configurável para StarWhisper) e não interferem um no outro. Você pode continuar usando Win+H para ditado rápido de frases únicas e recorrer ao StarWhisper quando precisar de precisão em textos mais longos, inglês com sotaque ou conteúdo não inglês. A maioria dos usuários simplesmente para de abrir o Win+H depois de ter o StarWhisper rodando.
Posso usar os dois ao mesmo tempo?
Tecnicamente, você pode ter os dois instalados e ativos. Na prática, eles escutam o mesmo microfone, então acionar os dois simultaneamente confunde seu dispositivo de áudio. Escolha um por sessão. A maioria dos usuários ou substitui o Win+H por completo ou usa o StarWhisper para o conteúdo e mantém o Win+H para o caso raro em que é mais rápido apertar Win+H do que trocar.
E quanto aos sotaques? O Whisper lida melhor com eles?
Sim, significativamente melhor. Whisper foi treinado em áudio multilíngue que incluía uma ampla gama de sotaques regionais, troca de código (code-switching) e falantes de segunda língua. Inglês Indiano, Escocês, Caribenho, Singapurense, Sul-Africano, Australiano, todos transcrevem com alta precisão. Windows Voice Typing foi treinado principalmente em inglês americano e isso é evidente. Se o seu sotaque for diferente do norte-americano, a diferença de precisão é muito maior do que 10 pontos percentuais.
E quanto a outros idiomas?
Whisper suporta mais de 96 idiomas, incluindo alemão, francês, espanhol, italiano, português, holandês, polonês, sueco, dinamarquês, norueguês, finlandês, tcheco, húngaro, romeno, japonês, chinês, coreano, hindi, russo, árabe, turco, vietnamita, tailandês, indonésio e ucraniano, entre outros. Windows Voice Typing suporta uma lista mais curta e a precisão varia muito por idioma. Para ditado não inglês no Windows, a diferença é grande o suficiente para que o Whisper seja funcionalmente a única opção prática.
O Whisper roda em GPU integrada?
Whisper roda perfeitamente na CPU, o que significa que qualquer laptop Windows moderno, incluindo aqueles com apenas gráficos integrados, pode rodá-lo. GPUs NVIDIA aceleram a transcrição via CUDA. GPUs AMD e Intel são suportadas através do caminho Vulkan. Se você não tiver nenhuma GPU dedicada, o caminho da CPU ainda é rápido o suficiente para ditado em tempo real nos modelos Whisper pequenos e médios que o StarWhisper usa por padrão.
E quanto às máquinas Windows 10 mais antigas, o Whisper ainda funcionará?
Sim. StarWhisper suporta Windows 10 e Windows 11. Os requisitos mínimos são modestos: um CPU x64 multi-core, 4 GB de RAM (8 GB recomendado para os modelos Whisper maiores) e cerca de 1 GB de espaço em disco para os arquivos de modelo incluídos. Máquinas dos últimos 7-8 anos rodam sem problemas. O caminho da CPU roda em essencialmente qualquer máquina Windows 10.

Substitua Win+H por Algo Preciso

Plano Free cobre 500 palavras por dia. Roda localmente no seu PC Windows. Sem configuração além da instalação.

Baixar StarWhisper