What is wrong with Windows Voice Typing (Win+H)?

Windows Voice Typing uses Microsoft's older speech recognition stack, which dates to the pre-transformer era. Accuracy on clear North American English is around 88 percent. It degrades quickly on accented English, technical vocabulary, proper nouns, and non-English languages. It also struggles with longer-form dictation because it does not maintain enough context between utterances. None of this is news to Microsoft; the underlying tech is just old.

Why is OpenAI Whisper more accurate?

Whisper is a newer transformer-based speech recognition model from OpenAI, trained on around 680,000 hours of multilingual audio. The training corpus is roughly two orders of magnitude larger than what the older Microsoft stack was trained on, and the architecture is more modern. Independent benchmarks consistently put Whisper accuracy on clear English around 97 to 98 percent, with strong performance on accents and non-English languages where the Windows stack collapses.

Do I have to uninstall Windows Dictation to use StarWhisper?

No. Windows Voice Typing and StarWhisper coexist peacefully. They use different hotkeys (Win+H for the built-in, configurable for StarWhisper) and do not interfere with each other. You can keep using Win+H for quick single-sentence dictation and reach for StarWhisper when you need accuracy on longer text, accented English, or non-English content. Most users just stop opening Win+H once they have StarWhisper running.

Can I use both at the same time?

Technically you can have both installed and active. In practice, they listen to the same microphone, so triggering both simultaneously confuses your audio device. Pick one per session. Most users either replace Win+H entirely or use StarWhisper for content and keep Win+H for the rare case where it is faster to hit Win+H than to switch.

What about accents? Does Whisper handle them better?

Yes, substantially better. Whisper was trained on multilingual audio that included a wide range of regional accents, code-switching, and second-language speakers. Indian English, Scottish, Caribbean, Singaporean, South African, Australian, all transcribe with high accuracy. Windows Voice Typing was trained primarily on American English and shows it. If your accent is anything other than North American, the accuracy gap is much larger than 10 percentage points.

What about other languages?

Whisper supports 96+ languages, including German, French, Spanish, Italian, Portuguese, Dutch, Polish, Swedish, Danish, Norwegian, Finnish, Czech, Hungarian, Romanian, Japanese, Chinese, Korean, Hindi, Russian, Arabic, Turkish, Vietnamese, Thai, Indonesian, and Ukrainian among others. Windows Voice Typing supports a shorter list and accuracy varies widely by language. For non-English dictation on Windows, the gap is large enough that Whisper is functionally the only practical option.

Does Whisper run on integrated GPU?

Whisper runs on CPU just fine, which means any modern Windows laptop, including those with only integrated graphics, can run it. NVIDIA GPUs accelerate transcription via CUDA. AMD and Intel GPUs are supported through the Vulkan path. If you have no discrete GPU at all, the CPU path is still fast enough for real-time dictation on the small and medium Whisper models that StarWhisper uses by default.

What about older Windows 10 machines, will Whisper still work?

Yes. StarWhisper supports Windows 10 and Windows 11. The minimum requirements are modest: a multi-core x64 CPU, 4 GB of RAM (8 GB recommended for the larger Whisper models), and around 1 GB of disk space for the bundled model files. Machines from the last 7-8 years all run it without issue. The CPU path runs on essentially any Windows 10 machine.

Por Que o Ditado do Windows é Tão Ruim? (Correção Gratuita com Whisper)

Name: StarWhisper
Rating: 4.8 (50 reviews)
Author: StarWhisper

Por Que o Ditado do Windows Parece Preso em 2014

A Microsoft lançou o reconhecimento de fala no Windows há mais de vinte anos. O Windows Vista tinha o Windows Speech Recognition (WSR), a ferramenta de ditado acionada pelo teclado que quase ninguém usava. O Windows 10 adicionou um redesenho do Voice Typing em 2017, acessível pelo atalho Win+H. O Windows 11 refinou ainda mais a interface. O que não mudou de forma significativa é o modelo de fala subjacente.

O modelo acústico subjacente no Windows Voice Typing data da era pré-transformer. Ele usa arquiteturas de rede neural recorrente treinadas em um corpus relativamente pequeno, composto principalmente por inglês americano. Por contraste, o campo avançou duas vezes: primeiro para modelos baseados em transformer, e depois para pré-treinamento multilíngue em escala massiva. O Whisper é o exemplo aberto mais proeminente da segunda onda, com 680.000 horas de dados de treinamento em 96 idiomas.

A lacuna de precisão é estrutural, não um problema de ajuste. A Microsoft está presumivelmente trabalhando em fala de próxima geração, mas por enquanto, a ferramenta embutida do Windows repousa sobre tecnologia mais antiga. Se você já se perguntou por que o ditado no seu telefone Pixel ou no seu iPhone parece mais preciso do que no seu laptop Windows, é a mesma explicação: esses telefones rodam modelos mais novos.

Exemplos Concretos de Onde o Win+H Falha

A diferença de precisão aparece imediatamente em frases reais. Abaixo estão exemplos típicos de relatórios de usuários. A coluna Falado é o que foi dito. A coluna Win+H é a saída literal. A coluna Whisper é o que o StarWhisper produziu a partir de áudio idêntico.

Falado	Saída Win+H	Saída Whisper (StarWhisper)
"A implantação foi para staging às 15h"	a implantação foi para staging às três p m	A implantação foi para staging às 15h.
"Agende uma reunião com Aoife na quinta-feira"	agendar uma reunião com eva na quinta-feira	Agende uma reunião com Aoife na quinta-feira.
"O paciente relatou dispneia intermitente"	o paciente relatou disney intermitente	O paciente relatou dispneia intermitente.
"Refatorar o middleware de autenticação para usar tokens JWT"	refatorar o middleware de off para usar tokens jay w t	Refatorar o middleware de autenticação para usar tokens JWT.
"Enviar o contrato para [email protected]"	enviar o contrato para monara em example ponto com	Enviar o contrato para [email protected].

Estes exemplos não foram escolhidos aleatoriamente. Eles são representativos do tipo de erro que você vê se ditar por qualquer período de tempo com qualquer coisa que não seja o vocabulário americano mais genérico.

O que o Whisper faz de diferente, tecnicamente

A diferença de precisão não é mágica, é arquitetura e escala. O Whisper é um transformer sequence-to-sequence treinado de ponta a ponta em um corpus de áudio massivo e diverso. StarWhisper empacota o modelo Whisper e o executa localmente no seu PC Windows.

Dados de treinamento maiores e mais diversos

O OpenAI treinou o Whisper em aproximadamente 680.000 horas de áudio coletado da web, incluindo 117.000 horas de dados multilíngues e 125.000 horas de dados de tradução. Isso é aproximadamente duas ordens de magnitude mais do que o que a pilha antiga da Microsoft foi treinada. Dados de treinamento maiores e mais diversos são o maior motivo pelo qual o Whisper lida bem com sotaques, vocabulário técnico e idiomas não ingleses.

Arquitetura Transformer

O Whisper usa um transformer encoder-decoder, a mesma arquitetura geral de GPT e modelos de tradução modernos. Esta arquitetura é muito melhor em contexto de longo alcance do que os modelos recorrentes que dominaram o reconhecimento de fala durante a década de 2010. É por isso que o Whisper produz parágrafos coerentes, enquanto sistemas mais antigos produzem frases coerentes e perdem o fio entre elas.

Treinamento Multitarefa

O Whisper foi treinado conjuntamente em múltiplas tarefas de fala: transcrição, tradução, identificação de idioma, detecção de atividade de voz. Essa configuração multitarefa produz um modelo que é robusto em condições onde qualquer modelo de tarefa única degradaria. Na prática, isso significa que o Whisper lida com lacunas silenciosas, ruído de fundo e troca de idioma com graça.

Ele roda localmente

Como o Whisper é de código aberto e de tamanho razoável, ele cabe em uma máquina Windows de consumo e roda em velocidades utilizáveis na CPU. É por isso que o StarWhisper pode empacotá-lo como uma ferramenta local gratuita. Nenhuma assinatura em nuvem está envolvida, nenhum áudio sai do seu PC, e a vantagem de precisão se aplica independentemente da conectividade com a internet. O detalhamento completo de como o modelo roda localmente está na página de privacidade e recursos offline.

Onde o Win+H vence, honestamente

A ferramenta embutida tem seu lugar

O Windows Voice Typing é gratuito, vem embutido, é instalado em todas as máquinas Windows 10 e 11, e não requer nenhuma configuração. Para o caso em que você deseja ditar uma única frase em uma caixa de texto e não se importa com acentos, vocabulário técnico ou idiomas não ingleses, ele funciona. Muitos usuários também obtêm valor real dele em celulares, onde a ditação embutida equivalente também é boa o suficiente para mensagens curtas.

Se suas necessidades de ditado se limitam a "ocasionalmente uma frase curta no Notepad, em inglês americano claro, sem nomes próprios", não há motivo para instalar mais nada. O atrito de instalar um aplicativo separado não vale a pena por uma frase a cada poucas semanas.

Especificamente, Win+H é bom quando

Você dita ocasionalmente. Uma vez por semana, uma frase por vez, em campos de texto casuais.
Sua fala é inglês americano claro. Vocabulário padrão, sem nomes próprios, sem acrônimos.
Você não quer instalar nada. Já está lá, custo zero de configuração.
Você está testando a entrada de voz antes de se comprometer. Win+H informa se a voz, em geral, funciona para o seu fluxo de trabalho.

Comparação de recursos lado a lado

Capacidade	Windows Voice Typing (Win+H)	StarWhisper (Whisper)
Precisão em inglês claro	~88%	~97-98%
Inglês com acento	Fraco	Forte
Idiomas não ingleses	Limitado	96 idiomas
Vocabulário técnico / médico / jurídico	Distorcido	Preservado
Pontuação automática	Manual ("vírgula", "ponto")	Automático
Números automáticos (3 PM vs three p m)	Não	Sim
Áudio sai do seu dispositivo	Sim (nuvem Microsoft)	Não (Modo Local)
Funciona offline	Não	Sim
Aceleração GPU	Não	NVIDIA CUDA + Vulkan
Custo	Gratuito, embutido	Grátis até 500 wpd, $10/mês ilimitado
Atalho de teclado	Win+H (fixo)	Configurável
Funciona em qualquer campo de texto	A maioria	Todos

Como instalar o fix e manter o Win+H

Você não precisa escolher. Ambos podem coexistir. Aqui está o caminho mais simples.

Instale StarWhisper

Baixe o instalador gratuito na página inicial do StarWhisper
Execute o instalador. As configurações padrão estão boas. O modelo Whisper empacotado está incluído.
O aplicativo é lançado e fica na bandeja do sistema

Configure seu atalho de teclado

Abra as configurações do StarWhisper
Escolha um atalho de teclado que não conflite com Win+H. Muitos usuários escolhem uma tecla lateral como a tecla menu, ou remapeiam Caps Lock.
Teste abrindo o Notepad, pressionando o atalho de teclado e falando uma frase

Mantenha o Win+H como fallback

Win+H ainda funciona. Use-o para quaisquer casos rápidos para os quais você prefere a ferramenta embutida.
Use StarWhisper para tudo que precisa de precisão ou suporte para idiomas não ingleses

A maioria dos usuários descobre que em uma semana eles param de pressionar Win+H completamente porque a diferença de precisão é grande o suficiente para que a ferramenta embutida se torne irritante em comparação. Se você deseja uma comparação mais profunda dos dois recursos lado a lado, a página dedicada StarWhisper vs Windows Voice Typing cobre os trade-offs com mais detalhes.

Hardware: o que sua máquina precisa

Whisper é uma rede neural real e precisa de algum poder de processamento para rodar rápido, mas os requisitos são modestos pelos padrões de 2026.

O caso mínimo

Windows 10 (64-bit) ou Windows 11
Um CPU x64 multi-core feito nos últimos 7-8 anos
4 GB de RAM (8 GB recomendado para os modelos Whisper maiores)
Cerca de 1 GB de espaço livre em disco para arquivos de modelo empacotado

O caso rápido

GPU NVIDIA com suporte CUDA (qualquer GTX 10-series ou mais novo é suficiente)
16 GB de RAM do sistema
Armazenamento SSD (não estritamente necessário, apenas melhor)

Para máquinas mais antigas ou de especificações mais baixas, o StarWhisper escolhe automaticamente o tamanho do modelo Whisper correto. O modelo pequeno roda em tempo real em basicamente qualquer laptop Windows moderno, até mesmo gráficos integrados. Os modelos médio e grande são mais lentos, mas mais precisos e se beneficiam da GPU. Vulkan está disponível como um caminho GPU cross-vendor para placas AMD e Intel.

Se o motivo pelo qual você pergunta "por que a ditação do Windows é tão ruim" é que você quer um fix local gratuito que respeite seu hardware, a resposta é sim, isso funciona em máquinas que você já possui. Há mais detalhes na página de recursos de precisão profissional.

E quanto a problemas específicos de ditação do Windows

"O Windows Voice Typing não funciona de jeito nenhum"

Esta é uma reclamação comum do Win+H. O fix da documentação de suporte da Microsoft geralmente é redefinir as permissões de fala ou reinstalar pacotes de idioma. Se você encontrou isso várias vezes e deseja uma ferramenta mais estável, instalar um aplicativo de ditado separado é uma solução alternativa razoável. StarWhisper roda de forma independente da pilha de fala do Windows, então ele não quebra da mesma maneira.

"O Windows Voice Typing não pontua"

Win+H não pontua automaticamente por padrão. Você pode ativar uma configuração chamada "pontuação automática" em algumas versões recentes do Windows, mas o comportamento é inconsistente. Whisper lida com a pontuação de forma contextual baseada na estrutura da frase, então pausas faladas se tornam vírgulas, finais se tornam pontos, e assim por diante, sem intervenção manual.

"O Windows Voice Typing não entende meu sotaque"

Esta é a reclamação mais comum e aquela com o maior fix. Whisper lida com inglês com acento com precisão próxima à de um falante nativo. Se o seu sotaque for diferente de americano, a lacuna é grande o suficiente para que mudar para uma ferramenta baseada em Whisper pareça ganhar óculos pela primeira vez.

"O Windows Voice Typing não funciona em [aplicativo específico]"

Win+H funciona na maioria dos campos de texto padrão do Windows, mas tem casos extremos em aplicativos específicos. StarWhisper usa o mesmo mecanismo de colagem que qualquer outro IME do Windows, então funciona onde quer que seu teclado funcione, incluindo em aplicativos onde Win+H falha. Isso se aplica ao Word, Outlook, barras de endereço do Chrome, Slack, e assim por diante. A página dedicada FAQ de ditado de voz offline detalha a lista de compatibilidade.

Custo: grátis para começar, $10/mês se você precisar de ilimitado

O plano gratuito cobre 500 palavras por dia, o que é suficiente para avaliar a diferença de precisão em trabalho real por uma ou duas semanas. Se você se encontrar usando ditado intensamente (escritores, pesquisadores, criadores de conteúdo, qualquer pessoa que produza mais de alguns milhares de palavras por dia), o Pro custa $10 por mês ou $80 por ano. Não há cálculo por assento e nenhum nível de upsell. Detalhes de preços na seção de preços da página inicial.

Para escritores em particular, a velocidade do ditado baseado em Whisper é o principal atrativo quando a precisão não é mais o bloqueador. Veja voice to text para escritores para o fluxo de trabalho de escrita de formato longo especificamente.

Perguntas Frequentes

O que há de errado com o Windows Voice Typing (Win+H)?

O Windows Voice Typing usa a pilha de reconhecimento de fala mais antiga da Microsoft, que remonta à era pré-transformer. A precisão em inglês norte-americano claro é de cerca de 88%. Ela degrada rapidamente em inglês com sotaque, vocabulário técnico, nomes próprios e idiomas não ingleses. Ele também tem dificuldade com ditados de formato longo porque não mantém contexto suficiente entre as falas. Nada disso é novidade para a Microsoft; a tecnologia subjacente é apenas antiga.

Por que o OpenAI Whisper é mais preciso?

Whisper é um modelo de reconhecimento de fala mais novo baseado em transformer da OpenAI, treinado em cerca de 680.000 horas de áudio multilíngue. O corpus de treinamento é aproximadamente duas ordens de magnitude maior do que o que a pilha mais antiga da Microsoft foi treinada, e a arquitetura é mais moderna. Benchmarks independentes colocam consistentemente a precisão do Whisper em inglês claro em torno de 97 a 98 por cento, com desempenho forte em sotaques e idiomas não ingleses, onde a pilha do Windows colapsa.

Eu tenho que desinstalar o Windows Dictation para usar o StarWhisper?

Não. Windows Voice Typing e StarWhisper coexistem pacificamente. Eles usam atalhos diferentes (Win+H para o embutido, configurável para StarWhisper) e não interferem um no outro. Você pode continuar usando Win+H para ditado rápido de frases únicas e recorrer ao StarWhisper quando precisar de precisão em textos mais longos, inglês com sotaque ou conteúdo não inglês. A maioria dos usuários simplesmente para de abrir o Win+H depois de ter o StarWhisper rodando.

Posso usar os dois ao mesmo tempo?

Tecnicamente, você pode ter os dois instalados e ativos. Na prática, eles escutam o mesmo microfone, então acionar os dois simultaneamente confunde seu dispositivo de áudio. Escolha um por sessão. A maioria dos usuários ou substitui o Win+H por completo ou usa o StarWhisper para o conteúdo e mantém o Win+H para o caso raro em que é mais rápido apertar Win+H do que trocar.

E quanto aos sotaques? O Whisper lida melhor com eles?

Sim, significativamente melhor. Whisper foi treinado em áudio multilíngue que incluía uma ampla gama de sotaques regionais, troca de código (code-switching) e falantes de segunda língua. Inglês Indiano, Escocês, Caribenho, Singapurense, Sul-Africano, Australiano, todos transcrevem com alta precisão. Windows Voice Typing foi treinado principalmente em inglês americano e isso é evidente. Se o seu sotaque for diferente do norte-americano, a diferença de precisão é muito maior do que 10 pontos percentuais.

E quanto a outros idiomas?

Whisper suporta mais de 96 idiomas, incluindo alemão, francês, espanhol, italiano, português, holandês, polonês, sueco, dinamarquês, norueguês, finlandês, tcheco, húngaro, romeno, japonês, chinês, coreano, hindi, russo, árabe, turco, vietnamita, tailandês, indonésio e ucraniano, entre outros. Windows Voice Typing suporta uma lista mais curta e a precisão varia muito por idioma. Para ditado não inglês no Windows, a diferença é grande o suficiente para que o Whisper seja funcionalmente a única opção prática.

O Whisper roda em GPU integrada?

Whisper roda perfeitamente na CPU, o que significa que qualquer laptop Windows moderno, incluindo aqueles com apenas gráficos integrados, pode rodá-lo. GPUs NVIDIA aceleram a transcrição via CUDA. GPUs AMD e Intel são suportadas através do caminho Vulkan. Se você não tiver nenhuma GPU dedicada, o caminho da CPU ainda é rápido o suficiente para ditado em tempo real nos modelos Whisper pequenos e médios que o StarWhisper usa por padrão.

E quanto às máquinas Windows 10 mais antigas, o Whisper ainda funcionará?

Sim. StarWhisper suporta Windows 10 e Windows 11. Os requisitos mínimos são modestos: um CPU x64 multi-core, 4 GB de RAM (8 GB recomendado para os modelos Whisper maiores) e cerca de 1 GB de espaço em disco para os arquivos de modelo incluídos. Máquinas dos últimos 7-8 anos rodam sem problemas. O caminho da CPU roda em essencialmente qualquer máquina Windows 10.

Por Que o Ditado do Windows é Tão Ruim? (E o Corretivo Gratuito)

A Lacuna de Precisão, em Números Simples

Windows Voice Typing (Win+H)

OpenAI Whisper via StarWhisper

Seis Coisas que o Whisper Acerta e o Win+H Erra

Inglês com Sotaque

Idiomas Não Ingleses

Vocabulário Técnico

Nomes Próprios

Ditado Mais Longo

Pontuação e Caixa