Otter, Rev, Happy Scribe, Notta e Trint enviam seu áudio para seus servidores. Alguns retêm por 30 dias ou mais. Para chamadas confidenciais com clientes, conversas médicas, trabalho jurídico, reuniões de RH e gravações de P&D, isso é um problema. StarWhisper executa o OpenAI Whisper localmente no seu PC Windows. O áudio nunca sai do dispositivo.
Onde a maioria das ferramentas de transcrição envia seu áudio, e a alternativa.
Otter, Rev, Happy Scribe, Notta, Trint, Sonix e quase todo outro serviço de transcrição envia seu áudio para seus servidores, passa pelo modelo deles e retém o arquivo por pelo menos 30 dias. Alguns retêm por mais tempo ou usam para melhorar seus modelos. A conveniência é real. O custo também é real.
Para conteúdo não sensível, isso é aceitável. Para chamadas sob NDA, conversas médicas ou jurídicas, assuntos de RH ou qualquer coisa coberta por GDPR ou HIPAA, isso força uma conversa de aquisição e um rastro de papel antes mesmo de você poder usar.
StarWhisper agrupa o modelo OpenAI Whisper com o instalador. Quando você transcreve, o modelo carrega na memória da sua máquina, passa o áudio por sua rede neural usando seu CPU ou GPU e produz texto. Não há upload, não há servidor, não há log para intimação, nem período de retenção para questionar.
Se você desconectar a rede, a transcrição ainda funciona. Esta é uma privacidade estrutural, não uma promessa de política.
O que o "processamento local" realmente oferece
No Modo Local, nenhuma parte do áudio sai do dispositivo. Isso pode ser verificado com qualquer monitor de rede. Você pode verificar antes de confiar.
Desconecte-se da internet, a transcrição ainda funciona. As ferramentas baseadas em nuvem simplesmente falham sob as mesmas condições. A operação offline é a prova mais limpa possível de processamento local.
Os serviços em nuvem geralmente retêm áudio por mais de 30 dias. Com o processamento local, não há questão de retenção porque nada foi enviado. O áudio existe apenas enquanto você o falou.
Alguns serviços de transcrição em nuvem passam seu áudio por modelos de IA adicionais para limpeza ou sumarização, multiplicando as partes que têm acesso. O processamento local mantém o caminho dos dados em uma única máquina.
Se não há log em um servidor, não há log para forçar. Isso é importante para jornalistas, advogados e qualquer pessoa cujo material de origem seja sensível o suficiente para que o processo legal seja uma consideração real.
Whisper é código aberto. O áudio que você processa hoje não fica preso na conta de um fornecedor. Se o StarWhisper cessasse de existir, o modelo subjacente ainda funcionaria.
Abra a política de privacidade de qualquer grande serviço de transcrição e você encontrará uma estrutura semelhante. O áudio que você envia é processado em seus servidores, pode ser passado por provedores de IA terceirizados e é retido por algum período (geralmente 30 dias, às vezes 90, às vezes "até você excluir"). A maioria das políticas também reserva o direito de usar partes anonimizadas do áudio para melhorar o modelo subjacente, a menos que você opte por sair, o que às vezes é um recurso de nível pago.
Especificamente, aqui está o caminho do áudio para alguns dos maiores provedores:
Para a maioria dos casos de uso, este trade-off é aceitável. A nuvem cuida do processamento pesado, você recebe um produto polido, o áudio é criptografado em trânsito, a empresa tem SOC 2. Para alguns casos de uso, nenhuma quantidade de política é suficiente porque o áudio ainda sai do ambiente confiável, e o ambiente confiável é o único cuja segurança você realmente controla.
"Local" é usado de forma vaga em marketing. Aqui está o que significa em StarWhisper especificamente.
Os arquivos do modelo OpenAI Whisper são agrupados com o instalador. Eles ficam no diretório de instalação do StarWhisper no seu disco Windows. Você pode vê-los, pode verificar o checksum, pode copiá-los para outra máquina. Eles não são carregados da internet em tempo de execução. Depois de instalar o aplicativo, você não precisa de uma conexão de rede para ditar.
Quando você pressiona o atalho de ditado, o áudio do microfone é capturado em um buffer de memória, alimentado no modelo Whisper carregado, e o modelo produz texto usando o processamento da sua máquina. Nenhum dado é enviado pela rede. Se sua máquina tiver uma GPU NVIDIA, a inferência roda nos núcleos CUDA e é mais rápida. Se não tiver, o caminho do CPU também funciona, só que mais lento.
Esta é a distinção mais limpa entre transcrição local e em nuvem. Um produto em nuvem faz uma solicitação HTTPS para sua API. Um produto local não faz. Você pode confirmar isso executando um monitor de rede enquanto dita. O resultado é o mesmo como se o aplicativo não tivesse permissão de internet alguma.
O aplicativo fala com a rede por duas coisas: verificar novas versões (somente quando você clica no botão, devido à política estrita de sem atualização automática do StarWhisper) e verificar sua licença se você estiver no nível pago. Nenhum dos dois toca em seu áudio. Ambos podem ser inspecionados separadamente. Se você quiser usar o StarWhisper em uma máquina isolada (air-gapped), o nível gratuito não exige nenhuma verificação de licença.
Conversas cobertas pelo HIPAA entre clínicos e pacientes não devem ser enviadas para um serviço de transcrição em nuvem, a menos que esse serviço tenha um BAA assinado e o caso de uso tenha sido revisado pela conformidade. Muitos produtos SaaS de transcrição oferecem BAA, mas apenas em níveis empresariais. O processamento local evita a questão inteiramente: nenhum BAA é necessário porque nenhum dado cruza para um terceiro. Cobrimos isso em detalhes em voz para texto para terapeutas e na próxima página de referência de ditado HIPAA.
Redigir conteúdo privilegiado em uma ferramenta de transcrição em nuvem é, dependendo da jurisdição, explicitamente problemático ou uma área cinzenta que a maioria das opiniões de ética jurídica aconselha evitar. O raciocínio é que armazenar comunicações privilegiadas em servidores de terceiros pode renunciar ao privilégio sob algumas interpretações de ordem. O processamento local mantém o conteúdo na máquina do advogado, que é o mesmo padrão que se aplicou às ferramentas de ditado por cinquenta anos.
Revisões de desempenho, conversas de término, investigações de reclamações e discussões de compensação são exatamente o tipo de conteúdo que não deve aparecer no banco de dados de transcrição de terceiros. Mesmo que a postura do fornecedor SaaS seja excelente, a superfície de exposição é desnecessária. A transcrição local elimina a dúvida.
Se sua fonte concordou em falar sob condição de anonimato, "o áudio está na nossa cloud, deletado após 30 dias" é uma história diferente de "o áudio nunca saiu do meu laptop". Jornalistas de renome tendem a usar a segunda história quando podem. A transcrição local suporta esse padrão.
Se a política de dados do seu empregador diz "sem dados de clientes em SaaS de terceiros sem revisão de segurança", essa mesma política quase certamente se aplica a gravações de voz de conversas internas sobre esses dados. O processamento local mantém a conversa dentro do ambiente confiável.
Para qualquer coisa que se aproxime de SBU, CUI ou manuseio classificado, o SaaS em cloud geralmente está fora de questão. O processamento local é a única opção que se encaixa no modelo de ameaça.
| Propriedade | Transcrição em Cloud | StarWhisper Local Mode |
|---|---|---|
| Áudio sai do dispositivo | Sim | Não |
| Janela de retenção | 30 dias típico, varia | Nenhum (não armazenado) |
| Processamento por LLM de terceiros | Às vezes | Não |
| Funciona offline | Não | Sim |
| Log de servidor passível de subpoena | Sim | Não |
| BAA exigido para HIPAA | Sim | Não aplicável |
| Usado para treinar modelos do fornecedor | Às vezes (opt-out varia) | Nunca |
| Funciona atrás de air gap | Não | Sim |
| Verificável por captura de rede | Áudio visível em trânsito | Zero saída |
O motivo pelo qual "local" é mais importante do que "privado" é que local é verificável. Você não precisa confiar em uma declaração de política. Você pode verificar a propriedade diretamente.
Instale um monitor de rede no Windows. GlassWire é a opção GUI mais fácil; Wireshark é a mais completa; o Resource Monitor embutido (Monitor de Desempenho -> Rede) é suficiente para uma verificação rápida. Comece a ditar no Local Mode e observe o processo StarWhisper. Você deve ver zero bytes de saída para qualquer endpoint de transcrição durante a ditadura em si. O único tráfego de saída associado ao aplicativo deve ser coisas de control-plane não relacionadas, como verificação de licença ou verificações de atualização iniciadas pelo usuário.
Desconecte-se da rede completamente. Desative o Wi-Fi, desconecte o Ethernet, ative o modo avião. Abra o StarWhisper e dite. Ainda funciona. Esta é a prova mais limpa porque é impossível de falsificar. As ferramentas de transcrição em cloud simplesmente retornam erro em condições de air-gap porque não têm para onde enviar o áudio.
Abra a pasta de instalação do StarWhisper. Você verá os arquivos do modelo Whisper (os formatos GGML ou GGUF, dependendo do backend). Estes são arquivos binários grandes (várias centenas de MB a alguns GB, dependendo do tamanho do modelo). Sua presença no disco é o que torna o processamento local possível. Eles são o modelo. Eles são todo o pipeline. Nada sobre a transcrição precisa sair da pasta onde vivem.
Você não pode verificar que o aplicativo não armazena áudio em buffer no disco antes de descartá-lo. (Ele não armazena, mas esta é uma asserção de nível de código.) Você não pode verificar que o próprio Microsoft Windows não está capturando áudio do microfone de forma independente. Estes são problemas separados. Para a camada do OS, aplicam-se os guias padrão de hardening do Windows.
Para muitos usuários, a transcrição em cloud é genuinamente a ferramenta certa. A transcrição de reuniões com múltiplos falantes e etiquetas de falante é muito melhor no Otter ou Fireflies do que em qualquer ferramenta local de microfone único. O cross-device sync funciona porque a cloud é a camada de armazenamento. A sumarização automática por AI roda mais rápido em servidores GPU dedicados do que em um laptop. O suporte ao cliente e as integrações são mais robustos em um produto apoiado por venture capital do que em um pequeno aplicativo Windows.
Se o seu conteúdo não for particularmente sensível, você estiver trabalhando em vários dispositivos e quiser o fluxo de trabalho polido de sumarização e compartilhamento por AI, uma ferramenta em cloud é provavelmente a melhor resposta. O StarWhisper é especificamente a resposta para usuários onde o caminho do áudio importa, e a barra para adoção é se você confia nesse caminho.
O StarWhisper vem com um Cloud Mode opcional que envia áudio para a API OpenAI Whisper. Isso existe porque alguns usuários em máquinas de baixa especificação querem transcrição mais rápida e não têm preocupações de privacidade com o processamento em cloud. O Cloud Mode é:
Se o seu motivo para considerar o StarWhisper é a privacidade, mantenha o Cloud Mode desligado. A experiência completa do Local Mode não exige isso. A referência mais profunda local vs cloud está na Whisper local vs cloud página de FAQ.
O StarWhisper é gratuito para baixar. O plano gratuito cobre 500 palavras por dia, o que é suficiente para a maioria dos usuários avaliarem o fluxo de trabalho em conteúdo real por uma ou duas semanas antes de decidir. Pro custa $10 por mês ou $80 por ano e remove o limite diário. Não há preço por assento, sem upgrade de nível, sem medidor de uso além da contagem diária de palavras. Detalhes completos na seção de preços da página inicial.
Os requisitos do sistema são Windows 10 ou 11. Qualquer CPU moderna funciona para o caminho local do Whisper; uma GPU NVIDIA torna-o mais rápido, mas não é obrigatório. O instalador tem algumas centenas de megabytes, incluindo o modelo empacotado. Uma vez instalado, nenhuma conexão de rede é necessária para transcrição. Para mais informações sobre o comportamento offline, a página dedicada de recursos de privacidade e offline detalha o aspecto arquitetônico.
O detalhe técnico de como o processamento local funciona no StarWhisper.
Referência lado a lado sobre os dois modos de operação e quando usar cada um.
Transcrição somente local para notas clínicas confidenciais.
Como configurar o StarWhisper para funcionar inteiramente sem conexão com a internet.