Privacidade em Primeiro Lugar

Privacidade da Transcrição:
Mantenha Seu Áudio Fora da Nuvem

Otter, Rev, Happy Scribe, Notta e Trint enviam seu áudio para seus servidores. Alguns retêm por 30 dias ou mais. Para chamadas confidenciais com clientes, conversas médicas, trabalho jurídico, reuniões de RH e gravações de P&D, isso é um problema. StarWhisper executa o OpenAI Whisper localmente no seu PC Windows. O áudio nunca sai do dispositivo.

Baixar Grátis para Windows
Microsoft Store
  • Confiável no Windows
  • Configuração rápida de 30 segundos
"Modo Local ativo. 0 bytes enviados."

O Problema da Transcrição na Nuvem

Onde a maioria das ferramentas de transcrição envia seu áudio, e a alternativa.

O status quo

Transcrição baseada em nuvem

Otter, Rev, Happy Scribe, Notta, Trint, Sonix e quase todo outro serviço de transcrição envia seu áudio para seus servidores, passa pelo modelo deles e retém o arquivo por pelo menos 30 dias. Alguns retêm por mais tempo ou usam para melhorar seus modelos. A conveniência é real. O custo também é real.

Para conteúdo não sensível, isso é aceitável. Para chamadas sob NDA, conversas médicas ou jurídicas, assuntos de RH ou qualquer coisa coberta por GDPR ou HIPAA, isso força uma conversa de aquisição e um rastro de papel antes mesmo de você poder usar.

Alternativa local

Whisper rodando no seu dispositivo

StarWhisper agrupa o modelo OpenAI Whisper com o instalador. Quando você transcreve, o modelo carrega na memória da sua máquina, passa o áudio por sua rede neural usando seu CPU ou GPU e produz texto. Não há upload, não há servidor, não há log para intimação, nem período de retenção para questionar.

Se você desconectar a rede, a transcrição ainda funciona. Esta é uma privacidade estrutural, não uma promessa de política.

Seis Propriedades de Privacidade

O que o "processamento local" realmente oferece

Zero upload por padrão

No Modo Local, nenhuma parte do áudio sai do dispositivo. Isso pode ser verificado com qualquer monitor de rede. Você pode verificar antes de confiar.

Funciona offline

Desconecte-se da internet, a transcrição ainda funciona. As ferramentas baseadas em nuvem simplesmente falham sob as mesmas condições. A operação offline é a prova mais limpa possível de processamento local.

Sem janela de retenção para gerenciar

Os serviços em nuvem geralmente retêm áudio por mais de 30 dias. Com o processamento local, não há questão de retenção porque nada foi enviado. O áudio existe apenas enquanto você o falou.

Sem salto de LLM de terceiros

Alguns serviços de transcrição em nuvem passam seu áudio por modelos de IA adicionais para limpeza ou sumarização, multiplicando as partes que têm acesso. O processamento local mantém o caminho dos dados em uma única máquina.

Sem superfície de intimação

Se não há log em um servidor, não há log para forçar. Isso é importante para jornalistas, advogados e qualquer pessoa cujo material de origem seja sensível o suficiente para que o processo legal seja uma consideração real.

Sem dependência de fornecedor

Whisper é código aberto. O áudio que você processa hoje não fica preso na conta de um fornecedor. Se o StarWhisper cessasse de existir, o modelo subjacente ainda funcionaria.

O que todo serviço de transcrição em nuvem faz com seu áudio

Abra a política de privacidade de qualquer grande serviço de transcrição e você encontrará uma estrutura semelhante. O áudio que você envia é processado em seus servidores, pode ser passado por provedores de IA terceirizados e é retido por algum período (geralmente 30 dias, às vezes 90, às vezes "até você excluir"). A maioria das políticas também reserva o direito de usar partes anonimizadas do áudio para melhorar o modelo subjacente, a menos que você opte por sair, o que às vezes é um recurso de nível pago.

Especificamente, aqui está o caminho do áudio para alguns dos maiores provedores:

  • Otter.ai: Áudio enviado para AWS, processado por modelos proprietários, armazenado em sua infraestrutura, disponível para exportação. O nível Pro oferece controles de retenção de dados.
  • Rev: Áudio enviado para transcrição humana ou por IA. Armazenado na infraestrutura Rev. A postura de privacidade é razoável, mas o áudio está inequivocamente fora do seu dispositivo.
  • Happy Scribe: Baseado na UE, amigável ao GDPR, mas ainda na nuvem. Áudio enviado, transcrito em seus servidores, disponível para download.
  • Notta: Baseado na nuvem. O nível gratuito inclui alguns limites, mas nenhuma opção local.
  • Trint: Nuvem, focado em empresas. Usado intensamente na mídia, mas o áudio ainda é enviado.
  • Sonix: Nuvem. API estilo Stripe, mas o áudio flui por seu pipeline.

Para a maioria dos casos de uso, este trade-off é aceitável. A nuvem cuida do processamento pesado, você recebe um produto polido, o áudio é criptografado em trânsito, a empresa tem SOC 2. Para alguns casos de uso, nenhuma quantidade de política é suficiente porque o áudio ainda sai do ambiente confiável, e o ambiente confiável é o único cuja segurança você realmente controla.

O que a transcrição somente local realmente significa

"Local" é usado de forma vaga em marketing. Aqui está o que significa em StarWhisper especificamente.

O modelo vive no seu disco

Os arquivos do modelo OpenAI Whisper são agrupados com o instalador. Eles ficam no diretório de instalação do StarWhisper no seu disco Windows. Você pode vê-los, pode verificar o checksum, pode copiá-los para outra máquina. Eles não são carregados da internet em tempo de execução. Depois de instalar o aplicativo, você não precisa de uma conexão de rede para ditar.

A inferência roda em seu CPU ou GPU

Quando você pressiona o atalho de ditado, o áudio do microfone é capturado em um buffer de memória, alimentado no modelo Whisper carregado, e o modelo produz texto usando o processamento da sua máquina. Nenhum dado é enviado pela rede. Se sua máquina tiver uma GPU NVIDIA, a inferência roda nos núcleos CUDA e é mais rápida. Se não tiver, o caminho do CPU também funciona, só que mais lento.

Não há chamada de API remota

Esta é a distinção mais limpa entre transcrição local e em nuvem. Um produto em nuvem faz uma solicitação HTTPS para sua API. Um produto local não faz. Você pode confirmar isso executando um monitor de rede enquanto dita. O resultado é o mesmo como se o aplicativo não tivesse permissão de internet alguma.

E quanto a atualizações e verificações de licença

O aplicativo fala com a rede por duas coisas: verificar novas versões (somente quando você clica no botão, devido à política estrita de sem atualização automática do StarWhisper) e verificar sua licença se você estiver no nível pago. Nenhum dos dois toca em seu áudio. Ambos podem ser inspecionados separadamente. Se você quiser usar o StarWhisper em uma máquina isolada (air-gapped), o nível gratuito não exige nenhuma verificação de licença.

Casos de uso onde a transcrição local é a escolha certa

Saúde e transcrição médica

Conversas cobertas pelo HIPAA entre clínicos e pacientes não devem ser enviadas para um serviço de transcrição em nuvem, a menos que esse serviço tenha um BAA assinado e o caso de uso tenha sido revisado pela conformidade. Muitos produtos SaaS de transcrição oferecem BAA, mas apenas em níveis empresariais. O processamento local evita a questão inteiramente: nenhum BAA é necessário porque nenhum dado cruza para um terceiro. Cobrimos isso em detalhes em voz para texto para terapeutas e na próxima página de referência de ditado HIPAA.

Trabalho jurídico e sigilo advogado-cliente

Redigir conteúdo privilegiado em uma ferramenta de transcrição em nuvem é, dependendo da jurisdição, explicitamente problemático ou uma área cinzenta que a maioria das opiniões de ética jurídica aconselha evitar. O raciocínio é que armazenar comunicações privilegiadas em servidores de terceiros pode renunciar ao privilégio sob algumas interpretações de ordem. O processamento local mantém o conteúdo na máquina do advogado, que é o mesmo padrão que se aplicou às ferramentas de ditado por cinquenta anos.

Assuntos de RH e pessoal

Revisões de desempenho, conversas de término, investigações de reclamações e discussões de compensação são exatamente o tipo de conteúdo que não deve aparecer no banco de dados de transcrição de terceiros. Mesmo que a postura do fornecedor SaaS seja excelente, a superfície de exposição é desnecessária. A transcrição local elimina a dúvida.

Jornalismo e proteção de fontes

Se sua fonte concordou em falar sob condição de anonimato, "o áudio está na nossa cloud, deletado após 30 dias" é uma história diferente de "o áudio nunca saiu do meu laptop". Jornalistas de renome tendem a usar a segunda história quando podem. A transcrição local suporta esse padrão.

P&D, segredos comerciais, trabalho sob NDA

Se a política de dados do seu empregador diz "sem dados de clientes em SaaS de terceiros sem revisão de segurança", essa mesma política quase certamente se aplica a gravações de voz de conversas internas sobre esses dados. O processamento local mantém a conversa dentro do ambiente confiável.

Governo, defesa, trabalho classificado-adjacente

Para qualquer coisa que se aproxime de SBU, CUI ou manuseio classificado, o SaaS em cloud geralmente está fora de questão. O processamento local é a única opção que se encaixa no modelo de ameaça.

Comparação: manuseio de áudio local vs cloud

Propriedade Transcrição em Cloud StarWhisper Local Mode
Áudio sai do dispositivo Sim Não
Janela de retenção 30 dias típico, varia Nenhum (não armazenado)
Processamento por LLM de terceiros Às vezes Não
Funciona offline Não Sim
Log de servidor passível de subpoena Sim Não
BAA exigido para HIPAA Sim Não aplicável
Usado para treinar modelos do fornecedor Às vezes (opt-out varia) Nunca
Funciona atrás de air gap Não Sim
Verificável por captura de rede Áudio visível em trânsito Zero saída

Como verificar a reivindicação de privacidade por conta própria

O motivo pelo qual "local" é mais importante do que "privado" é que local é verificável. Você não precisa confiar em uma declaração de política. Você pode verificar a propriedade diretamente.

Teste 1: Captura de rede

Instale um monitor de rede no Windows. GlassWire é a opção GUI mais fácil; Wireshark é a mais completa; o Resource Monitor embutido (Monitor de Desempenho -> Rede) é suficiente para uma verificação rápida. Comece a ditar no Local Mode e observe o processo StarWhisper. Você deve ver zero bytes de saída para qualquer endpoint de transcrição durante a ditadura em si. O único tráfego de saída associado ao aplicativo deve ser coisas de control-plane não relacionadas, como verificação de licença ou verificações de atualização iniciadas pelo usuário.

Teste 2: Air gap

Desconecte-se da rede completamente. Desative o Wi-Fi, desconecte o Ethernet, ative o modo avião. Abra o StarWhisper e dite. Ainda funciona. Esta é a prova mais limpa porque é impossível de falsificar. As ferramentas de transcrição em cloud simplesmente retornam erro em condições de air-gap porque não têm para onde enviar o áudio.

Teste 3: Inspecionar a instalação

Abra a pasta de instalação do StarWhisper. Você verá os arquivos do modelo Whisper (os formatos GGML ou GGUF, dependendo do backend). Estes são arquivos binários grandes (várias centenas de MB a alguns GB, dependendo do tamanho do modelo). Sua presença no disco é o que torna o processamento local possível. Eles são o modelo. Eles são todo o pipeline. Nada sobre a transcrição precisa sair da pasta onde vivem.

O que você não pode verificar completamente

Você não pode verificar que o aplicativo não armazena áudio em buffer no disco antes de descartá-lo. (Ele não armazena, mas esta é uma asserção de nível de código.) Você não pode verificar que o próprio Microsoft Windows não está capturando áudio do microfone de forma independente. Estes são problemas separados. Para a camada do OS, aplicam-se os guias padrão de hardening do Windows.

Onde a transcrição em cloud vence, honestamente

Este não é um argumento unilateral

Para muitos usuários, a transcrição em cloud é genuinamente a ferramenta certa. A transcrição de reuniões com múltiplos falantes e etiquetas de falante é muito melhor no Otter ou Fireflies do que em qualquer ferramenta local de microfone único. O cross-device sync funciona porque a cloud é a camada de armazenamento. A sumarização automática por AI roda mais rápido em servidores GPU dedicados do que em um laptop. O suporte ao cliente e as integrações são mais robustos em um produto apoiado por venture capital do que em um pequeno aplicativo Windows.

Se o seu conteúdo não for particularmente sensível, você estiver trabalhando em vários dispositivos e quiser o fluxo de trabalho polido de sumarização e compartilhamento por AI, uma ferramenta em cloud é provavelmente a melhor resposta. O StarWhisper é especificamente a resposta para usuários onde o caminho do áudio importa, e a barra para adoção é se você confia nesse caminho.

Especificamente, a transcrição em cloud é melhor quando

  • Você precisa de etiquetas de falante e transcrição de múltiplas partes. StarWhisper é construído para um único falante (você).
  • Você precisa de cross-device sync. StarWhisper é apenas desktop Windows, sem sincronização móvel ou em cloud.
  • Você deseja sumarização por AI pós-reunião com extração de itens de ação. Esta é uma força de ferramenta em cloud.
  • Sua equipe padronizou uma ferramenta específica. O custo de integração pode superar o benefício de privacidade.

E quanto ao Cloud Mode opcional do StarWhisper

O StarWhisper vem com um Cloud Mode opcional que envia áudio para a API OpenAI Whisper. Isso existe porque alguns usuários em máquinas de baixa especificação querem transcrição mais rápida e não têm preocupações de privacidade com o processamento em cloud. O Cloud Mode é:

  • Desligado por padrão. O aplicativo é enviado no Local Mode por padrão.
  • Opt-in. Você o habilita nas Configurações; o interruptor é claramente rotulado.
  • Reversível. Você pode desligá-lo a qualquer momento e o aplicativo retorna ao comportamento local-somente.
  • Divulgado. A interface de configurações explica o que muda quando você o habilita.

Se o seu motivo para considerar o StarWhisper é a privacidade, mantenha o Cloud Mode desligado. A experiência completa do Local Mode não exige isso. A referência mais profunda local vs cloud está na Whisper local vs cloud página de FAQ.

Preços e como começar

O StarWhisper é gratuito para baixar. O plano gratuito cobre 500 palavras por dia, o que é suficiente para a maioria dos usuários avaliarem o fluxo de trabalho em conteúdo real por uma ou duas semanas antes de decidir. Pro custa $10 por mês ou $80 por ano e remove o limite diário. Não há preço por assento, sem upgrade de nível, sem medidor de uso além da contagem diária de palavras. Detalhes completos na seção de preços da página inicial.

Os requisitos do sistema são Windows 10 ou 11. Qualquer CPU moderna funciona para o caminho local do Whisper; uma GPU NVIDIA torna-o mais rápido, mas não é obrigatório. O instalador tem algumas centenas de megabytes, incluindo o modelo empacotado. Uma vez instalado, nenhuma conexão de rede é necessária para transcrição. Para mais informações sobre o comportamento offline, a página dedicada de recursos de privacidade e offline detalha o aspecto arquitetônico.

Perguntas Frequentes

O StarWhisper envia áudio para algum lugar?
Não no Local Mode, que é o padrão. O áudio é capturado pelo seu microfone, enviado diretamente para o modelo Whisper local, convertido em texto e descartado. Não há etapa de upload, nenhum processador de terceiros, nenhum transcript armazenado em um servidor remoto. A única maneira de o áudio sair do dispositivo é se você habilitar explicitamente o Cloud Mode nas configurações, que é opt-in e divulgado no momento em que você o liga.
E quanto ao Cloud Mode, quando ele envia áudio?
O Cloud Mode envia áudio para a API OpenAI Whisper somente depois que você o habilita explicitamente nas Configurações. Ele está desligado por padrão. Você pode desativá-lo a qualquer momento. O interruptor existe para usuários que desejam uma transcrição ligeiramente mais rápida em hardware de baixo desempenho e não precisam de processamento local-somente. O padrão do Local Mode nunca toca na rede para transcrição.
Posso provar que o áudio não sai do meu dispositivo?
Sim. Abra um monitor de rede como Wireshark, Resource Monitor ou GlassWire no Windows. Comece uma sessão de ditado no Local Mode. Você verá zero tráfego de saída do StarWhisper para qualquer endpoint de transcrição durante a transcrição. O único tráfego de rede associado ao aplicativo são verificações ocasionais de licença e verificações de atualização, ambos não relacionados ao seu áudio.
E quanto à telemetria ou análise, isso inclui áudio?
Não. A telemetria do StarWhisper cobre eventos de uso (por exemplo, ditado iniciado, versão do aplicativo, versão do OS) e relatórios de falha. Ela não inclui áudio, conteúdo de texto transcrito ou qualquer carga útil que possa identificar o que você disse. A telemetria também pode ser desativada nas Configurações, caso você prefira não enviar nada. O inventário completo de dados é documentado na política de privacidade.
A transcrição é armazenada em algum lugar?
O StarWhisper não armazena histórico de transcrições no lado do servidor. O texto transcrito é colado no aplicativo em que você está focado (Word, Notion, Outlook, etc.), e esse aplicativo cuida do armazenamento na sua própria máquina. Se você usar o recurso opcional de histórico local, as transcrições são salvas em uma pasta no seu PC que você controla e pode excluir a qualquer momento. Nada é enviado.
O que significa processamento local tecnicamente?
O modelo OpenAI Whisper é empacotado com o instalador e armazenado no seu disco. Quando você dita, o aplicativo carrega o modelo na memória, captura o áudio do microfone, executa o áudio através da rede neural do modelo usando sua CPU ou GPU e produz texto. Não há chamada de API remota. A mesma arquitetura funcionaria em uma máquina totalmente isolada. Isso é fundamentalmente diferente de um produto de transcrição SaaS, onde o modelo vive nos servidores do fornecedor.
E quanto ao próprio Windows ou outros aplicativos espionando-me?
Esse é um assunto separado e fora do escopo de qualquer aplicativo único. O Windows tem sua própria telemetria, que você pode configurar nas Configurações. Outros aplicativos na sua máquina podem ter acesso ao microfone. O StarWhisper não pode falar sobre o que eles fazem; ele só pode falar sobre o que ele próprio faz, que é processar áudio localmente. Se o seu modelo de ameaça inclui o OS, você deve proteger o OS de forma independente.
Como eu verifico tudo isso por conta própria?
Três passos. Primeiro, execute uma captura de rede durante o ditado e confirme que não há upload. Segundo, verifique a pasta de instalação do StarWhisper para confirmar que os arquivos do modelo Whisper estão presentes localmente. Terceiro, desconecte-se completamente da internet e confirme se o ditado ainda funciona no Modo Local. O terceiro teste é a prova mais limpa, porque os serviços em nuvem simplesmente falhariam se a rede estivesse indisponível.

Experimente Transcrição Local Grátis

500 palavras por dia no plano gratuito. O áudio nunca sai do seu PC Windows.

Baixar StarWhisper