La transcripción oficial de Meet de Google está bloqueada detrás de Workspace Business Standard a unos 14 dollars por usuario al mes. Esta guía muestra la solución gratuita: una grabación de Meet, una aplicación gratuita de Windows y una transcripción en minutos.
Funciona con o sin una suscripción a Workspace.
Si tu cuenta está en Workspace Business Standard o superior, la grabación está integrada: haz clic en el menú de tres puntos dentro de Meet y luego en Grabar reunión. Si tienes una cuenta personal de Google o un nivel de Workspace sin grabación, ejecuta un grabador de pantalla local gratuito antes de unirte a la llamada. OBS Studio es la opción más común. La Xbox Game Bar integrada (Win+G) y ShareX también funcionan. Cualquiera que elijas, asegúrate de que esté habilitada la opción "Capturar audio del sistema", o grabarás video sin sonido.
Si Google Meet grabó la llamada por ti, se guarda en Mi Unidad, Grabaciones de Meet como un MP4. Abre Drive, encuentra el archivo y descárgalo. Si usaste un grabador de pantalla, el archivo ya está en tu disco duro donde le indicaste al grabador que guardara. De cualquier manera, deberías terminar con un único archivo .mp4. Los tamaños de archivo suelen oscilar entre 50 y 300 MB por hora, dependiendo de la resolución y el contenido compartido en pantalla.
Descargar StarWhisper desde la página de inicio. El instalador pesa alrededor de 200 MB en la primera ejecución porque empaqueta el modelo Whisper. No se requiere registro de cuenta, ni tarjeta de crédito, ni componente en la nube. Después de instalar, lanza la aplicación una vez y completa la configuración de 30 segundos (elige tu micrófono predeterminado, selecciona un atajo de teclado, acepta los valores predeterminados para todo lo demás). Ya estás listo para transcribir.
Abre el Explorador de archivos hasta donde guardaste la grabación. Suelta el .mp4 en la ventana de StarWhisper. La aplicación extrae la pista de audio automáticamente, detecta el idioma hablado y comienza a transcribir. Una llamada de 60 minutos suele tardar entre 5 y 15 minutos en una CPU de portátil reciente, o de 1 a 3 minutos en una GPU NVIDIA usando el paquete de aceleración CUDA. El progreso se muestra en tiempo real. Puedes minimizar la ventana y seguir trabajando.
Cuando finaliza la ejecución, la transcripción aparece en la ventana de StarWhisper. Léela en pantalla, copia el texto completo al portapapeles o guárdalo en un archivo .txt. Pégalo en Google Docs, Notion, Confluence, OneNote o en el sistema de notas de tu equipo. La transcripción es texto sin formato y sin etiquetas de orador, lo que mantiene el archivo portátil. Costo total transcurrido: cero. Sin actualización de Workspace, sin suscripción de Otter, sin tarifa de transcripción por minuto.
Un flujo de trabajo gratuito que hace lo que el plan de 14 dollars por usuario hace.
Workspace Business Standard cuesta aproximadamente 14 dollars por usuario al mes, o 168 por año por puesto. Para un equipo de cinco personas, son 840 dólares al año solo para habilitar la transcripción. Este flujo de trabajo se mantiene gratuito para transcribidores ocasionales, o 10 dollars al mes por persona en Pro si transcribes reuniones largas todos los días.
El MP4 está en tu disco duro. StarWhisper realiza la transcripción localmente en tu CPU o GPU. Nada se sube a Google, OpenAI o a ningún tercero durante la transcripción en sí. Detalles de privacidad y arquitectura sin conexión.
El mismo flujo de trabajo maneja Zoom, Microsoft Teams, Webex, Slack Huddles y cualquier otra cosa que puedas grabar. El motor de transcripción trata cada grabación como un simple archivo de audio. Consulta las guías relacionadas sobre transcribir llamadas de Zoom para los pasos de grabación específicos de la plataforma.
Los equipos distribuidos que realizan llamadas de Meet en inglés, español, alemán, francés, japonés y mandarín se benefician. Whisper detecta automáticamente el idioma hablado. Página de soporte multilingüe.
La misma instalación también te permite dictar en Google Docs, Chat o cualquier campo de texto de Windows manteniendo presionado un atajo de teclado. Consulta la guía de voz a texto en Google Docs para el flujo de trabajo de presionar y mantener.
Los propietarios de GPU NVIDIA procesan una llamada de una hora en 1 a 3 minutos mediante CUDA 11 o 12. Sin una GPU, las CPU modernas manejan la misma carga de trabajo en 5 a 15 minutos. Cualquiera de los caminos es más rápido que volver a escuchar la reunión.
Google Meet tiene subtítulos en vivo gratis, pero la exportación oficial de transcripciones está restringida a Workspace Business Standard o superior. Business Standard cuesta unos 14 dollars por usuario al mes, facturado anualmente. Para un freelancer o un equipo pequeño donde solo unas pocas llamadas al mes necesitan realmente una transcripción, es un gasto considerable. Muchos equipos mantienen el nivel gratuito o un plan Workspace más económico y terminan tomando notas escritas a mano o pagando por un servicio externo como Otter o Fireflies además de Workspace.
Los servicios externos más baratos tienen sus propios inconvenientes. Se unen a la reunión como un bot, lo que anuncia su presencia en la lista de participantes y desestabiliza a la gente en llamadas confidenciales. Suben el audio de la reunión a sus servidores, lo cual es un problema para discusiones legales, médicas, de RR. HH. o de fusiones y adquisiciones. Y añaden otra suscripción mensual además de Workspace, que es lo que la gente intentaba evitar al no actualizar a Business Standard en primer lugar.
Esta guía describe el flujo de trabajo que la mayoría de los transcribidores independientes y los equipos preocupados por la privacidad eligen. Captura la llamada de Meet (ya sea con grabación de Workspace, con un grabador de pantalla gratuito o con uno compartido por un colega), y luego transcribe el MP4 resultante con StarWhisper en tu PC con Windows. Gratis, local, sin bot en la reunión, sin tarifa por minuto.
El truco de todo este flujo de trabajo es tener una grabación en primer lugar. Tres formas comunes de conseguirla:
Dentro de la reunión, haz clic en el menú de tres puntos, elige Grabar reunión, confirma el mensaje que te pide notificar a los participantes. Cuando finaliza la llamada, la grabación se procesa y llega a Mi Unidad, Grabaciones de Meet, generalmente en pocos minutos. Obtienes un MP4 con audio mezclado de todos más video del orador activo y cualquier contenido compartido en pantalla.
Antes de unirte a la llamada, inicia OBS Studio, la Xbox Game Bar integrada (Win+G en Windows 10/11), ShareX o cualquier otro grabador de pantalla. La configuración crítica es "Capturar audio del escritorio" o "Grabar sonido del sistema", que graba lo que tu computadora reproduce por sus altavoces. Sin esto, solo obtienes video. Elige MP4 como formato de salida si tu grabador ofrece una opción. Comienza a grabar justo antes de unirte a la llamada y deténlo después de que todos se hayan ido.
Si el anfitrión o algún otro participante grabó la llamada y te envió un enlace de Drive, haz clic en el enlace, descarga el MP4 y luego pasa al paso tres.
Siempre informa a los demás participantes que estás grabando. La mayoría de las jurisdicciones requieren al menos el consentimiento de una de las partes, pero la práctica profesional y ética es revelar la acción. Algunos lugares de trabajo y contratos prohíben explícitamente la captura local de reuniones internas, así que verifica antes de depender de esto para llamadas sensibles.
Una grabación de Google Meet (ya sea de Workspace o de grabación de pantalla) es un único MP4 con una pista de audio mezclada que contiene todas las voces, más una única pista de video de quien estuvo en pantalla en ese momento. Lo importante para la transcripción es el audio. No hay canales por orador, por lo que ni StarWhisper ni ningún otro transcriptor de pista única pueden etiquetar automáticamente quién dijo qué.
StarWhisper producirá una transcripción continua y limpia con pausas de oración y puntuación natural. Para reuniones típicas de puntos de acción y decisiones, esto es suficiente: revise la transcripción, asigne mentalmente las líneas a quien recuerda que habló, extraiga las cuatro o cinco decisiones y puntos de acción, y compártalos con el equipo. Si necesita transcripciones literales formales con etiquetas de orador (procedimientos judiciales, deposiciones, entrevistas de investigación académica), necesitará un servicio de diarización en la nube de pago o una configuración de múltiples micrófonos donde cada orador tenga su propia pista.
Transcribir una reunión grabada es más rápido que en tiempo real, a veces mucho más rápido. Tiempos aproximados de ejecución para el modelo Whisper medio predeterminado en hardware común:
| Hardware | Reunión de 30 min | Reunión de 60 min | Reunión de 2 horas |
|---|---|---|---|
| CPU de portátil moderno (i7 o Ryzen 7) | 3 a 6 min | 6 a 12 min | 12 a 25 min |
| NVIDIA RTX 3060 (CUDA) | 30 a 60 seg | 1 a 2 min | 2 a 5 min |
| NVIDIA RTX 4090 (CUDA) | 10 a 20 seg | 20 a 40 seg | 1 a 2 min |
| CPU antiguo (más de 5 años) | 10 a 20 min | 25 a 45 min | 50 a 90 min |
Para la mayoría de los portátiles de oficina comprados en los últimos tres años, espere que una grabación de Meet de una hora termine de transcribir en 6 a 12 minutos. Si hace esto regularmente y tiene una GPU NVIDIA en la máquina, el paquete CUDA reduce el tiempo en aproximadamente un orden de magnitud.
Los equipos distribuidos que realizan llamadas Meet en Berlín, Tokio y Sao Paulo son un caso de uso importante para este flujo de trabajo. Whisper admite 96 idiomas con alta precisión en inglés, alemán, español, francés, italiano, portugués, holandés, polaco, japonés, chino, coreano, hindi, ruso, árabe y turco, entre otros. El modelo detecta automáticamente el idioma hablado al comienzo del archivo.
Para reuniones en las que los oradores cambian de idioma a mitad de la llamada (un patrón europeo común), Whisper maneja los cambios de código cortos razonablemente bien, aunque se compromete con un idioma principal. Si tiene una reunión mitad español mitad inglés, puede obtener mejores resultados dividiendo la grabación en dos clips y transcribiendo cada uno en su idioma declarado. La página de función multilingüe detalla la precisión por idioma.
También es posible la traducción. StarWhisper puede tomar una grabación que no esté en inglés y transcribirla directamente a texto en inglés usando el modo de traducción de Whisper. Esto es útil para equipos internos en EE. UU. o Reino Unido que intentan seguir una reunión de socios en otro idioma sin pagar un traductor. La calidad es generalmente buena para los idiomas principales y disminuye para los menos comunes.
Este flujo de trabajo mantiene el audio de la reunión y la transcripción en su dispositivo. Las grabaciones de Workspace viven en su propio Google Drive; usted controla el uso compartido. Las grabaciones de grabadora de pantalla se guardan en su disco duro. StarWhisper Local Mode procesa el archivo localmente en la CPU o GPU. La salida de la transcripción es un archivo .txt simple en su PC. Nada de esto sale de su red a menos que elija compartirlo (pegarlo en un documento en la nube, enviarlo por correo electrónico, subirlo).
Comparación con servicios de transcripción en la nube. Otter, Fireflies, Notta y herramientas similares se unen a la llamada como bot y suben el audio a sus servidores. Incluso el propio proceso de transcripción de Google procesa el audio en la nube de Google. Para llamadas confidenciales (discusiones de fusiones y adquisiciones, revisiones de desempeño, entrevistas con clientes bajo NDA, estrategia legal, revisiones de casos médicos), el flujo de trabajo solo local es una mejora significativa en el control de datos.
Si opera en una industria regulada, la misma arquitectura respalda su postura de cumplimiento. La FAQ de cumplimiento HIPAA cubre lo que significa el procesamiento local para la información de salud protegida específicamente.
Los reclutadores que realizan entrevistas a candidatos, los representantes de ventas en llamadas de descubrimiento y los líderes de CS que realizan renovaciones, todos quieren transcripciones, pero rara vez justifican una línea de artículo de transcripción separada. El flujo de trabajo aquí es el mismo que cualquier otra reunión: grabar localmente, transcribir después. Para los equipos de ventas que realizan trabajo en volumen, la guía de voz a texto para representantes de ventas cubre la integración con los CRMs. Para los flujos de trabajo de RR. HH. y reclutamiento, la página de voz a texto para gerentes de RR. HH. cubre las transcripciones de selección de candidatos y los requisitos de confidencialidad que conllevan. Para una integración más profunda con Teams en lugar de Meet, la guía de voz a texto en Teams es el equivalente directo.
El mismo flujo de trabajo de grabación local sin el plan Zoom Business de 199 dollars.
Capture llamadas de Teams y convierta la grabación de OneDrive en texto buscable.
Dictar por voz directamente en el chat de Teams durante una reunión en vivo.
Transcripciones de selección de candidatos y notas de entrevistas confidenciales.