Guía de transcripción de Google Meet

Cómo transcribir
una llamada de Google Meet gratis
No se requiere Workspace

La transcripción oficial de Meet de Google está bloqueada detrás de Workspace Business Standard a unos 14 dollars por usuario al mes. Esta guía muestra la solución gratuita: una grabación de Meet, una aplicación gratuita de Windows y una transcripción en minutos.

Descargar para Windows
Microsoft Store
  • Confiado por Windows
  • Configuración rápida de 30 segundos
"Notas de la reunión listas en 3 minutos..."

Cinco pasos de Google Meet a Transcripción

Funciona con o sin una suscripción a Workspace.

1

Obtener una grabación de Meet

Si tu cuenta está en Workspace Business Standard o superior, la grabación está integrada: haz clic en el menú de tres puntos dentro de Meet y luego en Grabar reunión. Si tienes una cuenta personal de Google o un nivel de Workspace sin grabación, ejecuta un grabador de pantalla local gratuito antes de unirte a la llamada. OBS Studio es la opción más común. La Xbox Game Bar integrada (Win+G) y ShareX también funcionan. Cualquiera que elijas, asegúrate de que esté habilitada la opción "Capturar audio del sistema", o grabarás video sin sonido.

2

Descargar el MP4

Si Google Meet grabó la llamada por ti, se guarda en Mi Unidad, Grabaciones de Meet como un MP4. Abre Drive, encuentra el archivo y descárgalo. Si usaste un grabador de pantalla, el archivo ya está en tu disco duro donde le indicaste al grabador que guardara. De cualquier manera, deberías terminar con un único archivo .mp4. Los tamaños de archivo suelen oscilar entre 50 y 300 MB por hora, dependiendo de la resolución y el contenido compartido en pantalla.

3

Instalar StarWhisper

Descargar StarWhisper desde la página de inicio. El instalador pesa alrededor de 200 MB en la primera ejecución porque empaqueta el modelo Whisper. No se requiere registro de cuenta, ni tarjeta de crédito, ni componente en la nube. Después de instalar, lanza la aplicación una vez y completa la configuración de 30 segundos (elige tu micrófono predeterminado, selecciona un atajo de teclado, acepta los valores predeterminados para todo lo demás). Ya estás listo para transcribir.

4

Arrastrar el MP4 a StarWhisper

Abre el Explorador de archivos hasta donde guardaste la grabación. Suelta el .mp4 en la ventana de StarWhisper. La aplicación extrae la pista de audio automáticamente, detecta el idioma hablado y comienza a transcribir. Una llamada de 60 minutos suele tardar entre 5 y 15 minutos en una CPU de portátil reciente, o de 1 a 3 minutos en una GPU NVIDIA usando el paquete de aceleración CUDA. El progreso se muestra en tiempo real. Puedes minimizar la ventana y seguir trabajando.

5

Revisar y exportar la transcripción

Cuando finaliza la ejecución, la transcripción aparece en la ventana de StarWhisper. Léela en pantalla, copia el texto completo al portapapeles o guárdalo en un archivo .txt. Pégalo en Google Docs, Notion, Confluence, OneNote o en el sistema de notas de tu equipo. La transcripción es texto sin formato y sin etiquetas de orador, lo que mantiene el archivo portátil. Costo total transcurrido: cero. Sin actualización de Workspace, sin suscripción de Otter, sin tarifa de transcripción por minuto.

Por qué esto supera a Workspace Business Standard para transcripciones

Un flujo de trabajo gratuito que hace lo que el plan de 14 dollars por usuario hace.

Costo continuo cero

Workspace Business Standard cuesta aproximadamente 14 dollars por usuario al mes, o 168 por año por puesto. Para un equipo de cinco personas, son 840 dólares al año solo para habilitar la transcripción. Este flujo de trabajo se mantiene gratuito para transcribidores ocasionales, o 10 dollars al mes por persona en Pro si transcribes reuniones largas todos los días.

El audio se queda en tu dispositivo

El MP4 está en tu disco duro. StarWhisper realiza la transcripción localmente en tu CPU o GPU. Nada se sube a Google, OpenAI o a ningún tercero durante la transcripción en sí. Detalles de privacidad y arquitectura sin conexión.

Funciona para cualquier plataforma de reuniones

El mismo flujo de trabajo maneja Zoom, Microsoft Teams, Webex, Slack Huddles y cualquier otra cosa que puedas grabar. El motor de transcripción trata cada grabación como un simple archivo de audio. Consulta las guías relacionadas sobre transcribir llamadas de Zoom para los pasos de grabación específicos de la plataforma.

96 idiomas para llamadas internacionales

Los equipos distribuidos que realizan llamadas de Meet en inglés, español, alemán, francés, japonés y mandarín se benefician. Whisper detecta automáticamente el idioma hablado. Página de soporte multilingüe.

Dictado en tiempo real en cualquier campo de texto

La misma instalación también te permite dictar en Google Docs, Chat o cualquier campo de texto de Windows manteniendo presionado un atajo de teclado. Consulta la guía de voz a texto en Google Docs para el flujo de trabajo de presionar y mantener.

Disponible aceleración GPU

Los propietarios de GPU NVIDIA procesan una llamada de una hora en 1 a 3 minutos mediante CUDA 11 o 12. Sin una GPU, las CPU modernas manejan la misma carga de trabajo en 5 a 15 minutos. Cualquiera de los caminos es más rápido que volver a escuchar la reunión.

Por qué la transcripción de Google Meet está tan restringida

Google Meet tiene subtítulos en vivo gratis, pero la exportación oficial de transcripciones está restringida a Workspace Business Standard o superior. Business Standard cuesta unos 14 dollars por usuario al mes, facturado anualmente. Para un freelancer o un equipo pequeño donde solo unas pocas llamadas al mes necesitan realmente una transcripción, es un gasto considerable. Muchos equipos mantienen el nivel gratuito o un plan Workspace más económico y terminan tomando notas escritas a mano o pagando por un servicio externo como Otter o Fireflies además de Workspace.

Los servicios externos más baratos tienen sus propios inconvenientes. Se unen a la reunión como un bot, lo que anuncia su presencia en la lista de participantes y desestabiliza a la gente en llamadas confidenciales. Suben el audio de la reunión a sus servidores, lo cual es un problema para discusiones legales, médicas, de RR. HH. o de fusiones y adquisiciones. Y añaden otra suscripción mensual además de Workspace, que es lo que la gente intentaba evitar al no actualizar a Business Standard en primer lugar.

Esta guía describe el flujo de trabajo que la mayoría de los transcribidores independientes y los equipos preocupados por la privacidad eligen. Captura la llamada de Meet (ya sea con grabación de Workspace, con un grabador de pantalla gratuito o con uno compartido por un colega), y luego transcribe el MP4 resultante con StarWhisper en tu PC con Windows. Gratis, local, sin bot en la reunión, sin tarifa por minuto.

Grabar una llamada de Google Meet sin Workspace

El truco de todo este flujo de trabajo es tener una grabación en primer lugar. Tres formas comunes de conseguirla:

Opción A: Grabación de Workspace Business Standard (si tu cuenta la tiene)

Dentro de la reunión, haz clic en el menú de tres puntos, elige Grabar reunión, confirma el mensaje que te pide notificar a los participantes. Cuando finaliza la llamada, la grabación se procesa y llega a Mi Unidad, Grabaciones de Meet, generalmente en pocos minutos. Obtienes un MP4 con audio mezclado de todos más video del orador activo y cualquier contenido compartido en pantalla.

Opción B: Grabador de pantalla local (gratuito y agnóstico de plataforma)

Antes de unirte a la llamada, inicia OBS Studio, la Xbox Game Bar integrada (Win+G en Windows 10/11), ShareX o cualquier otro grabador de pantalla. La configuración crítica es "Capturar audio del escritorio" o "Grabar sonido del sistema", que graba lo que tu computadora reproduce por sus altavoces. Sin esto, solo obtienes video. Elige MP4 como formato de salida si tu grabador ofrece una opción. Comienza a grabar justo antes de unirte a la llamada y deténlo después de que todos se hayan ido.

Opción C: Grabación de alguien más que te compartió

Si el anfitrión o algún otro participante grabó la llamada y te envió un enlace de Drive, haz clic en el enlace, descarga el MP4 y luego pasa al paso tres.

Siempre informa a los demás participantes que estás grabando. La mayoría de las jurisdicciones requieren al menos el consentimiento de una de las partes, pero la práctica profesional y ética es revelar la acción. Algunos lugares de trabajo y contratos prohíben explícitamente la captura local de reuniones internas, así que verifica antes de depender de esto para llamadas sensibles.

Qué contiene realmente la grabación

Una grabación de Google Meet (ya sea de Workspace o de grabación de pantalla) es un único MP4 con una pista de audio mezclada que contiene todas las voces, más una única pista de video de quien estuvo en pantalla en ese momento. Lo importante para la transcripción es el audio. No hay canales por orador, por lo que ni StarWhisper ni ningún otro transcriptor de pista única pueden etiquetar automáticamente quién dijo qué.

StarWhisper producirá una transcripción continua y limpia con pausas de oración y puntuación natural. Para reuniones típicas de puntos de acción y decisiones, esto es suficiente: revise la transcripción, asigne mentalmente las líneas a quien recuerda que habló, extraiga las cuatro o cinco decisiones y puntos de acción, y compártalos con el equipo. Si necesita transcripciones literales formales con etiquetas de orador (procedimientos judiciales, deposiciones, entrevistas de investigación académica), necesitará un servicio de diarización en la nube de pago o una configuración de múltiples micrófonos donde cada orador tenga su propia pista.

Expectativas de Velocidad y Hardware

Transcribir una reunión grabada es más rápido que en tiempo real, a veces mucho más rápido. Tiempos aproximados de ejecución para el modelo Whisper medio predeterminado en hardware común:

HardwareReunión de 30 minReunión de 60 minReunión de 2 horas
CPU de portátil moderno (i7 o Ryzen 7)3 a 6 min6 a 12 min12 a 25 min
NVIDIA RTX 3060 (CUDA)30 a 60 seg1 a 2 min2 a 5 min
NVIDIA RTX 4090 (CUDA)10 a 20 seg20 a 40 seg1 a 2 min
CPU antiguo (más de 5 años)10 a 20 min25 a 45 min50 a 90 min

Para la mayoría de los portátiles de oficina comprados en los últimos tres años, espere que una grabación de Meet de una hora termine de transcribir en 6 a 12 minutos. Si hace esto regularmente y tiene una GPU NVIDIA en la máquina, el paquete CUDA reduce el tiempo en aproximadamente un orden de magnitud.

Llamadas internacionales y reuniones multilingües

Los equipos distribuidos que realizan llamadas Meet en Berlín, Tokio y Sao Paulo son un caso de uso importante para este flujo de trabajo. Whisper admite 96 idiomas con alta precisión en inglés, alemán, español, francés, italiano, portugués, holandés, polaco, japonés, chino, coreano, hindi, ruso, árabe y turco, entre otros. El modelo detecta automáticamente el idioma hablado al comienzo del archivo.

Para reuniones en las que los oradores cambian de idioma a mitad de la llamada (un patrón europeo común), Whisper maneja los cambios de código cortos razonablemente bien, aunque se compromete con un idioma principal. Si tiene una reunión mitad español mitad inglés, puede obtener mejores resultados dividiendo la grabación en dos clips y transcribiendo cada uno en su idioma declarado. La página de función multilingüe detalla la precisión por idioma.

También es posible la traducción. StarWhisper puede tomar una grabación que no esté en inglés y transcribirla directamente a texto en inglés usando el modo de traducción de Whisper. Esto es útil para equipos internos en EE. UU. o Reino Unido que intentan seguir una reunión de socios en otro idioma sin pagar un traductor. La calidad es generalmente buena para los idiomas principales y disminuye para los menos comunes.

Privacidad: Lo que permanece local y lo que no

Este flujo de trabajo mantiene el audio de la reunión y la transcripción en su dispositivo. Las grabaciones de Workspace viven en su propio Google Drive; usted controla el uso compartido. Las grabaciones de grabadora de pantalla se guardan en su disco duro. StarWhisper Local Mode procesa el archivo localmente en la CPU o GPU. La salida de la transcripción es un archivo .txt simple en su PC. Nada de esto sale de su red a menos que elija compartirlo (pegarlo en un documento en la nube, enviarlo por correo electrónico, subirlo).

Comparación con servicios de transcripción en la nube. Otter, Fireflies, Notta y herramientas similares se unen a la llamada como bot y suben el audio a sus servidores. Incluso el propio proceso de transcripción de Google procesa el audio en la nube de Google. Para llamadas confidenciales (discusiones de fusiones y adquisiciones, revisiones de desempeño, entrevistas con clientes bajo NDA, estrategia legal, revisiones de casos médicos), el flujo de trabajo solo local es una mejora significativa en el control de datos.

Si opera en una industria regulada, la misma arquitectura respalda su postura de cumplimiento. La FAQ de cumplimiento HIPAA cubre lo que significa el procesamiento local para la información de salud protegida específicamente.

Específicamente para equipos de Ventas, RR. HH. y Éxito del Cliente

Los reclutadores que realizan entrevistas a candidatos, los representantes de ventas en llamadas de descubrimiento y los líderes de CS que realizan renovaciones, todos quieren transcripciones, pero rara vez justifican una línea de artículo de transcripción separada. El flujo de trabajo aquí es el mismo que cualquier otra reunión: grabar localmente, transcribir después. Para los equipos de ventas que realizan trabajo en volumen, la guía de voz a texto para representantes de ventas cubre la integración con los CRMs. Para los flujos de trabajo de RR. HH. y reclutamiento, la página de voz a texto para gerentes de RR. HH. cubre las transcripciones de selección de candidatos y los requisitos de confidencialidad que conllevan. Para una integración más profunda con Teams en lugar de Meet, la guía de voz a texto en Teams es el equivalente directo.

Preguntas frecuentes

¿Necesito Google Workspace para transcribir mis llamadas de Google Meet?
No. Las transcripciones oficiales de Google requieren Workspace Business Standard, que actualmente cuesta alrededor de $14 por usuario al mes. Con este flujo de trabajo, elimina ese artículo de gastos por completo. O utiliza una grabación existente (ya sea suya o una que un colega le haya compartido), o grabe la llamada con una grabadora de pantalla local gratuita como OBS Studio. StarWhisper luego transcribe el archivo resultante sin conexión en su PC con Windows. Costo total: cero, a menos que supere el nivel gratuito de StarWhisper de 500 palabras por día.
¿Qué pasa con las subtítulos en vivo gratuitos de Google Meet?
Meet sí ofrece subtítulos en vivo gratuitos durante una llamada. Son útiles mientras se lleva a cabo la reunión, pero no se pueden descargar como una transcripción. Tan pronto como finaliza la llamada, esos subtítulos desaparecen. No hay botón de Guardar, ni exportar, ni forma de extraerlos de Meet después. Si desea un registro permanente y consultable de lo que se dijo, necesita un nivel de Workspace con transcripción habilitada o una grabación más una herramienta de transcripción como la descrita aquí.
¿En qué formato de archivo guarda las grabaciones de Google Meet?
Las grabaciones de Google Meet se guardan como archivos de video MP4 en su Google Drive, en una carpeta llamada Grabaciones de Meet dentro de Mi Unidad. El MP4 contiene tanto la cuadrícula de video (y cualquier uso compartido de pantalla) como el audio mezclado de todos los participantes. Para la transcripción solo necesita el audio, pero no tiene que extraerlo manualmente. Simplemente arrastre el .mp4 a StarWhisper y la aplicación extrae automáticamente la pista de audio. El archivo original en Drive queda intacto.
¿Puedo obtener etiquetas de orador (quién dijo qué) en la transcripción?
No con este flujo de trabajo. Las grabaciones de Google Meet son una única pista de audio mezclada sin canales por orador. StarWhisper tampoco realiza actualmente diarización automática de oradores, por lo que la transcripción vuelve como texto continuo. Para la mayoría de los propósitos de puntos de acción y decisiones, esto está bien y es fácil de limpiar. Si las etiquetas de orador son esenciales, las alternativas son servicios en la nube de pago como Otter o Fireflies, que suben su audio a sus servidores a cambio de la diarización.
¿Qué pasa con las reuniones de las que no soy el anfitrión?
Si el anfitrión comparte una grabación con usted (a través de un enlace de Drive), descargue el MP4 y arrástrelo a StarWhisper. Mismo flujo de trabajo. Si el anfitrión no grabó, puede solicitar una grabación, o puede capturar la llamada localmente con una grabadora de pantalla por sí mismo. Siempre informe a los demás participantes que está grabando. La mayoría de las jurisdicciones requieren al menos el consentimiento de una parte, pero la práctica profesional y ética es divulgarlo. Algunos lugares de trabajo y contratos prohíben la captura local de reuniones, así que verifique antes de confiar en esto para llamadas con clientes o internas.
¿Funciona esto también para Zoom y Microsoft Teams?
Sí. El motor de transcripción no se preocupa por la plataforma en la que se realizó la reunión. Para Zoom, use Grabación Local (gratis para anfitriones) y arrastre el archivo audio_only.m4a a StarWhisper. Para Teams, use el botón incorporado de Grabar y tome el MP4 de OneDrive o SharePoint, o use el mismo enfoque de grabadora de pantalla. Hay guías dedicadas para cada plataforma que describen los pasos de grabación específicos de la plataforma.
¿El audio sale de mi dispositivo?
No. StarWhisper funciona en Local Mode por defecto. El MP4 (o el formato de grabación que introduzca) se procesa completamente en su CPU o GPU utilizando un modelo Whisper almacenado en su máquina. Nada se sube a OpenAI, Google o a ningún tercero durante la transcripción. Puede verificar esto desconectando su red y ejecutando una transcripción; la aplicación sigue funcionando. Esto es importante para llamadas confidenciales (entrevistas con clientes, entrevistas a candidatos, revisiones internas) donde subir el audio a un servicio de transcripción en la nube no es aceptable.
¿Es realmente gratis, o hay límites ocultos?
La aplicación de Windows es gratuita para descargar y usar. El nivel gratuito lo limita a 500 palabras por día de transcripción (o 3,500 por semana), lo que equivale a unos 5 minutos de conversación por día. Para la transcripción ocasional de reuniones, esto suele ser suficiente. Si transcribe reuniones largas de forma regular, el plan Pro cuesta 10 dollars al mes o 80 dollars al año y elimina el límite de palabras. No hay tarifa por minuto, ni tarifa de subida, ni contrato. Cero costes ocultos.

Deje de pagar Workspace Business solo por transcripciones

Descarga gratuita para Windows. Introduzca cualquier grabación de Meet y obtenga una transcripción completa en minutos. Sin bot en la reunión, sin subir archivos.

Descargar StarWhisper para Windows