Google's offizielle Meet-Transkription ist hinter Workspace Business Standard gesperrt, was etwa 14 Dollar pro Benutzer und Monat kostet. Dieser Leitfaden zeigt die kostenlose Umgehungslösung: eine Meet-Aufnahme, eine kostenlose Windows-App und ein Transkript in Minuten.
Funktioniert mit oder ohne Workspace-Abonnement.
Wenn Ihr Konto Workspace Business Standard oder höher ist, ist die Aufnahme integriert: Klicken Sie im Meet-Menü auf das Drei-Punkte-Menü und dann auf „Meeting aufzeichnen“. Wenn Sie ein persönliches Google-Konto oder ein Workspace-Tier ohne Aufnahme verwenden, starten Sie vor dem Beitritt zum Anruf einen kostenlosen lokalen Bildschirmrekorder. OBS Studio ist die gängigste Wahl. Auch die integrierte Xbox Game Bar (Win+G) und ShareX funktionieren. Egal, was Sie wählen, stellen Sie sicher, dass „Systemaudio erfassen“ aktiviert ist, sonst zeichnen Sie nur Video ohne Ton auf.
Wenn Google Meet den Anruf für Sie aufgezeichnet hat, wird er als MP4 unter „Meine Aufnahmen“ in „Meet Recordings“ gespeichert. Öffnen Sie Drive, finden Sie die Datei und laden Sie sie herunter. Wenn Sie einen Bildschirmrekorder verwendet haben, befindet sich die Datei bereits auf Ihrer Festplatte, wo Sie den Rekorder gespeichert haben. So oder so sollten Sie eine einzige .mp4-Datei erhalten. Die Dateigrößen liegen typischerweise bei 50 bis 300 MB pro Stunde, abhängig von der Auflösung und dem geteilten Bildschirminhalt.
Herunterladen StarWhisper von der Startseite. Der Installer ist beim ersten Start mit etwa 200 MB groß, da er das Whisper-Modell bündelt. Es ist kein Konto-Signup, keine Kreditkarte und kein Cloud-Komponente erforderlich. Starten Sie nach der Installation die App einmal und schließen Sie die 30-Sekunden-Einrichtung ab (wählen Sie Ihr Standardmikrofon, wählen Sie eine Tastenkombination, akzeptieren Sie die Standardeinstellungen für alles andere). Sie sind nun bereit zum Transkribieren.
Öffnen Sie den Datei-Explorer und navigieren Sie zu dem Speicherort, an dem Sie die Aufnahme gespeichert haben. Lassen Sie die .mp4 in das StarWhisper-Fenster fallen. Die App extrahiert automatisch die Audiospur, erkennt die gesprochene Sprache und beginnt mit der Transkription. Ein 60-minütiges Gespräch dauert normalerweise 5 bis 15 Minuten auf einer modernen Laptop-CPU oder 1 bis 3 Minuten auf einer NVIDIA GPU mit dem CUDA-Beschleunigungspaket. Der Fortschritt wird in Echtzeit angezeigt. Sie können das Fenster minimieren und weiterarbeiten.
Wenn der Vorgang abgeschlossen ist, erscheint das Transkript im StarWhisper-Fenster. Lesen Sie es auf dem Bildschirm, kopieren Sie den vollständigen Text in die Zwischenablage oder speichern Sie ihn als .txt-Datei. Fügen Sie ihn in Google Docs, Notion, Confluence, OneNote oder das Notizsystem Ihres Teams ein. Das Transkript ist reiner Text ohne Sprecherbezeichnungen, was die Datei portabel hält. Gesamtkosten: null. Kein Workspace-Upgrade, kein Otter-Abonnement, keine Transkriptionsgebühr pro Minute.
Ein kostenloser Workflow, der das leistet, was der Plan von 14 Dollar pro Benutzer leistet.
Workspace Business Standard kostet ungefähr 14 Dollar pro Benutzer und Monat, oder 168 Dollar pro Jahr pro Sitzplatz. Für ein fünfköpfiges Team sind das 840 Dollar pro Jahr, nur um die Transkription zu ermöglichen. Dieser Workflow bleibt für gelegentliche Transkriptionisten kostenlos, oder kostet 10 Dollar pro Monat pro Person auf Pro wenn Sie täglich lange Meetings transkribieren.
Die MP4 befindet sich auf Ihrer Festplatte. StarWhisper führt die Transkription lokal auf Ihrer CPU oder GPU durch. Während der Transkription selbst wird nichts an Google, OpenAI oder einen Drittanbieter hochgeladen. Datenschutz und Architekturdetails.
Der gleiche Workflow funktioniert für Zoom, Microsoft Teams, Webex, Slack Huddles und alles andere, was Sie aufzeichnen können. Die Transkriptions-Engine behandelt jede Aufnahme lediglich als Audiodatei. Sehen Sie sich die zugehörigen Leitfäden zu der Transkription von Zoom-Anrufen für die plattformspezifischen Aufzeichnungsschritte.
Dezentrale Teams, die Meet-Anrufe in Englisch, Spanisch, Deutsch, Französisch, Japanisch und Mandarin durchführen, profitieren alle davon. Whisper erkennt die gesprochene Sprache automatisch. Mehrsprachige Unterstützung Seite.
Die gleiche Installation ermöglicht es Ihnen auch, per Tastenkombination in Google Docs, Chat oder jedes Windows-Textfeld zu diktieren. Sehen Sie sich den Leitfaden für Spracheingabe in Google Docs für den Tastendruck-Workflow an.
NVIDIA GPU-Besitzer verarbeiten einen einstündigen Anruf in 1 bis 3 Minuten über CUDA 11 oder 12. Ohne GPU bewältigen moderne CPUs dieselbe Arbeitslast in 5 bis 15 Minuten. Beide Wege sind schneller, als das Meeting erneut anzuhören.
Google Meet bietet Live-Untertitel kostenlos, aber der offizielle Transkript-Export ist hinter Workspace Business Standard oder höher gesperrt. Business Standard kostet etwa 14 Dollar pro Benutzer und Monat, jährlich abgerechnet. Für einen Solo-Freelancer oder ein kleines Team, bei dem nur wenige Anrufe im Monat tatsächlich ein Transkript benötigen, ist dies ein hoher Kostenpunkt. Viele Teams bleiben beim kostenlosen Plan oder einem günstigeren Workspace-Plan und müssen entweder handschriftliche Notizen machen oder für einen externen Dienst wie Otter oder Fireflies zusätzlich zu Workspace bezahlen.
Die günstigeren externen Dienste haben ihre eigenen Nachteile. Sie treten als Bot in das Meeting ein, der sich in der Teilnehmerliste ankündigt und bei vertraulichen Anrufen Verunsicherung auslöst. Sie laden Meeting-Audio auf ihre Server hoch, was ein Problem bei rechtlichen, medizinischen, HR- oder M&A-Diskussionen ist. Und sie fügen ein weiteres monatliches Abonnement zu Workspace hinzu, was genau das ist, was die Leute zu vermeiden versuchten, indem sie nicht auf Business Standard aufgerüstet haben.
Dieser Leitfaden beschreibt den Workflow, den die meisten unabhängigen Transkriptionisten und datenschutzbewussten Teams wählen. Erfassen Sie den Meet-Anruf (entweder mit Workspace-Aufzeichnung, mit einem kostenlosen Bildschirmrekorder oder mit einem, das ein Kollege geteilt hat) und transkribieren Sie die resultierende MP4 mit StarWhisper auf Ihrem Windows-PC. Kostenlos, lokal, kein Bot im Meeting, keine Gebühr pro Minute.
Der Trick bei diesem gesamten Workflow ist, überhaupt eine Aufnahme zu haben. Drei gängige Möglichkeiten, wie Sie eine erhalten:
Klicken Sie im Meeting auf das Drei-Punkte-Menü, wählen Sie „Meeting aufzeichnen“ und bestätigen Sie die Aufforderung, die Teilnehmer zu benachrichtigen. Wenn der Anruf endet, wird die Aufnahme verarbeitet und landet normalerweise innerhalb weniger Minuten in „Meine Aufnahmen“ unter „Meet Recordings“. Sie erhalten eine MP4 mit gemischtem Audio aller Teilnehmer plus Video des aktiven Sprechers und eines beliebigen geteilten Bildschirms.
Starten Sie vor dem Beitritt zum Anruf OBS Studio, die integrierte Xbox Game Bar (Win+G in Windows 10/11), ShareX oder einen anderen Bildschirmrekorder. Die entscheidende Einstellung ist „Desktop-Audio erfassen“ oder „Systemsound aufzeichnen“, was aufzeichnet, was Ihr Computer über die Lautsprecher abspielt. Ohne dies erhalten Sie nur Video. Wählen Sie MP4 als Ausgabeformat, falls Ihr Rekorder eine Wahl bietet. Starten Sie die Aufnahme kurz bevor Sie dem Anruf beitreten und stoppen Sie sie, nachdem alle gegangen sind.
Wenn der Gastgeber oder ein anderer Teilnehmer den Anruf aufgezeichnet und Ihnen einen Drive-Link gesendet hat, klicken Sie auf den Link, laden Sie die MP4 herunter und gehen Sie dann zu Schritt drei.
Sagen Sie immer den anderen Teilnehmern, dass Sie aufzeichnen. Die meisten Gerichtsbarkeiten verlangen zumindest die Zustimmung einer Partei, aber professionelle und ethische Praxis ist es, dies offenzulegen. Einige Arbeitsplätze und Verträge verbieten ausdrücklich die lokale Erfassung interner Meetings, überprüfen Sie daher, bevor Sie sich bei sensiblen Anrufen darauf verlassen.
Eine Google Meet Aufnahme (entweder Workspace oder Bildschirmaufnahme) ist eine einzige MP4 mit einem gemischten Audiotrack, der jede Stimme enthält, plus einem einzigen Video-Track von der Person, die zu diesem Zeitpunkt vor dem Bildschirm war. Das Audio ist entscheidend für die Transkription. Es gibt keine Kanäle pro Sprecher, daher können weder StarWhisper noch ein anderer Single-Track-Transkriptor automatisch kennzeichnen, wer was gesagt hat.
StarWhisper erstellt ein sauberes, durchgehendes Transkript mit Satzzeichen und natürlicher Interpunktion. Für typische Meetings mit Aktionspunkten und Entscheidungen ist dies ausreichend: Überfliegen Sie das Transkript, ordnen Sie die Zeilen mental der Person zu, die Sie sich erinnern, gesprochen zu haben, und extrahieren Sie die vier oder fünf Entscheidungen und Aktionspunkte, um sie dann mit dem Team zu teilen. Wenn Sie formelle Verbatim-Transkripte mit Sprecherbezeichnungen benötigen (Gerichtsverhandlungen, Depositions, akademische Forschungsinterviews), benötigen Sie entweder einen kostenpflichtigen Cloud-Diarisierungsservice oder eine Multi-Mikrofon-Einrichtung, bei der jeder Sprecher seinen eigenen Track hat.
Die Transkription eines aufgezeichneten Meetings ist schneller als in Echtzeit, manchmal sogar viel schneller. Ungefähre Laufzeiten für das Standard-Medium-Whisper-Modell auf gängiger Hardware:
| Hardware | 30-Minuten-Meeting | 60-Minuten-Meeting | 2-Stunden-Meeting |
|---|---|---|---|
| Moderner Laptop-CPU (i7 oder Ryzen 7) | 3 bis 6 Min | 6 bis 12 Min | 12 bis 25 Min |
| NVIDIA RTX 3060 (CUDA) | 30 bis 60 Sek | 1 bis 2 Min | 2 bis 5 Min |
| NVIDIA RTX 4090 (CUDA) | 10 bis 20 Sek | 20 bis 40 Sek | 1 bis 2 Min |
| Ältere CPU (5+ Jahre) | 10 bis 20 Min | 25 bis 45 Min | 50 bis 90 Min |
Für die meisten Büro-Laptops, die in den letzten drei Jahren gekauft wurden, rechnen Sie damit, dass eine einstündige Meet-Aufzeichnung in 6 bis 12 Minuten transkribiert ist. Wenn Sie dies regelmäßig tun und eine NVIDIA GPU im Gerät haben, reduziert das CUDA-Paket die Zeit um etwa eine Größenordnung.
Verteilte Teams, die Meet-Anrufe zwischen Berlin, Tokio und Sao Paulo durchführen, sind ein Hauptanwendungsfall für diesen Workflow. Whisper unterstützt 96 Sprachen mit hoher Genauigkeit in Englisch, Deutsch, Spanisch, Französisch, Italienisch, Portugiesisch, Niederländisch, Polnisch, Japanisch, Chinesisch, Koreanisch, Hindi, Russisch, Arabisch und Türkisch unter anderem. Das Modell erkennt die gesprochene Sprache automatisch zu Beginn der Datei.
Bei Meetings, bei denen die Sprecher während des Anrufs die Sprache wechseln (ein häufiges europäisches Muster), bewältigt Whisper kurze Sprachwechsel relativ gut, obwohl es sich auf eine Hauptsprache festlegt. Wenn Sie ein halb-Spanisch-halb-Englisch-Meeting haben, erhalten Sie möglicherweise bessere Ergebnisse, indem Sie die Aufnahme in zwei Clips aufteilen und jeden in seiner deklarierten Sprache transkribieren. Die Seite zu mehrsprachigen Funktionen beschreibt die Genauigkeit pro Sprache detaillierter.
Auch die Übersetzung ist möglich. StarWhisper kann eine Aufnahme, die nicht auf Englisch ist, nehmen und sie direkt in englischen Text transkribieren, indem es Whispers Übersetzungsmodus verwendet. Dies ist nützlich für interne Teams in den USA oder im Vereinigten Königreich, die an einem Partner-Meeting in einer anderen Sprache teilnehmen möchten, ohne einen Übersetzer bezahlen zu müssen. Die Qualität ist im Allgemeinen gut für große Sprachen und nimmt bei weniger gebräuchlichen Sprachen ab.
Dieser Workflow hält das Meeting-Audio und das Transkript auf Ihrem Gerät. Workspace-Aufnahmen befinden sich in Ihrem eigenen Google Drive; Sie kontrollieren die Freigabe. Bildschirmaufnahme-Aufnahmen werden auf Ihrer Festplatte gespeichert. StarWhisper Local Mode verarbeitet die Datei lokal auf CPU oder GPU. Die Transkriptionsausgabe ist eine einfache .txt-Datei auf Ihrem PC. Keines davon verlässt Ihr Netzwerk, es sei denn, Sie entscheiden, es zu teilen (in ein Cloud-Dokument einzufügen, per E-Mail zu versenden, hochzuladen).
Vergleich mit Cloud-Transkriptionsdiensten. Otter, Fireflies, Notta und ähnliche Tools treten als Bot in den Anruf ein und laden das Audio auf ihre Server hoch. Sogar Googles eigene Transkription verarbeitet Audio in Googles Cloud. Für vertrauliche Anrufe (M&A-Diskussionen, Leistungsbeurteilungen, Kundeninterviews unter NDA, rechtliche Strategien, medizinische Fallbesprechungen) ist der rein lokale Workflow eine sinnvolle Verbesserung der Datenkontrolle.
Wenn Sie in einer regulierten Branche tätig sind, unterstützt dieselbe Architektur Ihre Compliance-Voraussetzungen. Die HIPAA Compliance FAQ erklären, was die lokale Verarbeitung speziell für geschützte Gesundheitsinformationen bedeutet.
Recruiter, die Kandidaten-Screenings durchführen, Vertriebsmitarbeiter bei Discovery Calls und CS-Leiter, die Verlängerungen durchführen, wünschen sich alle Transkripte, rechtfertigen aber selten einen separaten Transkriptionsposten. Der Workflow ist hier derselbe wie bei jedem anderen Meeting: lokal aufzeichnen, danach transkribieren. Für Vertriebsteams, die Großvolumen-Arbeit leisten, voice-to-text für Vertriebsmitarbeiter behandelt die Integration mit CRMs. Für HR- und Recruiting-Workflows voice-to-text für HR-Manager behandelt Transkripte von Kandidaten-Screenings und die damit verbundenen Vertraulichkeitsanforderungen. Für eine tiefere Integration mit Teams anstelle von Meet ist der voice-to-text in Teams Leitfaden das direkte Äquivalent.
Derselbe lokale Aufzeichnungs-Workflow ohne den Zoom Business 199 dollar Plan.
Teams-Anrufe erfassen und die OneDrive-Aufzeichnung in durchsuchbaren Text umwandeln.
Mit der Stimme direkt in den Teams-Chat während eines Live-Meetings diktieren.
Transkripte von Kandidaten-Screenings und vertrauliche Interview-Notizen.