Google Meet Transkriptions-Leitfaden

Wie man transkribiert
Ein Google Meet Gespräch kostenlos
Kein Workspace erforderlich

Google's offizielle Meet-Transkription ist hinter Workspace Business Standard gesperrt, was etwa 14 Dollar pro Benutzer und Monat kostet. Dieser Leitfaden zeigt die kostenlose Umgehungslösung: eine Meet-Aufnahme, eine kostenlose Windows-App und ein Transkript in Minuten.

Für Windows herunterladen
Microsoft Store
  • Vertraut von Windows
  • Schnelle 30-Sekunden-Einrichtung
"Meeting-Notizen in 3 Minuten fertig..."

Fünf Schritte von Google Meet zum Transkript

Funktioniert mit oder ohne Workspace-Abonnement.

1

Eine Meet-Aufnahme erhalten

Wenn Ihr Konto Workspace Business Standard oder höher ist, ist die Aufnahme integriert: Klicken Sie im Meet-Menü auf das Drei-Punkte-Menü und dann auf „Meeting aufzeichnen“. Wenn Sie ein persönliches Google-Konto oder ein Workspace-Tier ohne Aufnahme verwenden, starten Sie vor dem Beitritt zum Anruf einen kostenlosen lokalen Bildschirmrekorder. OBS Studio ist die gängigste Wahl. Auch die integrierte Xbox Game Bar (Win+G) und ShareX funktionieren. Egal, was Sie wählen, stellen Sie sicher, dass „Systemaudio erfassen“ aktiviert ist, sonst zeichnen Sie nur Video ohne Ton auf.

2

Die MP4 herunterladen

Wenn Google Meet den Anruf für Sie aufgezeichnet hat, wird er als MP4 unter „Meine Aufnahmen“ in „Meet Recordings“ gespeichert. Öffnen Sie Drive, finden Sie die Datei und laden Sie sie herunter. Wenn Sie einen Bildschirmrekorder verwendet haben, befindet sich die Datei bereits auf Ihrer Festplatte, wo Sie den Rekorder gespeichert haben. So oder so sollten Sie eine einzige .mp4-Datei erhalten. Die Dateigrößen liegen typischerweise bei 50 bis 300 MB pro Stunde, abhängig von der Auflösung und dem geteilten Bildschirminhalt.

3

StarWhisper installieren

Herunterladen StarWhisper von der Startseite. Der Installer ist beim ersten Start mit etwa 200 MB groß, da er das Whisper-Modell bündelt. Es ist kein Konto-Signup, keine Kreditkarte und kein Cloud-Komponente erforderlich. Starten Sie nach der Installation die App einmal und schließen Sie die 30-Sekunden-Einrichtung ab (wählen Sie Ihr Standardmikrofon, wählen Sie eine Tastenkombination, akzeptieren Sie die Standardeinstellungen für alles andere). Sie sind nun bereit zum Transkribieren.

4

Ziehen Sie die MP4 in StarWhisper

Öffnen Sie den Datei-Explorer und navigieren Sie zu dem Speicherort, an dem Sie die Aufnahme gespeichert haben. Lassen Sie die .mp4 in das StarWhisper-Fenster fallen. Die App extrahiert automatisch die Audiospur, erkennt die gesprochene Sprache und beginnt mit der Transkription. Ein 60-minütiges Gespräch dauert normalerweise 5 bis 15 Minuten auf einer modernen Laptop-CPU oder 1 bis 3 Minuten auf einer NVIDIA GPU mit dem CUDA-Beschleunigungspaket. Der Fortschritt wird in Echtzeit angezeigt. Sie können das Fenster minimieren und weiterarbeiten.

5

Transkription überprüfen und exportieren

Wenn der Vorgang abgeschlossen ist, erscheint das Transkript im StarWhisper-Fenster. Lesen Sie es auf dem Bildschirm, kopieren Sie den vollständigen Text in die Zwischenablage oder speichern Sie ihn als .txt-Datei. Fügen Sie ihn in Google Docs, Notion, Confluence, OneNote oder das Notizsystem Ihres Teams ein. Das Transkript ist reiner Text ohne Sprecherbezeichnungen, was die Datei portabel hält. Gesamtkosten: null. Kein Workspace-Upgrade, kein Otter-Abonnement, keine Transkriptionsgebühr pro Minute.

Warum dies besser ist als Workspace Business Standard für Transkripte

Ein kostenloser Workflow, der das leistet, was der Plan von 14 Dollar pro Benutzer leistet.

Keine laufenden Kosten

Workspace Business Standard kostet ungefähr 14 Dollar pro Benutzer und Monat, oder 168 Dollar pro Jahr pro Sitzplatz. Für ein fünfköpfiges Team sind das 840 Dollar pro Jahr, nur um die Transkription zu ermöglichen. Dieser Workflow bleibt für gelegentliche Transkriptionisten kostenlos, oder kostet 10 Dollar pro Monat pro Person auf Pro wenn Sie täglich lange Meetings transkribieren.

Audio bleibt auf Ihrem Gerät

Die MP4 befindet sich auf Ihrer Festplatte. StarWhisper führt die Transkription lokal auf Ihrer CPU oder GPU durch. Während der Transkription selbst wird nichts an Google, OpenAI oder einen Drittanbieter hochgeladen. Datenschutz und Architekturdetails.

Funktioniert für jede Meeting-Plattform

Der gleiche Workflow funktioniert für Zoom, Microsoft Teams, Webex, Slack Huddles und alles andere, was Sie aufzeichnen können. Die Transkriptions-Engine behandelt jede Aufnahme lediglich als Audiodatei. Sehen Sie sich die zugehörigen Leitfäden zu der Transkription von Zoom-Anrufen für die plattformspezifischen Aufzeichnungsschritte.

96 Sprachen für internationale Anrufe

Dezentrale Teams, die Meet-Anrufe in Englisch, Spanisch, Deutsch, Französisch, Japanisch und Mandarin durchführen, profitieren alle davon. Whisper erkennt die gesprochene Sprache automatisch. Mehrsprachige Unterstützung Seite.

Diktat in Echtzeit in jedes Textfeld

Die gleiche Installation ermöglicht es Ihnen auch, per Tastenkombination in Google Docs, Chat oder jedes Windows-Textfeld zu diktieren. Sehen Sie sich den Leitfaden für Spracheingabe in Google Docs für den Tastendruck-Workflow an.

GPU-Beschleunigung verfügbar

NVIDIA GPU-Besitzer verarbeiten einen einstündigen Anruf in 1 bis 3 Minuten über CUDA 11 oder 12. Ohne GPU bewältigen moderne CPUs dieselbe Arbeitslast in 5 bis 15 Minuten. Beide Wege sind schneller, als das Meeting erneut anzuhören.

Warum Google Meet Transkription so eingeschränkt ist

Google Meet bietet Live-Untertitel kostenlos, aber der offizielle Transkript-Export ist hinter Workspace Business Standard oder höher gesperrt. Business Standard kostet etwa 14 Dollar pro Benutzer und Monat, jährlich abgerechnet. Für einen Solo-Freelancer oder ein kleines Team, bei dem nur wenige Anrufe im Monat tatsächlich ein Transkript benötigen, ist dies ein hoher Kostenpunkt. Viele Teams bleiben beim kostenlosen Plan oder einem günstigeren Workspace-Plan und müssen entweder handschriftliche Notizen machen oder für einen externen Dienst wie Otter oder Fireflies zusätzlich zu Workspace bezahlen.

Die günstigeren externen Dienste haben ihre eigenen Nachteile. Sie treten als Bot in das Meeting ein, der sich in der Teilnehmerliste ankündigt und bei vertraulichen Anrufen Verunsicherung auslöst. Sie laden Meeting-Audio auf ihre Server hoch, was ein Problem bei rechtlichen, medizinischen, HR- oder M&A-Diskussionen ist. Und sie fügen ein weiteres monatliches Abonnement zu Workspace hinzu, was genau das ist, was die Leute zu vermeiden versuchten, indem sie nicht auf Business Standard aufgerüstet haben.

Dieser Leitfaden beschreibt den Workflow, den die meisten unabhängigen Transkriptionisten und datenschutzbewussten Teams wählen. Erfassen Sie den Meet-Anruf (entweder mit Workspace-Aufzeichnung, mit einem kostenlosen Bildschirmrekorder oder mit einem, das ein Kollege geteilt hat) und transkribieren Sie die resultierende MP4 mit StarWhisper auf Ihrem Windows-PC. Kostenlos, lokal, kein Bot im Meeting, keine Gebühr pro Minute.

Ein Google Meet Gespräch ohne Workspace aufzeichnen

Der Trick bei diesem gesamten Workflow ist, überhaupt eine Aufnahme zu haben. Drei gängige Möglichkeiten, wie Sie eine erhalten:

Option A: Workspace Business Standard Aufnahme (falls Ihr Konto dies hat)

Klicken Sie im Meeting auf das Drei-Punkte-Menü, wählen Sie „Meeting aufzeichnen“ und bestätigen Sie die Aufforderung, die Teilnehmer zu benachrichtigen. Wenn der Anruf endet, wird die Aufnahme verarbeitet und landet normalerweise innerhalb weniger Minuten in „Meine Aufnahmen“ unter „Meet Recordings“. Sie erhalten eine MP4 mit gemischtem Audio aller Teilnehmer plus Video des aktiven Sprechers und eines beliebigen geteilten Bildschirms.

Option B: Lokaler Bildschirmrekorder (kostenlos und plattformunabhängig)

Starten Sie vor dem Beitritt zum Anruf OBS Studio, die integrierte Xbox Game Bar (Win+G in Windows 10/11), ShareX oder einen anderen Bildschirmrekorder. Die entscheidende Einstellung ist „Desktop-Audio erfassen“ oder „Systemsound aufzeichnen“, was aufzeichnet, was Ihr Computer über die Lautsprecher abspielt. Ohne dies erhalten Sie nur Video. Wählen Sie MP4 als Ausgabeformat, falls Ihr Rekorder eine Wahl bietet. Starten Sie die Aufnahme kurz bevor Sie dem Anruf beitreten und stoppen Sie sie, nachdem alle gegangen sind.

Option C: Eine Aufnahme, die Ihnen von jemand anderem geteilt wird

Wenn der Gastgeber oder ein anderer Teilnehmer den Anruf aufgezeichnet und Ihnen einen Drive-Link gesendet hat, klicken Sie auf den Link, laden Sie die MP4 herunter und gehen Sie dann zu Schritt drei.

Sagen Sie immer den anderen Teilnehmern, dass Sie aufzeichnen. Die meisten Gerichtsbarkeiten verlangen zumindest die Zustimmung einer Partei, aber professionelle und ethische Praxis ist es, dies offenzulegen. Einige Arbeitsplätze und Verträge verbieten ausdrücklich die lokale Erfassung interner Meetings, überprüfen Sie daher, bevor Sie sich bei sensiblen Anrufen darauf verlassen.

Was die Aufnahme tatsächlich enthält

Eine Google Meet Aufnahme (entweder Workspace oder Bildschirmaufnahme) ist eine einzige MP4 mit einem gemischten Audiotrack, der jede Stimme enthält, plus einem einzigen Video-Track von der Person, die zu diesem Zeitpunkt vor dem Bildschirm war. Das Audio ist entscheidend für die Transkription. Es gibt keine Kanäle pro Sprecher, daher können weder StarWhisper noch ein anderer Single-Track-Transkriptor automatisch kennzeichnen, wer was gesagt hat.

StarWhisper erstellt ein sauberes, durchgehendes Transkript mit Satzzeichen und natürlicher Interpunktion. Für typische Meetings mit Aktionspunkten und Entscheidungen ist dies ausreichend: Überfliegen Sie das Transkript, ordnen Sie die Zeilen mental der Person zu, die Sie sich erinnern, gesprochen zu haben, und extrahieren Sie die vier oder fünf Entscheidungen und Aktionspunkte, um sie dann mit dem Team zu teilen. Wenn Sie formelle Verbatim-Transkripte mit Sprecherbezeichnungen benötigen (Gerichtsverhandlungen, Depositions, akademische Forschungsinterviews), benötigen Sie entweder einen kostenpflichtigen Cloud-Diarisierungsservice oder eine Multi-Mikrofon-Einrichtung, bei der jeder Sprecher seinen eigenen Track hat.

Geschwindigkeit und Hardware-Anforderungen

Die Transkription eines aufgezeichneten Meetings ist schneller als in Echtzeit, manchmal sogar viel schneller. Ungefähre Laufzeiten für das Standard-Medium-Whisper-Modell auf gängiger Hardware:

Hardware30-Minuten-Meeting60-Minuten-Meeting2-Stunden-Meeting
Moderner Laptop-CPU (i7 oder Ryzen 7)3 bis 6 Min6 bis 12 Min12 bis 25 Min
NVIDIA RTX 3060 (CUDA)30 bis 60 Sek1 bis 2 Min2 bis 5 Min
NVIDIA RTX 4090 (CUDA)10 bis 20 Sek20 bis 40 Sek1 bis 2 Min
Ältere CPU (5+ Jahre)10 bis 20 Min25 bis 45 Min50 bis 90 Min

Für die meisten Büro-Laptops, die in den letzten drei Jahren gekauft wurden, rechnen Sie damit, dass eine einstündige Meet-Aufzeichnung in 6 bis 12 Minuten transkribiert ist. Wenn Sie dies regelmäßig tun und eine NVIDIA GPU im Gerät haben, reduziert das CUDA-Paket die Zeit um etwa eine Größenordnung.

Internationale Anrufe und mehrsprachige Meetings

Verteilte Teams, die Meet-Anrufe zwischen Berlin, Tokio und Sao Paulo durchführen, sind ein Hauptanwendungsfall für diesen Workflow. Whisper unterstützt 96 Sprachen mit hoher Genauigkeit in Englisch, Deutsch, Spanisch, Französisch, Italienisch, Portugiesisch, Niederländisch, Polnisch, Japanisch, Chinesisch, Koreanisch, Hindi, Russisch, Arabisch und Türkisch unter anderem. Das Modell erkennt die gesprochene Sprache automatisch zu Beginn der Datei.

Bei Meetings, bei denen die Sprecher während des Anrufs die Sprache wechseln (ein häufiges europäisches Muster), bewältigt Whisper kurze Sprachwechsel relativ gut, obwohl es sich auf eine Hauptsprache festlegt. Wenn Sie ein halb-Spanisch-halb-Englisch-Meeting haben, erhalten Sie möglicherweise bessere Ergebnisse, indem Sie die Aufnahme in zwei Clips aufteilen und jeden in seiner deklarierten Sprache transkribieren. Die Seite zu mehrsprachigen Funktionen beschreibt die Genauigkeit pro Sprache detaillierter.

Auch die Übersetzung ist möglich. StarWhisper kann eine Aufnahme, die nicht auf Englisch ist, nehmen und sie direkt in englischen Text transkribieren, indem es Whispers Übersetzungsmodus verwendet. Dies ist nützlich für interne Teams in den USA oder im Vereinigten Königreich, die an einem Partner-Meeting in einer anderen Sprache teilnehmen möchten, ohne einen Übersetzer bezahlen zu müssen. Die Qualität ist im Allgemeinen gut für große Sprachen und nimmt bei weniger gebräuchlichen Sprachen ab.

Datenschutz: Was lokal bleibt und was nicht

Dieser Workflow hält das Meeting-Audio und das Transkript auf Ihrem Gerät. Workspace-Aufnahmen befinden sich in Ihrem eigenen Google Drive; Sie kontrollieren die Freigabe. Bildschirmaufnahme-Aufnahmen werden auf Ihrer Festplatte gespeichert. StarWhisper Local Mode verarbeitet die Datei lokal auf CPU oder GPU. Die Transkriptionsausgabe ist eine einfache .txt-Datei auf Ihrem PC. Keines davon verlässt Ihr Netzwerk, es sei denn, Sie entscheiden, es zu teilen (in ein Cloud-Dokument einzufügen, per E-Mail zu versenden, hochzuladen).

Vergleich mit Cloud-Transkriptionsdiensten. Otter, Fireflies, Notta und ähnliche Tools treten als Bot in den Anruf ein und laden das Audio auf ihre Server hoch. Sogar Googles eigene Transkription verarbeitet Audio in Googles Cloud. Für vertrauliche Anrufe (M&A-Diskussionen, Leistungsbeurteilungen, Kundeninterviews unter NDA, rechtliche Strategien, medizinische Fallbesprechungen) ist der rein lokale Workflow eine sinnvolle Verbesserung der Datenkontrolle.

Wenn Sie in einer regulierten Branche tätig sind, unterstützt dieselbe Architektur Ihre Compliance-Voraussetzungen. Die HIPAA Compliance FAQ erklären, was die lokale Verarbeitung speziell für geschützte Gesundheitsinformationen bedeutet.

Speziell für Vertrieb, HR und Customer-Success-Teams

Recruiter, die Kandidaten-Screenings durchführen, Vertriebsmitarbeiter bei Discovery Calls und CS-Leiter, die Verlängerungen durchführen, wünschen sich alle Transkripte, rechtfertigen aber selten einen separaten Transkriptionsposten. Der Workflow ist hier derselbe wie bei jedem anderen Meeting: lokal aufzeichnen, danach transkribieren. Für Vertriebsteams, die Großvolumen-Arbeit leisten, voice-to-text für Vertriebsmitarbeiter behandelt die Integration mit CRMs. Für HR- und Recruiting-Workflows voice-to-text für HR-Manager behandelt Transkripte von Kandidaten-Screenings und die damit verbundenen Vertraulichkeitsanforderungen. Für eine tiefere Integration mit Teams anstelle von Meet ist der voice-to-text in Teams Leitfaden das direkte Äquivalent.

Häufig gestellte Fragen

Benötige ich Google Workspace, um meine Google Meet Anrufe zu transkribieren?
Nein. Die offiziellen Meeting-Transkripte von Google erfordern Workspace Business Standard, was derzeit bei etwa 14 Dollar pro Benutzer und Monat liegt. Mit diesem Workflow sparen Sie diesen Posten komplett ein. Sie verwenden entweder eine bestehende Aufnahme (egal ob Ihre oder eine, die Ihnen ein Kollege geteilt hat) oder Sie erfassen den Anruf mit einem kostenlosen lokalen Screen-Recorder wie OBS Studio. StarWhisper transkribiert dann die resultierende Datei offline auf Ihrem Windows PC. Gesamtkosten: null, es sei denn, Sie überschreiten das kostenlose StarWhisper-Kontingent von 500 Wörtern pro Tag.
Was ist mit den kostenlosen Live-Untertitel von Google Meet?
Meet bietet zwar während eines Anrufs kostenlose Live-Untertitel. Diese sind nützlich, während das Meeting stattfindet, aber sie können nicht als Transkript heruntergeladen werden. Sobald der Anruf beendet ist, sind diese Untertitel weg. Es gibt keinen Speichern-Button, kein Exportieren und keine Möglichkeit, sie nachträglich aus Meet zu ziehen. Wenn Sie ein permanentes, durchsuchbares Protokoll dessen wünschen, was gesagt wurde, benötigen Sie entweder ein Workspace-Abonnement mit aktivierter Transkription oder eine Aufnahme plus ein Transkriptionswerkzeug wie das beschriebene hier.
In welchem Dateiformat speichert Google Meet Aufnahmen?
Google Meet Aufnahmen werden als MP4-Videodateien in Ihr Google Drive in einem Ordner namens Meet Recordings in My Drive gespeichert. Das MP4 enthält sowohl das Video-Raster (und jeden Bildschirmfreigabe) als auch das gemischte Audio aller Teilnehmer. Für die Transkription benötigen Sie nur das Audio, aber Sie müssen es nicht manuell extrahieren. Laden Sie die .mp4 direkt in StarWhisper und die App zieht den Audiotrack automatisch. Die Originaldatei in Drive bleibt unberührt.
Kann ich Sprecherbezeichnungen (wer was gesagt hat) im Transkript erhalten?
Nicht mit diesem Workflow. Google Meet Aufnahmen sind ein einziger gemischter Audiotrack ohne Kanäle pro Sprecher. StarWhisper führt derzeit auch keine automatische Sprecher-Diarisierung durch, daher kommt das Transkript als kontinuierlicher Text zurück. Für die meisten Zwecke mit Aktionspunkten und Entscheidungen ist dies ausreichend und schnell zu bereinigen. Wenn Sprecherbezeichnungen jedoch unerlässlich sind, sind die Alternativen kostenpflichtige Cloud-Dienste wie Otter oder Fireflies, die Ihr Audio gegen Diarisierung auf ihre Server hochladen.
Was ist mit Meetings, bei denen ich nicht der Gastgeber bin?
Wenn der Gastgeber eine Aufnahme mit Ihnen teilt (über einen Drive-Link), laden Sie das MP4 herunter und fügen Sie es in StarWhisper ein. Gleicher Workflow. Wenn der Gastgeber nicht aufgenommen hat, können Sie eine Aufnahme anfordern oder Sie können den Anruf selbst lokal mit einem Screen-Recorder erfassen. Teilen Sie immer den anderen Teilnehmern mit, dass Sie aufzeichnen. Die meisten Gerichtsbarkeiten verlangen mindestens die Zustimmung einer Partei, aber die professionelle und ethische Praxis ist es, dies offenzulegen. Einige Arbeitsplätze und Verträge verbieten die lokale Aufnahme von Meetings, prüfen Sie daher, bevor Sie sich darauf verlassen, dies für Kunden- oder interne Anrufe zu nutzen.
Funktioniert das auch für Zoom und Microsoft Teams?
Ja. Die Transkriptions-Engine kümmert sich nicht darum, auf welcher Plattform das Meeting stattfand. Für Zoom verwenden Sie die lokale Aufnahme (kostenlos für Gastgeber) und ziehen Sie die Datei audio_only.m4a in StarWhisper. Für Teams verwenden Sie die integrierte Aufnahmetaste und holen Sie sich das MP4 von OneDrive oder SharePoint, oder verwenden Sie den gleichen Screen-Recorder-Ansatz. Es gibt dedizierte Leitfäden für jede Plattform, die die plattformspezifischen Aufnahmenschritte durchgehen.
Verlässt das Audio mein Gerät?
Nein. StarWhisper läuft standardmäßig im Local Mode. Die MP4 (oder welches Aufnahmedatformat Sie hochladen) wird vollständig auf Ihrer CPU oder GPU mithilfe eines auf Ihrem Gerät gespeicherten Whisper-Modells verarbeitet. Während der Transkription wird nichts an OpenAI, Google oder Dritte hochgeladen. Sie können dies überprüfen, indem Sie Ihre Netzwerkverbindung trennen und eine Transkription durchführen; die App funktioniert weiter. Dies ist wichtig für vertrauliche Anrufe (Kundeninterviews, Kandidaten-Screenings, interne Überprüfungen), bei denen das Hochladen des Audios an einen Cloud-Transkriptionsdienst nicht akzeptabel ist.
Ist es wirklich kostenlos, oder gibt es versteckte Limits?
Die Windows-App ist kostenlos zum Download und zur Nutzung. Die kostenlose Stufe begrenzt Sie auf 500 Wörter pro Tag Transkriptionsausgabe (oder 3.500 pro Woche), was etwa 5 Minuten Gespräch pro Tag entspricht. Für gelegentliche Meeting-Transkriptionen ist dies oft ausreichend. Wenn Sie regelmäßig lange Meetings transkribieren, entfernt der Pro-Plan die Wortbegrenzung und kostet 10 dollars pro Monat oder 80 dollars pro Jahr. Es fallen keine Kosten pro Minute, keine Upload-Gebühren und kein Vertrag an. Null versteckte Kosten.

Hören Sie auf, für Transkripte nur Workspace Business zu bezahlen

Kostenloser Windows-Download. Laden Sie einfach eine Meet-Aufzeichnung hoch und erhalten Sie innerhalb von Minuten ein vollständiges Transkript. Kein Bot im Meeting, kein Upload.

StarWhisper für Windows herunterladen