Zoom Transkriptions-Anleitung

Wie man transkribiert
Ein Zoom-Meeting kostenlos
Kein Business Plan erforderlich

Zoom's integrierte Transkription erfordert den Business Plan zu 199 dollars pro Benutzer und Jahr. Lassen Sie es aus. Nehmen Sie lokal auf, ziehen Sie die .m4a in eine kostenlose Windows-App und erhalten Sie das vollständige Transkript in Minuten.

Für Windows herunterladen
Microsoft Store
  • Vertraut von Windows
  • Schnelle 30-Sekunden-Einrichtung
"Aktionspunkte aus dem heutigen Standup..."

Fünf Schritte vom Zoom-Meeting zum Transkript

Funktioniert mit jedem Zoom-Tier, einschließlich des kostenlosen Plans.

1

Lokale Aufnahme in Zoom aktivieren

Öffnen Sie Zoom, gehen Sie zu Einstellungen, Aufnahme und aktivieren Sie die lokale Aufnahme. Wählen Sie einen Ordner, den Sie später wiederfinden können (Standard ist Dokumente, Zoom). Die lokale Aufnahme steht kostenlosen Zoom-Nutzern zur Verfügung, solange Sie der Gastgeber des Meetings sind. Wenn Sie nicht der Gastgeber sind, bitten Sie den Gastgeber, sich selbst aufzuzeichnen oder Ihnen die Aufnahmeprivilegien zu erteilen.

2

Während des Meetings auf Aufnahme drücken

Klicken Sie während des Anrufs in der Zoom-Symbolleiste auf Aufnahme (oder drücken Sie Alt+R) und wählen Sie Aufnahme auf diesem Computer, falls Sie sowohl lokale als auch Cloud-Optionen haben. Zoom zeigt eine kleine Aufnahmeanzeige in der Ecke an, damit alle Bescheid wissen. Wenn der Anruf endet, verlassen Sie das Meeting normal. Zoom benötigt ein bis zwei Minuten, um die Aufnahme in endgültige Dateien umzuwandeln.

3

Suchen Sie nach audio_only.m4a in Ihrem Zoom-Ordner

Öffnen Sie den Datei-Explorer und navigieren Sie zu Dokumente, Zoom. Im Inneren sehen Sie einen datierten Unterordner für jede Aufnahme. Öffnen Sie den neuesten. Sie finden audio_only.m4a (das Anruf-Audio, die kleinere Datei) und zoom_0.mp4 (das Bildschirm-Sharing-Video). Für die Transkription benötigen Sie nur die Audiodatei. Die Videodatei funktioniert auch, falls Sie es vorziehen; StarWhisper extrahiert das Audio automatisch aus .mp4.

4

Ziehen Sie die Datei in StarWhisper

Installieren StarWhisper falls Sie es noch nicht getan haben. Öffnen Sie die App und ziehen Sie audio_only.m4a aus dem Datei-Explorer auf das Fenster. Die App erkennt die Sprache und beginnt mit der Transkription. Ein einstündiges Gespräch wird typischerweise auf einer modernen CPU in 5 bis 15 Minuten oder auf einer NVIDIA GPU in 1 bis 3 Minuten verarbeitet. Der Fortschritt wird in Echtzeit angezeigt. Sie können die App im Hintergrund laufen lassen.

5

Transkription überprüfen und exportieren

Das Transkript erscheint im StarWhisper Fenster. Lesen Sie es durch, kopieren Sie den vollständigen Text in die Zwischenablage oder speichern Sie ihn als .txt Datei. Fügen Sie ihn in Notion, OneNote, Google Docs oder Ihr Meeting-Notizsystem ein. Das Transkript ist reiner Text ohne Sprecherbezeichnungen, was die Datei portabel und einfach zu bearbeiten macht. Gesamtkosten: null. Kein Upload, kein Zoom Business Upgrade, keine Minutengebühren.

Warum dies besser ist als Zoom Business Transkription

Ein kostenloser Workflow, der das tut, was der 199 dollar Plan leistet.

Null laufende Kosten

Zoom Business kostet rund 199 dollars pro Benutzer und Jahr. Dieser Workflow bleibt im kostenlosen Zoom-Tier und nutzt die kostenlose lokale Transkription von StarWhisper. Die jährlichen Einsparungen summieren sich schnell für Einzelnutzer oder kleine Teams.

Audio bleibt auf Ihrem Gerät

Sowohl die lokale Zoom-Aufnahme als auch die StarWhisper-Transkription bleiben auf Ihrer Festplatte. Kein Upload zu Zoom-Servern für die Transkription, kein Drittanbieter-Meeting-Bot, der dem Anruf beitritt.

Funktioniert für jede Meeting-Plattform

Der gleiche Workflow funktioniert für Microsoft Teams, Google Meet, Webex, Slack Huddles oder jeden anderen lokal aufgezeichneten Anruf. Die Audiodatei ist das Einzige, was zählt.

96 Sprachen für internationale Anrufe

Arbeiten Sie mit einem Team in Berlin, Tokio und Sao Paulo? Whisper erkennt automatisch die Sprache jeder Aufnahme. Details zur Mehrsprachigkeit.

Echtzeit-Diktat IN Zoom Chat

Die gleiche Installation ermöglicht es Ihnen auch, per Sprache direkt in den Zoom-Chat (oder jedes andere Textfeld) zu diktieren. Sehen Sie sich die Anleitung für die Sprach-zu-Text-Funktion in Zoom an die Anleitung für den gedrückt-und-gehaltenen Workflow. GPU-Beschleunigung

NVIDIA GPU-Besitzer verarbeiten ein einstündiges Meeting in 1 bis 3 Minuten über CUDA. Ohne eine GPU erhalten Sie trotzdem auf modernen CPUs eine nutzbare Geschwindigkeit.

GPU-Details Das Preisschema von Zoom's integrierter Transkription.

Zoom bietet zwar automatische Meeting-Transkription, aber nur im Business Plan und höher. Zum Zeitpunkt der Erstellung beträgt der Business Plan ungefähr 199 dollars pro Benutzer und Jahr (149 bis 199, je nach Vertragslaufzeit und Sitzplatzanzahl). Für einen einzelnen Freiberufler oder ein kleines Team, bei dem nicht alle Anrufe eine Echtzeit-Transkription benötigen, ist das viel Geld für eine Funktion, die Sie nur gelegentlich nutzen würden.

Auch die offizielle Zoom-Transkription hat Einschränkungen, die die Leute zum ersten Mal überraschen. Das Audio wird in Zoom's Cloud verarbeitet, sodass es Ihr Netzwerk verlässt. Aufnahmen werden auf Zoom's Servern gespeichert und unterliegen den Aufbewahrungsrichtlinien von Zoom. Und es ist spezifisch auf Zoom-Anrufe beschränkt: Es kann kein aufgezeichnetes Microsoft Teams-Meeting oder ein Podcast-Interview transkribieren, das Sie an einem anderen Ort durchgeführt haben.

Diese Anleitung beschreibt die Alternative, die die meisten Leute letztendlich verwenden. Behalten Sie das kostenlose Zoom-Tier bei, nutzen Sie die integrierte lokale Aufnahme (die kostenlos ist) und verarbeiten Sie die resultierende Datei mit

StarWhisper auf Ihrem Windows PC. Gesamtkosten: null. Gesamte jährliche Einsparung gegenüber Zoom Business: 199 dollars pro Sitzplatz. Was Zoom Local Recording tatsächlich erfasst

Wenn Sie ein Zoom-Meeting lokal als Gastgeber aufzeichnen, erfasst Zoom das gemischte Audio aller Teilnehmer (Ihr Mikrofon plus die Mikrofon-Streams aller anderen). Das wird als audio_only.m4a gespeichert. Es zeichnet auch das Video-Raster und das Bildschirm-Sharing als zoom_0.mp4 auf. Für die Transkription benötigen Sie nur die .m4a.

Was Sie nicht standardmäßig erhalten, ist die Audioaufnahme pro Sprecher. Die Aufnahme ist ein einziger gemischter Track. Das bedeutet, dass StarWhisper ein kontinuierliches Transkript ohne Sprecherbezeichnungen erstellen wird. Für die meisten Anwendungsfälle von Aktionspunkten und Entscheidungen ist das in Ordnung: Es ist schnell zu lesen und rekonstruiert, wer was gesagt hat, wenn Sie sich an die Diskussion erinnern. Wenn die Sprecher-Diarisierung für Ihren Workflow entscheidend ist, benötigen Sie einen kostenpflichtigen Cloud-Transkriptionsdienst oder eine fortgeschrittenere lokale Einrichtung. Ehrliche Offenlegung.

Zoom zeichnet auch Ihren Bildschirm-Text auf. Das Transkript deckt nur gesprochenes Audio ab, nicht Text auf dem Bildschirm. Wenn jemand ein Dokument mit wichtigen Informationen geteilt hat, speichern Sie dieses Dokument separat.

Schritt-für-Schritt-Zoom-Aufzeichnungseinstellungen

Einmalige Einrichtung in Zoom, die den Rest dieses Workflows reibungslos macht:

Öffnen Sie Zoom (Desktop-Client). Klicken Sie auf Ihr Profilbild oben rechts und dann auf Einstellungen.

  1. Klicken Sie in der linken Seitenleiste auf Aufnahme.
  2. Stellen Sie den Ort der lokalen Aufnahme auf einen Ordner ein, den Sie leicht wiederfinden können. Der Standard ist für die meisten Leute in Ordnung.
  3. Aktivieren Sie „Separate Audiodatei für jeden Teilnehmer aufzeichnen“, wenn Sie später eine bessere Trennung der Quellen wünschen. Dies erzeugt einzelne .m4a Dateien pro Sprecher, was hilfreich sein kann, wenn Sie eine manuelle Sprecherkennzeichnung vornehmen müssen.
  4. Aktivieren Sie optional „Zeitstempel zur Aufnahme hinzufügen“. Nützlich, wenn Sie Transkripte später mit Kalendereinträgen abgleichen.
  5. Aktivieren Sie „Für Drittanbieter-Video-Editor optimieren“ nur, wenn Sie das .mp4 auch für das Video-Editing verwenden. Andernfalls lassen Sie es deaktiviert, um die Dateigrößen kleiner zu halten.
  6. Das war's. Zukünftige Meetings werden lokal in diesen Ordner aufgezeichnet. Sie müssen dies nur einmal pro Gerät einrichten.

Geschwindigkeits- und Hardware-Erwartungen

Die Transkription eines aufgezeichneten Meetings ist schneller als in Echtzeit, manchmal sogar viel schneller. Die genaue Geschwindigkeit hängt von Ihrer Hardware und dem verwendeten Whisper-Modell ab. Ungefähre Zahlen für das Standard-Medium-Modell auf repräsentativen Geräten:

Hardware

30-Minuten-Meeting60-Minuten-Meeting2-Stunden-MeetingModerner Laptop-CPU (i7 oder Ryzen 7)
3 bis 6 Min6 bis 12 Min12 bis 25 MinNVIDIA RTX 3060 (CUDA)
30 bis 60 Sek1 bis 2 Min2 bis 5 MinNVIDIA RTX 4090 (CUDA)
10 bis 20 Sek20 bis 40 Sek1 bis 2 MinÄltere CPU (5+ Jahre)
10 bis 20 Min10 to 20 min25 bis 45 Min50 bis 90 Min

Für die meisten Büro-Laptops, die in den letzten drei Jahren gekauft wurden, rechnen Sie damit, dass eine einstündige Besprechung in 6 bis 12 Minuten transkribiert wird. Das ist schneller, als die Besprechung bei 2x Geschwindigkeit erneut anzuhören. Wenn Sie viel Meeting-Transkription durchführen und eine NVIDIA GPU zur Hand haben, reduziert die Aktivierung des CUDA Packs die Zeit um eine Größenordnung.

Echtzeit-Diktat IN Zoom Chat

Ein separater Anwendungsfall, der erwähnt werden muss. Über die Transkription aufgezeichneter Besprechungen hinaus ist das Hauptmerkmal von StarWhisper das gedrückte und gehaltene Sprach-Diktat in jedes Textfeld. Während eines Zoom-Anrufs können Sie es verwenden, um per Sprache in den Zoom Chat zu tippen, ohne den Blickkontakt mit Ihrer Kamera zu verlieren.

Der Workflow: Klicken Sie in das Zoom-Chat-Eingabfeld, halten Sie die StarWhisper-Hotkey-Taste (Standard ist Right Alt), sprechen Sie die Nachricht und lassen Sie los. Ihre Sprache wird zu getipptem Text. Dies ist nützlich, um während des Screen-Sharings detaillierte Nachrichten an Teilnehmer zu senden, schnelle Notizen während eines Anrufs zu erfassen, ohne auf eine Notizen-App wechseln zu müssen, oder einen offenen Chat-Thread parallel zum mündlichen Gespräch zu führen.

Für den vollständigen Echtzeit-Diktat-Workflow mit Zoom sehen Sie den dedizierten voice-to-text in Zoom Guide. Die Transkriptions-Engine ist dieselbe; nur der Auslöser ist anders.

Datenschutz: Was lokal bleibt und was nicht

Dieser Workflow speichert das Meeting-Audio und das Transkript auf Ihrem Gerät. Die lokale Zoom-Aufzeichnung wird auf Ihrer Festplatte gespeichert. StarWhisper Local Mode verarbeitet es lokal. Das resultierende Transkript ist eine .txt-Datei auf Ihrem PC. Keines davon verlässt Ihr Netzwerk, es sei denn, Sie entscheiden, es zu teilen (in ein Cloud-Dokument einzufügen, per E-Mail zu versenden, hochzuladen).

Vergleich mit Alternativen. Otter.ai tritt als Bot in Ihr Meeting ein und lädt das Audio auf die Server von Otter hoch. Notta macht dasselbe. Sogar die eigene Transkription von Zoom verarbeitet das Audio in der Cloud von Zoom. Für vertrauliche Anrufe (M&A-Diskussionen, Leistungsbeurteilungen, Kundeninterviews unter NDA) ist der rein lokale Workflow eine sinnvolle Verbesserung. Die privacy and offline architecture page behandelt die vollständige Datenflussanalyse.

Wenn Sie in einer regulierten Branche tätig sind (Gesundheitswesen, Recht, Finanzdienstleistungen), unterstützt die gleiche Architektur Ihre Compliance-Anforderungen. Die HIPAA compliance FAQ erläutert, was lokale Verarbeitung speziell für geschützte Gesundheitsinformationen bedeutet.

Speziell für Vertrieb, HR und Kundenanrufe

Vertriebsmitarbeiter, die Discovery Calls durchführen, Recruiter, die Screenings durchführen, und Account Manager, die Verlängerungen durchführen, profitieren alle von Transkripten aufgezeichneter Anrufe. Der Workflow ist hier derselbe: lokal aufzeichnen, anschließend transkribieren. Wenn Sie einen tieferen Einblick wünschen, wie Vertriebsteams und HR-Funktionen lokale Transkription nutzen, sehen Sie sich die rollenspezifischen Seiten an. Die voice-to-text for HR managers Guide behandelt Workflows für die Kandidatenscreening. Die voice-to-text for content creators Seite behandelt Podcast- und Interview-Workflows, die stark mit der Transkription von Verkaufsgesprächen überlappen.

Häufig gestellte Fragen

Brauche ich Zoom Pro oder Zoom Business, um meine Anrufe zu transkribieren?
Nein. Die integrierte Transkription von Zoom ist nur im Business Plan enthalten, welcher etwa 199 $ pro Jahr und Benutzer kostet. Mit diesem Workflow behalten Sie den kostenlosen Zoom-Plan (oder jeden bezahlten Tarif) und verwenden die lokale Aufzeichnung, die für kostenlose Benutzer verfügbar ist, solange Sie der Gastgeber sind. StarWhisper transkribiert dann die resultierende Audiodatei offline auf Ihrem PC. Die Gesamtkosten sind null, es sei denn, Sie überschreiten das StarWhisper Free Tier.
Kann ich ein Zoom-Meeting in Echtzeit transkribieren, während es stattfindet?
Ja für das Diktat, mit einer Einschränkung bei der vollständigen Meeting-Transkription. StarWhisper diktiert in jedes aktive Textfeld, sodass Sie es während eines Anrufs verwenden können, um per Sprache in den Zoom Chat zu tippen. Für die vollständige Multi-Speaker-Meeting-Transkription in Echtzeit müssen Sie das Zoom-Audio (die Stimmen aller) an StarWhisper weiterleiten, was einen virtuellen Audiokabel-Setup erfordert. Der einfachere Workflow, den die meisten Menschen verwenden, ist die lokale Aufzeichnung während des Anrufs und die Transkription direkt danach.
Was ist mit Zoom Cloud Recordings (gespeichert auf den Zoom-Servern)?
Cloud Recordings funktionieren auf die gleiche Weise. Melden Sie sich auf der Website bei Ihrem Zoom-Konto an, gehen Sie zu Recordings, finden Sie das Meeting und laden Sie die Audio-only-Datei herunter (Zoom bietet M4A oder MP4 Download). Ziehen Sie die heruntergeladene Datei dann in StarWhisper. Cloud Recording ist ein kostenpflichtiges Zoom-Feature, aber wenn Sie es bereits haben, bietet Ihnen dies eine kostenlose Möglichkeit zu transkribieren, ohne den zusätzlichen Zoom Business Transcription Add-on bezahlen zu müssen.
Funktioniert das auch für Microsoft Teams und Google Meet?
Ja. Das Muster ist dasselbe: Zeichnen Sie das Meeting lokal auf (Teams hat einen integrierten Record-Button, Google Meet Aufzeichnungen kommen als MP4 in Ihrem Drive) und ziehen Sie dann die Audio- oder Videodatei in StarWhisper. Die App extrahiert automatisch Audio aus Videodateien. Es gibt auch dedizierte Guides zur Verwendung von Voice-to-text innerhalb von Zoom, Teams und Word an anderer Stelle auf der Seite. Die Transkriptions-Engine kümmert sich nicht darum, auf welcher Plattform das Meeting stattfand.
Kann ich Sprecherbezeichnungen (wer was gesagt hat) im Transkript erhalten?
Derzeit nein, StarWhisper beinhaltet keine automatische Sprecherdiarisierung. Das Transkript kommt als kontinuierlicher Textblock zurück. Für die meisten Anwendungsfälle (Aktionspunkte, Entscheidungen, das Wesentliche erfassen) ist dies in Ordnung und einfach zu bereinigen. Wenn Sprecherbezeichnungen kritisch sind, besteht der Workaround darin, Zeitstempel in StarWhisper hinzuzufügen und dann während eines schnellen Überprüfungslaufs manuell zu annotieren. Cloud-Dienste wie Otter und Notta bieten Sprecherbezeichnungen, allerdings auf Kosten des Hochladens des Meeting-Audios und der Bezahlung eines Abonnements.
Wird das Audio bei dieser Methode irgendwo hochgeladen?
Nein. Die lokale Zoom-Aufzeichnung wird auf Ihrer Festplatte gespeichert. StarWhisper läuft standardmäßig im Local Mode und verarbeitet das Audio vollständig auf Ihrer CPU oder GPU mithilfe eines auf Ihrer Maschine gespeicherten Whisper-Modells. Nichts wird an OpenAI, an StarWhisper oder an Dritte hochgeladen. Dies ist wichtig für vertrauliche Anrufe (Kundenmeetings, Leistungsbeurteilungen, Deal-Diskussionen). Sie können dies bestätigen, indem Sie während der Transkription Ihre Netzwerkverbindung trennen; die App funktioniert weiter.
In welchem Dateiformat speichert Zoom Aufzeichnungen?
Lokale Zoom-Aufzeichnungen erzeugen standardmäßig zwei Dateien. Eine Videodatei (zoom_0.mp4 oder ähnlich) mit Bildschirmfreigabe und Video und eine Audio-only-Datei (audio_only.m4a), die nur das Anruf-Audio ist. Für die Transkription benötigen Sie nur die Audiodatei. Ziehen Sie audio_only.m4a in StarWhisper. Das .mp4 funktioniert auch (StarWhisper extrahiert automatisch Audio), aber das .m4a ist kleiner und wird etwas schneller verarbeitet.
Kann ich während eines Anrufs mit StarWhisper in den Zoom Chat diktieren?
Ja. Das Hauptmerkmal von StarWhisper ist das gedrückte und gehaltene Diktat in jedes aktive Textfeld unter Windows. Klicken Sie in das Zoom-Chat-Panel, halten Sie die Hotkey-Taste (Standard Right Alt), sprechen Sie, lassen Sie los. Ihre Sprache wird im Chat-Eingabefeld zu getipptem Text. Dies ist nützlich, um während eines Meetings Notizen zu machen, ohne den Blickkontakt zu verlieren, oder um detaillierte Chat-Nachrichten beim Screen-Sharing zu senden. Funktioniert in 96 Sprachen mit Auto-Erkennung.

Hören Sie auf, für Transkripte Zoom Business zu bezahlen

Kostenloser Windows Download. Ziehen Sie einfach eine Meeting-Aufzeichnung hinein und erhalten Sie innerhalb von Minuten ein vollständiges Transkript. Kein Upload.

StarWhisper für Windows herunterladen