Genug von siebenminütigen Sprachnachrichten von Familie oder Kollegen? Geben Sie die Datei in eine kostenlose Windows App und lesen Sie die Transkription in Sekunden. Unterstützt 96 Sprachen, Audio wird niemals hochgeladen.
Keine Anmeldung, kein Hochladen, keine Gebühr pro Minute.
Wenn Sie WhatsApp nur auf Ihrem Telefon nutzen, holen Sie sich den Desktop-Client von whatsapp.com oder dem Microsoft Store. Öffnen Sie ihn, scannen Sie den QR-Code mit Ihrem Telefon, und Ihre gesamte Chat-Historie synchronisiert sich. WhatsApp Desktop bietet Ihnen ein zuverlässiges Rechtsklick-Speichern-als-Menü für Sprachnachrichten, das WhatsApp Web in einem Browser oft nicht bietet.
Suchen Sie die Sprachnachricht in Ihrem Chat. Klicken Sie mit der rechten Maustaste darauf und wählen Sie Speichern als. WhatsApp Desktop bietet einen Dateinamen und speichert das Audio in Ihrem Downloads-Ordner entweder als .opus oder .ogg. Beides sind Standard-Opus-Codec-Dateien und StarWhisper verarbeitet diese nativ. Sie müssen nichts konvertieren.
Download StarWhisper von der Startseite. Der Installer ist klein und die Einrichtung führt Sie durch einen einmaligen Model-Download, damit die App danach offline arbeiten kann. Das kostenlose Tier deckt 500 Wörter pro Tag und 3.500 pro Woche ab, was für die typische private Nutzung ohne Pro Plan ausreichend ist.
Öffnen Sie StarWhisper und ziehen Sie die .ogg- oder .opus-Datei aus dem Datei-Explorer auf das Fenster. Die App erkennt die Sprache automatisch und beginnt mit der Transkription. Eine typische 30-sekündige Sprachnachricht ist auf einem modernen CPU in zwei bis fünf Sekunden fertig. Mit einer NVIDIA GPU ist es praktisch sofort.
Der Text erscheint im StarWhisper Fenster. Kopieren Sie ihn in die Zwischenablage, fügen Sie ihn in einen Chat oder ein Dokument ein oder speichern Sie ihn als .txt-Datei. Die Sprachnachricht ist nun durchsuchbarer, überfliegbarer und zitierbarer Text. Sie mussten nie das Ganze anhören.
Konkrete Gründe, keine vagen Vorteile.
Der Standard-Local Mode führt OpenAI Whisper auf Ihrer eigenen Maschine aus. Kein Hochladen, kein Drittanbieter-Speicher, keine Server, die Ihren Familien-Gruppenchat sehen.
Egal, ob die Sprachnachricht Spanisch, Hindi, Arabisch, Mandarin, Polnisch oder eine der 96 unterstützten Sprachen ist, StarWhisper erkennt die Sprache automatisch.
WhatsApps .opus- und .ogg-Dateien werden direkt geladen. Kein Drittanbieter-Konverter, kein Online-MP3-Ripper, keine eingefügten command-line ffmpeg Aufrufe.
Einmaliger Model-Download, dann volle Offline-Funktionalität. Nützlich für Flüge, sensible Aufnahmen oder überall dort, wo Sie dem Netzwerk nicht vertrauen.
Deckung von etwa 5 bis 10 typischen Sprachnachrichten pro Tag ohne Anmeldebarriere, ohne Kreditkarte, ohne Testzeit-Countdown. Details zum kostenlosen Tier hier.
NVIDIA GPU-Besitzer erhalten eine praktisch sofortige Transkription über CUDA. GPU-Support-Details.
WhatsApp Sprachnachrichten haben ein besonderes Problem. Sie sind bequem für den Sender, der beim Gehen ein Monolog halten kann, aber sie sind ineffizient für den Empfänger, der Kopfhörer suchen, einsetzen und in Echtzeitgeschwindigkeit hören muss, um vielleicht zwanzig Sekunden tatsächlicher Information zu gewinnen. Eine sechsminütige Sprachnachricht von einem Verwandten enthält oft ein Datum, eine Frage und viel Kontext. Die Transkription in fünfzehn Sekunden zu lesen, ist ein deutlich besseres Erlebnis.
Der andere Grund: Suchbarkeit. Sobald eine Sprachnachricht transkribiert ist, können Sie Ihre Chat-Historie nach den darin enthaltenen Wörtern durchsuchen. Die eigene Suche von WhatsApp indiziert nur Textnachrichten, sodass Monate von Sprachnachrichten zu einer undurchsichtigen schwarzen Box werden. Das Speichern von Transkripten in einer Notizen-App oder einem Dokument bedeutet, dass Ihre Sprachnachrichten-Information später wieder abrufbar ist. Personen, die viele Sprachnachrichten von einem bestimmten Kontakt (einem Elternteil, einem Manager, einem Projektleiter) erhalten, berichten, dass die Umwandlung in Text die Beziehung zum Chat selbst verändert.
Cloud-Transkriptionsdienste existieren, aber die meisten berechnen pro Minute, bitten Sie darum, sensible persönliche Audio-Dateien auf ihre Server hochzuladen, und erfordern eine Anmeldung mit Kreditkarte. Die Rechnung wird schnell schlecht: bei 10 Cent pro Minute und zehn Sprachnachrichten pro Woche mit durchschnittlich zwei Minuten sind das 8 Dollar im Monat für eine Aufgabe, die eigentlich sehr klein ist. Die StarWhisper Vorgehensweise ist eine kostenlose lokale Installation, die unbegrenzte Transkription im kostenlosen Tier bis zum täglichen Wortlimit ermöglicht. Für die meisten gelegentlichen WhatsApp-Nutzer wird dieses Limit nie erreicht.
Der schnellste Weg ist WhatsApp Desktop auf demselben Windows PC wie StarWhisper. Sobald es verknüpft ist, ist jede Sprachnachricht in jedem Chat rechtsklickbar zum Speichern. Dies ist die empfohlene Einrichtung für alle, die planen, Sprachnachrichten öfter als gelegentlich zu transkribieren.
Bereits in den obigen Schritten behandelt. Rechtsklicken, Speichern als, in StarWhisper ziehen. Zwei Klicks Reibung. Dies funktioniert für jede Sprachnachricht in jedem Chat, ob Einzel- oder Gruppenchat, solange Sie die Desktop-App verknüpft haben.
Unter Android: Halten Sie die Sprachnachricht gedrückt, tippen Sie auf das Drei-Punkte-Menü, wählen Sie Teilen und senden Sie sie als Anhang an Ihre eigene E-Mail-Adresse. Auf dem iPhone: Halten Sie die Sprachnachricht gedrückt, tippen Sie auf Weiterleiten, dann auf das Teilen-Pfeilsymbol und wählen Sie Mail. Öffnen Sie Gmail oder Outlook unter Windows, laden Sie den Anhang herunter und ziehen Sie die resultierende Datei in StarWhisper. Die Datei kommt in der Regel als .opus unter Android oder als .m4a unter iPhone an. StarWhisper verarbeitet beides.
Für die Stapeltranskription von Monaten von Sprachnachrichten öffnen Sie den Chat auf Ihrem Telefon, gehen Sie zu den Chat-Einstellungen, wählen Sie Chat exportieren und wählen Sie die Option, Medien einzuschließen. WhatsApp erstellt eine zip-Datei mit jedem Audio-Anhang als .opus. Übertragen Sie das zip auf Ihren PC, entpacken Sie es und lassen Sie den Ordner in StarWhisper fallen. Die App verarbeitet jede Sprachnachricht nacheinander und benennt jedes Transkript nach dem Dateinamen. Das ist, was Menschen verwenden, wenn sie Jahre von Familien-Chat-Audio in durchsuchbaren Text migrieren.
Der kostenlose Plan von StarWhisper bietet Ihnen 500 Wörter pro Tag, begrenzt auf 3.500 Wörter pro Woche. Eine typische 60-sekündige WhatsApp Sprachnachricht transkribiert sich auf etwa 150 Wörter Text. Das ergibt ungefähr 3 bis 5 Sprachnachrichten pro Tag im kostenlosen Tier, oder 20 bis 25 pro Woche. Für die meisten privaten WhatsApp-Nutzer ist das ausreichend.
Wenn Sie ein kleines Unternehmen über WhatsApp Business betreiben, einen hohen Volumen an Sprachnachrichten von Kunden erhalten oder eine große historische Transkription durchführen, werden die Limits spürbar. Der Pro Plan kostet 10 Dollar pro Monat oder 80 Dollar pro Jahr und hebt das Wortlimit vollständig auf. Details und Preise des Pro Plans finden Sie auf der speziellen Seite. Es gibt auch eine kostenlose 7-Tage-Testversion, die unbegrenzten Zugang freischaltet, wenn Sie überprüfen möchten, ob es für Ihr Arbeitsaufkommen funktioniert, bevor Sie bezahlen.
Der Free Local Mode und der Pro Local Mode erzeugen identische Transkripte. Der Pro Plan erhält kein anderes oder intelligenteres Model. Er hebt lediglich das Wortlimit auf und fügt einige Workflow-Funktionen hinzu (benutzerdefinierte Hotkeys, Vokabular, priorisierter Cloud-Fallback, falls Sie zustimmen). Für alle, die nur gelegentlich eine lange Sprachnachricht von einem Elternteil lesen möchten, ist das kostenlose Tier wirklich ausreichend.
Sprachnachrichten von Freunden und Familie sind einige der persönlichsten Audio-Daten auf Ihrem Telefon. Sie enthalten medizinische Beschwerden, Beziehungsdramen, Meinungen über Kollegen, Familiengeheimnisse und spontane Kommentare, die Menschen nicht auf einem Server irgendwo gespeichert haben möchten. Das Hochladen dieses Audios an einen Cloud-Transkriptionsdienst bedeutet, dass ein Dritter eine Kopie erhält.
StarWhisper läuft standardmäßig im Local Mode. Die von Ihnen eingezogene Audiodatei wird auf Ihrer CPU oder GPU dekodiert, das Whisper-Modell auf Ihrer Festplatte führt die Transkription durch, und der resultierende Text erscheint auf dem Bildschirm. Es wird nichts hochgeladen. Es wird nichts auf einem entfernten Server protokolliert. Es wird nichts von Menschen zur Qualitätssicherung überprüft. Sie können dies selbst überprüfen, indem Sie Ihre Netzwerkverbindung trennen, bevor Sie eine Datei verarbeiten; die Transkription funktioniert trotzdem.
Der Cloud Mode ist als opt-in-Umschalter in den Einstellungen verfügbar, falls Sie die OpenAI Whisper API gezielt für eine kleine Genauigkeitsverbesserung bei Randfällen nutzen möchten. Er ist klar gekennzeichnet, standardmäßig deaktiviert und wird niemals still eingeschaltet. Bei sensiblen persönlichen Sprachnachrichten lassen Sie einfach die Standardeinstellungen unverändert. Für die tiefere Datenschutzgeschichte sehen Sie... die Seite zur Datenschutz- und Offline-Architektur.
Die Transkriptionsgeschwindigkeit hängt von Ihrer Hardware und der Länge der Sprachnachricht ab. Ungefähre Zahlen vom Whisper medium Model auf gängigen Geräten:
| Hardware | 30-Sekunden-Sprachnachricht | 2-Minuten-Sprachnachricht | 10-Minuten-Sprachnachricht |
|---|---|---|---|
| Modernes Laptop-CPU (i7 oder Ryzen 7) | 2 bis 5 Sek | 10 bis 20 Sek | 1 bis 2 Min |
| NVIDIA RTX 3060 (CUDA) | unter 1 Sek | 2 bis 4 Sek | 10 bis 20 Sek |
| NVIDIA RTX 4090 (CUDA) | unter 1 Sek | unter 1 Sek | 5 bis 8 Sek |
| Ältere CPU (5+ Jahre) | 5 bis 10 Sek | 30 bis 60 Sek | 3 bis 6 Min |
Auch die Größe des Whisper-Modells spielt eine Rolle. StarWhisper ist standardmäßig auf eine ausgewogene Wahl (medium) eingestellt, Sie können aber in den Einstellungen auf die kleineren (schneller, etwas weniger genau) oder die größeren (langsamer, genauer) Modelle umschalten. Bei Sprachnachrichten ist der Standard fast immer ausreichend. Der große Qualitätsunterschied besteht zwischen der integrierten Windows-Diktation und Whisper, nicht zwischen den Whisper-Modellgrößen.
Ehrliche Offenlegung, wo es weniger gut funktioniert. Erstens: Sehr verrauschtes Audio. Sprachnachrichten, die im dichten Verkehr oder bei Wind im Freien aufgenommen wurden, zeigen einen Genauigkeitsabfall von über 95 % auf vielleicht 80 %. Der Transkriptionstext ist immer noch lesbar, aber Sie könnten einige falsche Wörter sehen. Zweitens: Starkes Code-Switching mitten im Satz. Wenn eine Sprachnachricht alle paar Wörter zwischen zwei Sprachen wechselt, wählt Whisper manchmal eine und transkribiert die andere. Drittens: Sehr starke regionale Dialekte in bestimmten Sprachen. Standard-Spanisch aus Spanien, Mexiko und Argentinien funktioniert gut; sehr dicke ländliche Dialekte können das Modell verwirren.
Für all dies ist der Workaround derselbe: Versuchen Sie die Transkription und akzeptieren Sie, dass das Ergebnis ein nützlicher erster Entwurf und kein perfektes Protokoll sein wird. Bei den meisten persönlichen Sprachnachrichten ist die Genauigkeit weit über ausreichend.
Es gibt auch keine integrierte Sprecherdiarisierung für Gruppen-Chat-Sprachnachrichten, die mehrere Stimmen in einer Aufnahme enthalten (selten, aber es passiert). StarWhisper transkribiert alles als einen einzigen Textblock. Sie können es nachträglich manuell aufteilen, falls Sie das benötigen.
Wenn Ihnen das nützlich war, funktioniert dieselbe Pipeline für andere Audiotypen. Viele Leute installieren StarWhisper, um WhatsApp-Sprachnachrichten zu verarbeiten, und stellen dann fest, dass sie es auch für... Interview-Transkription, Podcast-Transkription, oder Meeting-Transkription. Der Drag-and-Drop-Dateiablauf ist derselbe; nur die Audioquelle ändert sich. Es gibt auch einen Echtzeit-Diktiermodus zum Sprechen in jede App, was ein separater Anwendungsfall, aber dieselbe Installation ist.
Verwenden Sie den gleichen lokalen Whisper-Workflow für gespeicherte Audiodateien unter Windows.
Laden Sie .m4a-Dateien von Ihrem iPhone auf ein kostenloses Windows-Transkriptionswerkzeug herunter.
Der gleiche Workflow für iPhone Sprachmemos, Podcasts und aufgezeichnete Anrufe.
Wie Creator lokale Transkription für Podcasts, Skripte und Social Media nutzen.