OpenAI stellt drei neue Echtzeit-Audio-Modelle für Entwickler vor

Worum geht’s?

OpenAI hat drei neue Audio-Modelle für seine Realtime API angekündigt, die unterschiedliche Schwerpunkte bei der Sprachverarbeitung setzen. GPT-Realtime-2 ermöglicht natürliche Live-Gespräche mit Reasoning-Fähigkeiten, GPT-Realtime-Translate übersetzt gesprochene Sprache zwischen mehr als 70 Eingabe- und 13 Ausgabesprachen, während GPT-Realtime-Whisper für die sofortige Transkription von Audio in Text konzipiert wurde. Alle drei Modelle sind ab sofort über die API für Entwickler verfügbar.

Hintergrund & Einordnung

Mit GPT-Realtime-2 präsentiert OpenAI nach eigenen Angaben das erste Sprachmodell mit GPT-5-Reasoning-Fähigkeiten. Das Modell ist auf Live-Konversationen optimiert und kann komplexe Anfragen verarbeiten, unterbrechungsfrei kommunizieren und auf Einwände oder Zwischenfragen reagieren. Die technologische Basis ermöglicht es, dass Gespräche deutlich natürlicher ablaufen als bei bisherigen Sprachassistenten.

Das Übersetzungsmodell GPT-Realtime-Translate zielt darauf ab, Sprachbarrieren in Echtzeit zu überwinden, indem es den natürlichen Redefluss während der Übersetzung beibehält. GPT-Realtime-Whisper baut auf der bekannten Whisper-Technologie auf und bietet durch seine Streaming-Architektur besonders niedrige Latenzen bei der Transkription. Für europäische Entwickler ist relevant, dass die Realtime API eine Datenverarbeitung innerhalb der EU ermöglicht.

Die Preisgestaltung unterscheidet sich je nach Modell: GPT-Realtime-2 wird nach Audio-Token abgerechnet und kostet 32 US-Dollar pro Million Eingabe-Token sowie 64 US-Dollar pro Million Ausgabe-Token. Die beiden anderen Modelle werden zeitbasiert berechnet – GPT-Realtime-Translate mit 0,034 US-Dollar pro Minute und GPT-Realtime-Whisper mit 0,017 US-Dollar pro Minute.

Was bedeutet das?

Entwickler erhalten Werkzeuge für anspruchsvolle Sprachanwendungen in Bereichen wie Kundensupport, Bildung und Gesundheitswesen, wo Echtzeitkommunikation entscheidend ist.
Die Kombination aus Reasoning-Fähigkeiten und natürlicher Sprachverarbeitung könnte die Qualität von KI-gestützten Hotlines und virtuellen Assistenten deutlich verbessern.
Mehrsprachige Anwendungen werden durch die Echtzeit-Übersetzung in über 70 Sprachen für internationale Teams und Projekte praktikabler.
Die Live-Transkription ermöglicht neue Anwendungsfälle wie automatische Untertitelung oder die Erstellung von Protokollen während Besprechungen.
Die EU-Datenresidenz adressiert Datenschutzanforderungen europäischer Unternehmen und könnte die Akzeptanz in diesem Markt erhöhen.