Mit Google AI Studio kannst du YouTube-Videos schnell und kostenlos transkribieren und zusammenfassen – dank der neuesten Gemini-Modelle von Google. Ob für SEO, Content-Wiederverwertung oder Barrierefreiheit: Wir zeigen dir die besten Prompts für exakte Transkriptionen und Zusammenfassungen.
Transkribieren von YouTube-Videos mit Google AI Studio
Google AI Studio ist ein kostenloses Tool von Google, mit dem man Googles Gemini-Modell per Prompt mit vielen Beispielen schnell ausprobieren kann. Zudem kann man sich hier auch einen API Key besorgen, mit dem man Google Gemini in anderen Tools oder via Code nutzen kann.
Vorteile: Google AI Studio
- Kostenlos
- Einfach nutzbar
- Hilft bei KI-Coding und Prompt-Tests
- Neueste Gemini-Modelle nutzbar
- KI-Parameter wie Temperature justierbar
- Einrichtung einigermaßen einfach (Google Account, Google Cloud-Aktivierung)

Wie viele Videos kann man kostenlos mit Google AI Studio transkribieren?
Im Google AI Studio hat man über 1 Mio Tokens pro Tag zur Verfügung um Gemini-Prompts auszuprobieren (siehe rechts im Screenshot). Ein einfaches Video mit 2-3 Minuten Länge verbaucht ca. 30.000 Tokens (siehe unter Video im Screenshot). So kann man also kostenlos 20-30 Videos pro Tag transkribieren und zusammenfassen.
Gute Prompts zum Transkribieren und Zusammenfassen von Videos
Genaues prompten der generativen KI hilft, zum gewünschten Ergebnis zu kommen. Hier einige Prompts und Beispielergebnisse für die Transkription und Zusammenfassung von Videos.
Werbung
E-Book: ChatGPT für Job & Alltag – Dein praktischer Einstieg
Unser neues E-Book bietet eine leicht verständliche und strukturierte Einführung in die Nutzung von ChatGPT – sowohl im Beruf als auch im Privatleben.
- ✔ Mit zahlreichen Beispielen und direkt anwendbaren Prompts
- ✔ 8 spannende Anwendungsfälle, darunter als Übersetzer, Lernassistent oder Finanzrechner
- ✔ Kompakt auf 40 Seiten, klar und auf das Wesentliche fokussiert
- Prompt: "Transcribe this video": einfach, aber meist zu grob
- Prompt: "Transcribe this video word by word": bester einfacher Prompt
- Prompt: "Summarize this video by scene": gut für Szenen-Zusammenfassungen
- Prompt: "Whats happening in the video": gut für gesamte Video-Zusammenfassungen
Tipp: Prompts genau angeben
Wenn die KIs nicht direkt das gewünschte Ergebnis erstellen kann man einfach genauer angeben, was man braucht. Z.B. "use timestamps", "only scenes with german language" bei multilingualen Videos, oder "separated by person" wenn man Transkripte nach Personen trennen will.
Beispiele für Video-Transkriptionen durch Google Gemini im Google AI Studio
Am Beispiel von 2 Youtube-Videos zeigen wir hier auf, wie wichtig es ist, gute Prompts zu erstellen, um das gewünschte Ergebnis zu bekommen.
Einfache Zusammenfassung - Prompt "Transcribe this video"
Der einfache Prompt "Transcribe this video" führt zu verschiedenen Ergebnissen, denn dieser ist eher ungenau. Manchmal werden Timestamps ausgegeben, manchmal nicht. Er führt eher zu einer Zusammenfassung von Szenen oder des gesamten Videos, wie die Beispiele zeigen.
Fall 1: Nur Bereiche werden ausgegeben, dafür mit Timestamps

Fall 2: Statt einer Transkription wird eine Zusammenfassung erstellt

Gute Transkriptionen erstellen - Prompt "Transcribe this video word by word"
Der genauere Prompt "Transcribe this video word by word" erzeugt die gewünschte Transkription. Diese Texte lassen sich mit generativer KI leicht weiterverarbeiten, zusammenfassen, übersetzen oder zu Artikeln umformulieren.

Zusammenfassungen - Prompt "Summarize this video by scene"
Mit dem Prompt "Summarize this video" bzw. "Summarize this video by scene" kann man direkt nützliche Zusammenfassungen der Video-Szenen erstellen. Dies hilft z.B. bei Barrierefreiheits-Zusammenfassungen oder um komplexe Videos in einfache/leichte Sprache gem. AAA-Barrierefreiheits-Standards zu überführen.

Zusammenfassungen - Prompt "Whats happening in the video?"
Wer ein ganzes Video zusammenfassen will kann dies leicht mit dem Prompt "Whats happening in the video?" erreichen. Dies hilft ebenfalls bei vielen weiteren Content-Weiterverwendungsmöglichkeiten wie Video-Zusammenfassungen auf Websites für bessere Content-Auffindbarkeit in Suchmaschinen und KIs.

Für Developer: Google AI Studio und Youtube-Transcripts per Code
Hier einige hilfreiche Quellen für Developer, die Google Gemini per Code nutzen wollen. So kann man Youtube-Transkripte direkt in selbsterstellten Tools oder Automation-Frameworks wie n8n nutzen, z.B. um dies in WordPress-Plugins zu nutzen. Bei der Transkription per API fallen dabei Kosten an, die vom genutzten KI-Modell und der Token-Anzahl abhängen. Die Preise für Gemini sind jedoch erfreulich gering.
Google Cloud: Use Gemini to summarize YouTube videos (Artikel)
Tina Huang: Google AI Studio in 26 Minutes (Youtube)
Werbung
Fazit: So hilft das Transkribieren von Youtube-Videos durch KI
Mit dem Google AI Studio steht eine neue einfache Lösung bereit, um schnell und kostenlos Videos zu transkribieren und zusammenzufassen. Wie bei jeder generativen KI gilt auch bei Google Gemini: Je genauer der Prompt, desto passender das Ergebnis.
Das Transkribieren von YouTube-Videos bietet zahlreiche Vorteile und Möglichkeiten in vielen digitalen Anwendungsfällen, darunter bessere Barrierefreiheit, SEO-Optimierung, größere Reichweite, einfachere Content-Wiederverwendung und eine schnellere Informationsaufnahme.
-
Bessere SEO und Auffindbarkeit in AI-Suchen
Suchmaschinen und KIs können den gesprochenen Inhalt eines Videos nicht direkt analysieren. Ein zusätzliches Transkript im Artikel macht die Inhalte durchsuchbar, verbessert das Ranking in Google, YouTube und AI-Suchen und sorgt für mehr organische Reichweite. -
Erhöhte Reichweite durch Übersetzung und Untertitel
Transkripte lassen sich leicht in verschiedene Sprachen übersetzen, was die internationale Sichtbarkeit und den Zugang für nicht-muttersprachliche Zuschauer erhöht. -
Einfachere Content-Wiederverwendung
Die schriftliche Version eines Videos kann als Grundlage für Blogartikel, Social-Media-Posts, E-Books oder Newsletter dienen, ohne dass der Inhalt neu formuliert werden muss. -
Schnellere Informationsaufnahme
Viele Menschen bevorzugen es, Inhalte zu überfliegen oder gezielt nach bestimmten Informationen zu suchen. Mit einem Transkript können sie schnell relevante Passagen finden, anstatt das ganze Video anzusehen. -
Bessere Verständlichkeit und Notizen-Erstellung
Fachbegriffe, komplizierte Sachverhalte oder schnell gesprochene Passagen können durch ein Transkript leichter nachvollzogen und für eigene Notizen verwendet werden. -
Verbesserte Barrierefreiheit
Menschen mit Hörbeeinträchtigungen oder Menschen, die Inhalte lieber lesen statt als Video ansehen, profitieren von einem schriftlichen Transkript. So kann man die Inhalt auch im Zug oder in lauten Umgebungen nachvollziehen.

Ralf Schukay liebt Analytics, Python & alles mit Daten. In seiner Freizeit spielt er Synthesizer (Nord, Novation), joggt und fährt Gravel Bike. Er arbeitet als Teamlead Analytics & Conversion mit einem fitten und netten Team in der Berliner Digitalagentur >MAI mediaworx<