Dieser Überblick stellt die wichtigsten generativen KIs zur Text- und Bilderstellung vor, darunter Microsoft Copilot, ChatGPT, Perplexity, Claude, Google Bard und viele weitere.
Teil A: Die besten KIs zur Texterstellung
ChatGPT
ChatGPT von OpenAI (siehe unser Artikel) ist die mächtigste und meistgenutzte Text-KI. Bereits kurz nach dem Start in 11/2022 wurde sie sehr erfolgreich und wird von Millionen Menschen für private und berufliche Aufgaben genutzt. Das Plus-Abo bietet Zugang zu GPT-4, über 100 nützliche Plugins, die praktische Zusatzfunktionen ermöglichen. Dazu kommt noch das Plugin Code Interpreter (jetzt: Advanced Analysis), mit dem man eigene Dateien hochladen, Code ausführen, Daten visualisieren und seine Ergebnisse im gewünschten Format exportieren und herunterladen kann.
- Anbieter: OpenAI
- Zielgruppe: Alle
- Besonderheiten: Beste Ergebnisqualität, viele Plugins verfügbar, API verfügbar, mächtiger Code Interpreter, Internet-Zugriff möglich
- Kosten: GPT-3.5 (kostenlos nutzbar), GPT-4 (nur für Plus-Kunden, ca. 20€/Monat)
- Website: https://openai.com/chatgpt
- App: iOS, Android
Bing Chat / Microsoft Bing
Microsoft bietet mit "Bing Chat" einen Chatbot ähnlich wie das populäre ChatGPT an. Hier kann man das mächtige GPT-4 Modell sogar kostenlos nutzen. Man kann mit Bing Chat z.B. Texte erstellen, Fragen beantworten und sogar Bilder erstellen. Microsoft empfiehlt für dafür den hauseigenen Browser "Microsoft Edge" zu nutzen (Windows, macOS) oder die Bing-App zu installieren (Android, iOS). Jedoch läuft Bing Chat nun auch direkt in Chrome und bald auch in Safari.
- Anbieter: Microsoft
- Zielgruppe: Alle
- Besonderheiten: Beste Ergebnisqualität, Internet-Zugriff möglich, einfach im Browser integriert
- Kosten: GPT-4 (kostenlos nutzbar)
- Website: https://chat.bing.com
- Mobile: Bing Download: iOS, Android
Microsoft Copilot
Microsoft bietet seinen führenden Chatbot "Copilot" in verschiedenen Versionen an, so dass alle Nutzer diesen passend nutzen können. Private Nutzer können ihn kostenlos nutzen, erhalten dafür aber nur in einfache Version (ohne Integration in Office-Tools). Firmenkunden und Privatkunden zahlen monatlich, erhalten dafür aber eine direkte Integration in Word, Excel, Powerpoint. Diese Integration steigert die Produktivität deutlich. Zudem basiert Microsoft Copilot auf dem neuesten GPT-Sprachmodell von OpenAI und ist damit vielen anderen Chatbots überlegen in seiner Antwortqualität.
- Anbieter: Microsoft
- Zielgruppe: Allgemeinheit & Firmen
- Besonderheiten: Beste Ergebnisqualität, Chatbot kann auf das Internet zugreifen, beste Integration mit Office-Tools (Word, Excel Powerpoint, Microsoft Teams etc.)
- Kosten:
- Für Alle: Free-Version: kostenlos
- Für Privatkunden: Copilot Pro: 20$/Monat
- Für Firmenkunden: Copilot for Microsoft 365: 30$/Monat
- Website:
Google Bard
Die Text-KI Bard von Google ist seit 06/2023 in Deutschland nutzbar (Beta). Sie basiert auf Googles-KI-Modell "PaLM 2" und wird in 2023 zunehmend stärker in die Google-Suche integriert wodurch sie deutlich mehr Nutzer erreichen wird als alle anderen Anbieter. Google Bard kann Texte aller Art erstellen, Code in über 20 Programmiersprachen generieren (z.B. Python, Java, Javascript, Typescript, C++, Go), Daten analysieren und vieles mehr.
Die Ergebnisse von Analysen kann man sich direkt in ein Google Sheet oder Google Doc ausgeben lassen. Data Analysten können generierten Python-Code sogar per Klick in Google Colab importieren. Interessant für alle, die Suchmaschinenoptimierung für Ihre Websites brauchen: Google Bard gibt auch Auskunft zu Keyword-Recherchen und ungefähren Suchvolumen (Prompt: "Führe eine Keywordrecherche zum Thema ___ durch. Ergänze Informationen zu Suchvolumen und Suchtrends").
- Anbieter: Google
- Zielgruppe: Alle
- Besonderheiten: Ausreichend gute Textgenerierung (schlechter als ChatGPT), gute Coding-Fähigkeiten, aktuelle Internet-Daten nutzbar, Integriert in weitere Google-Produkte
- Website: https://bard.google.com/
Perplexity
Perplexity ist eine Kombination aus Chatbot und Web-Suche. Die Qualität und Geschwindigkeit überzeugt. Es werden sogar Quellen aus dem Web zitiert, so dass Halluzinationen damit vermieden werden können. Basis der Free Version ist OpenAI's GPT-3.5-Modell, kombiniert mit dem eigenständigen LLM des Unternehmens, das Fähigkeiten zur natürlichen Sprachverarbeitung (NLP) beinhaltet. Perplexity Pro hat Zugang zu GPT-4, Claude 2 und anderen auf dem Markt verfügbaren Modellen. Perplexity wurde im August 2022 gegründet und wird vom CEO Aravind Srinivas geleitet, der zuvor bei OpenAI gearbeitet hat.
- Anbieter: Perplexity
- Zielgruppe: Alle & Firmenkunden
- Besonderheiten: Geniale Kombination aus Chatbot und Suchmaschine (Google-Suche, GPT), API verfügbar, schnell und gute Ergebnisse
- Kosten:
- Free Version: kostenlos
- Pro Version: 20$/Monat
- Website: https://perplexity.ai
Cohere Command
Das generative Sprachmodell "Command" von Cohere richtet sich an die Bedürfnisse von Unternehmen. Cohere bietet darum einen hilfsbereiten Kundenservice an, damit Firmen die KI-Modelle möglichst nahtlos und einfach in eigene Anwendungen im Unternehmen integrieren können. Der neue AI-Assistent "Coral" nutzt Command und kann sich mit diversen Datenquellen verbinden, wird auf firmenspezifischen Dokumenten trainiert und gibt so sehr passende Ergebnisse mit geringer Fehlerrate (kaum Halluzinationen). Zudem ist stets nachvollziehbar, woher das Ergebnis kam (z.B. "Quelle: Jahresbericht 2023, Seite 8"). Gut für den Datenschutz und Firmensicherheit: Cohere lässt sich auf firmeninternen Servern oder Clouds installieren. Daten werden dann nicht an Cohere gesendet und bleiben DSGVO-konform im eigenen Land.
- Anbieter: Cohere
- Zielgruppe: Unternehmen
- Referenzen: Spotify, Oracle, weitere
- Besonderheiten: Eigene Daten lernen, datenschutzkonform, Firmenwissen wird nicht an externe Unternehmen weitergegeben, API verfügbar
- URL: https://cohere.com/models/command
Luminous
Luminous ist das große Sprachmodell (LLM) des deutschen Anbieters "Aleph Alpha" und richtet sich an Unternehmen und Organisationen. Luminous lässt sich auf eigener Infrastruktur einrichten und betreiben und ist einsatzbereit zur Analyse und Verarbeitung von Text- und Bilddaten. Aleph Alpha bieten ihr Produkt mit dem klarem Fokus auf "Made in Europe" an, um somit Datenschutz und weitere Standards für deren Firmenkunden sicherzustellen. Durch die Uni-Nähe fließen wissenschaftliche Erkenntnisse in die Weiterentwicklung ein. Weitere Vorteile gem. Anbieter sind die Skalierbarkeit, sicheres und datenschutzkonformes Hosting in Deutschland und die einfache Nutzung.
- Anbieter: Aleph Alpha GmbH (Heidelberg)
- Zielgruppe: Unternehmen
- Besonderheiten: EU-konformer Datenschutz und weitere EU-Standards, API verfügbar
- Kunden: Stadt Heidelberg, BWI GmbH, TU Darmstadt
- URL: https://www.aleph-alpha.com/luminous
LLaMA 2
Meta hat mit LLaMA 2 ein Open Source Sprachmodell veröffentlicht, das große Beachtung findet.
- Anbieter: Meta (früher: Facebook)
- Zielgruppe: Unternehmen
- Besonderheiten: Open Source Sprachmodell
- URL: https://ai.meta.com/llama/
Claude 2
Das generative Sprachmodell Claude 2 von Anthropic wird in Europa erst gegen Ende 2023 erwartet.
- Anbieter: Anthropic
- Zielgruppe: Unternehmen
- Besonderheiten: folgt
- URL: https://www.anthropic.com/index/claude-2
Teil B: Die besten KIs zur Bilderstellung
Midjourney
Midjourney generiert Bilder mit künstlerischen Qualitäten, indem es , Man kann diverse Bildstile anfordern, wie z.B. Fotorealismus, Anime, Comic, Kunst-Epochen, bestimmte Künstler (z.B. "Bart Simpson im Stil von Picasso"), Ölgemälde und vieles mehr. Der Einstieg ist etwas kompliziert, da man einen Discord-Account für den Login braucht. Nach dem Login sieht man verwirrend viele Chats anderer Nutzer und kann von deren Prompts lernen. Man kann seine Bilder jedoch auch privat erstellen, so dass kein anderer sie sehen kann. Die Einarbeitung lohnt sich: Denn Midjourney wird von vielen professionellen Nutzern als beste Bild-KI angesehen.
- Anbieter: Midjourney (ein US-Forschungsinstitut zu Computerkunst)
- Zielgruppe: Alle
- Besonderheiten: Beste Ergebnisqualität, meistgenutzte Bild-KI weltweit
- Kosten: ab 8 $ / Monat für ca. 200 generierte Bilder ("3,3 Stunden mit Fast-CPU-Nutzung")
- URL: https://www.midjourney.com/
Stable Diffusion
Das ausgereifte "Stable Diffusion XL" von Stability AI liefert sehr gute Ergebnisse, die mit Midjourney mithalten können und teilweise sogar übertreffen. Zu den Vorteilen zählen: Überzeugende fotorealistische Bildgenerierung, reichhaltige Blildstile mit ansprechender Ästhetik. Realistische Gesichtserzeugung. Man kann Prompts zur Bildkomposition geben ("Zeige eine Vase mit Rosen auf einem Mahagonitisch. Jetzt verschiebe die Vase nach links"). Schon kurze Prompts reichen aus, um gute Resultate zu erzeugen. Man kann zudem lesbaren Text auf den Bildern generieren lassen.
- Anbieter: Stability AI
- Zielgruppe: Alle
- Besonderheiten: Open Source Modell, sehr gute Ergebnisse
- Kosten: Kostenlos (wenige Bilder pro Monat), ca. 8 $ / Monat für 999 Bilder (via Anbieter StableDiffusionAPI)
- URL: https://stability.ai/stablediffusion
Unser Titelbild wurde mit Stable Diffusion XL generiert. Der Prompt: "In Cyberspace a beautiful AI woman is creating texts and images, neon aesthetics". Dafür haben wir einen grafischen Bildstil ausgewählt:
DALL-E 2
DALL-E 2 ist die Bild-KI von OpenAI - dem Unternehmen hinter ChatGPT. Es liefert erstaunliche Ergebnisse, macht jedoch auch mal Fehler (z.B. 6 Finger-Problem oder unsaubere Renderings insbesondere von Gesichtern). Selbst einfache Tools sind dabei: Man kann im Bild Bereiche markieren und per Prompt ersetzen lassen (z.B. "Cola-Flasche hier einfügen")
- Anbieter: OpenAI
- Zielgruppe: Alle
- Kosten: 15 Credits kostenlos pro Monat (=ca. 15 Bilder), man kann Credit-Pakete kaufen (= ca. 10 Cent pro Bild)
- Besonderheiten: Sehr einfach nutzbar, einfache Tools zur Bildmanipulation
- URL: https://openai.com/dall-e-2
Adobe Firefly
Die generative KI "Adobe Firefly" löst Design-Aufgaben in Bildern, Videos und 3D. Sie ist in Adobes Tools integriert (z.B. Photoshop, Adobe Express und weitere). Firefly hat einen neuartigen Ansatz, der insbesondere Designer und Bild-Urhebern entgegenkommt. Denn die damit geschaffenen Werke werden ausschließlich aus Opensource-Bildern und dem gigantischen Adobe-Foto-Pool generiert. Die Herkunft des Bildmaterials lässt sich jederzeit nachvollziehen. So sollen Urheberrechte gewahrt werden können. Adobes großer Vorteil ist die Integration der KI in die ausgereiften Profi-Tools der Creative Cloud für Designer, Motion Designer, Layouter und mehr. Dadurch kann man das zu gestaltende Werk iterativ verändern und bleibt in einem Tool anstatt wechseln zu müssen. Dies wird andere Bild-KIs in den Schatten stellen.
- Anbieter: Adobe
- Zielgruppe: Unternehmen, Freelancer
- Kosten: noch keine Angabe verfügbar
- Besonderheiten: Profi-Bearbeitung von Bild/3D/Video per Prompts möglich, Sicherung der Urheberrechte bzw. AI-Weiterverwendung durch Künstler möglich ("Do not use for training"-Tag)
- URL: https://www.adobe.com/de/sensei/generative-ai/firefly.html
Beispiel: Bereich markieren, Prompt eingeben, Generate klicken
Das Ergebnis: Das Schild wurde passend zur Beleuchtung eingefügt, der Pfeil zeigt sogar korrekt zur Tür. Der Schatten fehlt allerdings, kann aber per Folge-Prompt ergänzt werden.
Man kann per Befehl ein Bild in eine ganz neue Atmosphäre übertragen und ergänzen ("Zeige die Landschaft bei Nacht. Ergänze Schnee. Füge eine Familie in Winterkleidung ein."). Auch mit 3D kann Firefly umgehen, so dass selbst Laien 3D-Modelle bearbeiten können, ohne ein komplexes 3D-Tool lernen zu müssen. Man kann sogar das Wetter und den Ton ändern, die Dichte von Regen, Nebel und Schnee anpassen, indem man es einfach per Prompt beschreibt.
Die eindrucksvollen Firefly-Produktvideos von Adobe zeigen mehr:
Video-KIs
Die Zukunft liegt auch in der KI-basierten Bearbeitung von Videos, was normalerweise eine recht zeitaufwändige Aufgabe ist. Video-KIs können ganze Video-Szenen generieren ("erstelle einen Videoflug über Hamburg, im Sonnenschein"), Videos per Prompt anpassen (z.B. "ändere das Wetter: es schneit") oder klassische Aufgaben wie Videoschnitt durchführen ("schnelle Bildwechsel").
Hier einige der wichtigsten Video-KIs:
- Adobe Firefly
- Pika
Teil C: Die beliebtesten Text- und Bild-KIs in Zahlen
Welche Text-KIs werden am häufigsten genutzt?
Um zu vergleichen, welche die beliebtesten generativen textbasierten Sprachmodelle sind, haben wir die monatlichen Google-Suchanfragen mit Google Trends herangezogen. Hier sind die Ergebnisse für Deutschland und weltweit (Stand: 08/2023). Die Charts zeigen die Suchen der letzten 12 Monate.
Deutschland
Der klare Favorit in Deutschland ist ChatGPT. Google Bard gilt als stärkster Konkurrent, ist derzeit aber noch im Beta-Stadion und damit nicht für alle Nutzer leicht erreichbar. Bing Chat wird ebenfalls stärker gesucht.
Weitere Trends sehen wir erst, wenn wir ChatGPT weglassen. Hier führt Google Bard in Deutschland. Die weiteren LLM-Anbieter werden deutlich weniger gesucht, da diese sich an Unternehmen richten.
Weltweit
Bei den Text-KIs ist weltweit das gleiche Bild erkennbar. ChatGPT ist deutlich führend.
Google Bard führt an zweiter Stelle, die anderen Anbieter werden deutlich weniger gesucht.
Welche Bild-KIs werden am häufigsten genutzt?
Dies sind die meistgenutzten Bild-KIs gemäß Google Trends (Stand: 08/2023). Die Charts zeigen die Google-Suchen der letzten 12 Monate.
Deutschland
Midjourney wird in Deutschland am stärksten genutzt. Die Nachfrage nimmt jedoch seit März 2023 ab (hier wurde die kostenlose Midjourney-Version beendet). Seitdem ist Midjourney zwar immer noch führend, doch die anderen Bild-KIs sind ähnlich häufig genutzt. Stable Diffusion gilt als stärkster Konkurrent für Midjourney.
Weltweit
In der weltweiten Nutzung der Bild-KIs ist Midjourney ebenfalls die am meisten genutzte Lösung. Adobe Firefly bekommt derzeit ebenfalls hohes Interesse und auch Stable Diffusion ist nahe dran. Die Nutzung von DALL-E 2 nimmt derzeit weltweit konstant ab.
Weitere Übersichten zu Text- und Bild-KIs
Hier findest du weitere Vergleiche der wichtigsten LLMs.
- 12 Best Large Language Models (LLMs) in 2023 - guter Überblick mit technische Infos und Benchmark-Ergebnissen
- Die 14 besten KI-Bildgeneratoren in 2023 - Vergleich vieler Bild-KIs und Tools (z.B. Nightcafe, mit dem man mehrere Bild-KIs komfortabel nutzen kann)
Ralf Schukay liebt Analytics, Python & alles mit Daten. In seiner Freizeit spielt er Synthesizer (Nord, Novation), joggt und fährt Gravel Bike. Er arbeitet als Teamlead Analytics & Conversion mit einem fitten und netten Team in der Berliner Digitalagentur >MAI mediaworx<