Datenanalyse mit ChatGPT (Update Mai 2024)

Mit ChatGPT kann man leicht Daten analysieren und mit Charts visualisieren. Seit GPT-4o und dem OpenAI-Update in 05/2024 kann ChatGPT interaktive Charts erstellen und mehr. Hier ist unser Step-by-Step-Tuturial, mit Video und allen Prompts zum nachmachen.

Update:

 

Vorteile der KI-basierten Datenanalyse mit ChatGPT

Datenanalyse ist enorm wichtig, da damit bessere, datengestützte Entscheidungen im Firmenalltag möglich werden. Eine generative KI wie ChatGPT bietet einen denkbar einfachen Zugang zu den Daten, da man seine Fragen einfach per Chat stellen kann, anstatt wie zuvor in der Datenanalyse üblich per Python oder SQL oder durch Dashboard-Erstellung mit Power BI oder Looker Studio. Die wichtigsten Vorteile der KI-gestützten Datenanalyse sind:

  • Daten-Demokratisierung: Datenanalyse ist für (fast) alle möglich. Man spart den Weg über schwer verfügbare Spezialisten und Infrastruktur.
  • Automatisierung: Datenanalysten werden in ihren Routineaufgaben unterstützt und können ihr Wissen in komplexeren Probleme einbringen.
  • Höhere Genauigkeit: Datenanalyse per LLM kann menschliche Fehler in der Datenanalyse minimieren
  • Echtzeit-Analyse: Sofortige Auswertung und Reaktion auf Datenänderungen, ohne dass man auf Spezialisten warten muss.

Man muss beim KI-Einsatz im hochprofessionellen Fachgebiet der Datenanalyse jedoch vorsichtig vorgehen. Denn KI-Halluzinationen und Interpretationsfehler müssen zuverlässig erkannt werden, damit es nicht zu Fehlentscheidungen im Business kommt. Dies stellen Datenanalysten normalerweise durch ständiges Überprüfen, Erklären der Ergebnisse und Support bei der weiteren Datennutzung sicher.

Step-by-step Tutorial: Datenanalyse mit ChatGPT

Von der Datenauswahl bis zur Visualisierung zeigen wir hier schrittweise das Vorgehen zur professionellen Datenanalyse.

Übersicht der Schritte:

  1. Daten auswählen und aufbereiten
  2. Daten verstehen: Data Dictionary
  3. Datenanalyse mit ChatGPT

 

Schritt 1: Daten auswählen und aufbereiten

Wer Firmendaten analysieren will, kann seine IT-Abteilung um einen Export z.B. des Shopsystems bitten ("Transaktionsdaten") oder eine Kundendatenbank anfordern (anonymisiert, damit keine personenbezogenen Daten rausgegeben werden). Oft müssen solche Daten mühsam aufbereitet werden, z.B. bei defekten, fehlenden oder falschen Daten. Denn diese werden zu a) Fehlern in der Analyse oder - noch schlimmer b) falschen Ergebnissen führen. Falsche Ergebnisse lassen sich nicht leicht erkennen, darum sollte man sie gleich in der Datenaufbereitung ausschließen.

Kaggle-Datenset zu Hotelbuchungen (Datenansicht)
Kaggle-Datenset zu Hotelbuchungen (Datenansicht)

Wer private Daten analysieren will, kann auch ein Haushaltsbuch aus seinen Online-Banking-Daten erstellen. Dazu einfach die Daten exportieren, sensible Daten in Excel entfernen und als CSV oder Excel speichern.

Wer keine eigenen Daten hat, findet auf der Datenplattform Kaggle.com zahlreiche gut dokumentierte kostenlose, professionelle Datensets aller Branchen, z.B. Wetterdaten, Buchungen, Finanztransaktionen, Shop-Daten und vieles mehr. So kann man leicht ausprobieren, was möglich ist, und dies später mit eigenen Daten wiederholen. DIe Kaggle-Dokumentation erklärt dabei jedes Feld genau, so dass man die Daten leichter interpretieren kann. Diese Meta-Daten helfen besonders dem LLM bei der Analyse, denn so kann man seine Fragen in natürlicher Sprache stellen und ChatGPT kann die entsprechenden Felder und Werte eigenständig raussuchen.

Für die Analyse in ChatGPT eignet sich ein Datenset im Excel- oder CSV-Format. Man kann die Daten im zip-Format hochladen, um mehr Daten analysieren zu können und Zeit zu sparen.

Unser Beispiel: Kaggle-Datenset zu Hotelbuchungen

Kaggle-Datenset zu Hotelbuchungen (Metadaten)
Kaggle-Datenset zu Hotelbuchungen (Metadaten)

Wir wählen ein Hotelbuchungs-Datenset von Kaggle als Beispiel. Die Daten umfassen Hotelbuchungen und Stornierungen aus dem Jahr 2015-2017 für zwei Hotels: ein City-Hotel und ein Holiday-Resort. Der Datensatz umfasst 120.000 Vorgänge. Jeder Vorgang hat dabei 36 Eigenschaften. Damit haben wir schon eine recht große Datei, die man nicht mehr leicht in Excel auswerten kann. Dies ist jedoch kein Problem für ChatGPTs Datenanalyse-Funktionalität.

Download: Hotel-Dataset bei Kaggle.com

 

Schritt 2: Daten verstehen - Ein Data Dictionary erstellen

Um die Daten zu verstehen, hilft oft ein "Data Dictionary". Ein Data Dictionary ist eine Übersicht des Datensatzes, das z.B. alle Felder und ihre Bedeutung enthält. Das Dictionary verbessert die Qualität der KI-basierten Datenanalyse deutlich, da das LLM damit die Bedeutung der Daten kennt und alle Nutzerfragen einfach übersetzen kann. Das Data Dictionary ist besonders hilfreich, wenn es viele Felder oder nicht selbsterklärende Feldwerte gibt.

Prompt: Data Dictionary erstellen
Da wir ein gut dokumentiertes Kaggle-Dataset nutzen, extrahieren wir die Feldbeschreibungen einfach von der Website mit diesem Prompt.

Create a data dictionary for this dataset and show as table.
Dataset: https://www.kaggle.com/datasets/mojtaba142/hotel-booking
Beispiel: Einfaches Data Dictionary des Datensets zu Hotelbuchungen im Format: Feldname, semantische Bedeutung des Felds und der Werte
Beispiel: Einfaches Data Dictionary des Datensets zu Hotelbuchungen im Format: Feldname, semantische Bedeutung des Felds und der Werte

Tipps zum Data Dictionary

  • Aufbau: Der Aufbau sollte den genauen Feldnamen, die Beschreibung des Feldes und der Werte sowie optional noch den Datentyp beinhalten. Beispiel: is_cancelled; boolean; describes if the booking was cancelled (1) or not (0)
  • Fehlende Werte kennzeichnen: Wenn Daten fehlen, sollte dies im Dictionary klar gemacht werden, damit die Daten richtig interpretiert werden bzw. automatisch ausgeklammert werden können (z.B. "Data for field "is_cancelled are missing or wrong between January to March 2024"). Dies kann in einer Kommentarspalte am Feld erfolgen oder generell vermerkt werden.
  • Data Dictionary per KI erstellen: Mit ChatGPT kann man versuchen, sich ein Data Dictionary aus den Daten erstellen zu lassen. Dieses muss man jedoch unbedingt überprüfen, da einige Feldwerte unklar sein können (z.B. Warenkategorie "WK10", "WK20" etc.)
  • Data Dictionary speichern: Speichert euch das Data Dictionary am besten als strukturierte CSV- oder Excel-Datei. So könnt ihr dieses jederzeit ansehen und vor allem leicht mit in die KI-Analyse einbringen, indem ihr die Dictionary-Datei in ChatGPT mit dem Prompt hochladet.

 

Schritt 3: Datenanalyse mit ChatGPT

Jetzt geben wir das Datenset und Data Dictionary an ChatGPT zur Analyse. Wenn man im Prompt genügend inhaltlichen Kontext zu den Daten mitgibt (z.B. "Datenset zu Hotelbuchungen"), kann die KI sogar selbstständig die wichtigsten Analysen vorschlagen und durchführen. Vorteil: Dies spart enorm viel Zeit und man muss keinen Data-Spezi befragen, was denn alles möglich ist.

Prompt: Datenanalyse in ChatGPT

Act as a skilled data analyst. Here is a Kaggle dataset on hotel bookings.
Your task is to analyse the data and show some first trends in charts.

 

Ergebnis: ChatGPT zeigt die Datenstruktur und vorgeschlagene Analysen

Automatisch von ChatGPT ermittelte Analysen für das Datenset
Automatisch von ChatGPT ermittelte Analysen für das Datenset

 

Tipps zum Prompting:

  • Kontext verbessert das Ergebnis: Je mehr Kontext man der KI gibt, desto hilfreicher kann das Ergebnis sein. Hier muss man einen guten Mittelweg zwischen Direktheit der Aufgabe und Kontext finden, damit die Aufgabe zielgerichtet vom LLM gelöst wird.
  • Chain of Thought-Technik nutzen: Wer komplexere, umfassendere Analysen plant, sollte diese nacheinander ausführen oder sich zunächst einen Analyseplan erstellen lassen, denn sonst kommt die KI oft zu vorschnellen unsaubereren Ergebnissen. Nutzt dazu die Technik "Chain of Thought". Beispiel: "Analyze the users, behaviour, trends and more. Think on this step by step." Dieser einfach Satz führt dazu, dass ChatGPT sich zunächst einen Plan erstellt, und diesen (meist) schrittweise abarbeitet.

 

Schritt 4: Interaktive Ecommerce-Datenanalyse mit ChatGPT

Zu den wichtigsten Analysen im Hotel-Beispiel und Ecommerce zählt die Stornierungs-Quote (Cancellation Rate) und die Buchungen nach Monat. Diese stellt ChatGPT interaktiv da. Man kann darüber hovern um den genauen Wert der Daten zu sehen (z.B. 42.123 Stornierungen). Zudem kann man die Daten zoomen, durch die Charts klicken und Folgefragen stellen.

Ergebnis der Datenanalyse mit ChatGPT: Hotel-Stornierungen und Buchungen nach Monat
Ergebnis der Datenanalyse mit ChatGPT: Hotel-Stornierungen und Buchungen nach Monat

 

Interessant ist oft, wie weit im Voraus die Nutzer ein Hotel buchen (Lead Time Distribution), damit man sein Marketing und die Verfügbarkeitsplanung darauf einstellen kann und auch Unterschiede im Buchungsverhalten ermitteln kann. Das kann Hinweise über Zusammenhänge geben, z.B. wie Messeveranstaltungen die Hotelbuchungen beeinflussen und weiteres. Auch die Analyse bestimmter Marktsegmente der Nutzer oder z.B. Hotel-Zimmertypen (Business-Suite, 2-Bett oder Familienzimmer) hilft, die Nutzernachfrage besser zu verstehen.

Ergebnis der Datenanalyse mit ChatGPT: Wieviel Vorlauf bis zur Hotelbuchung (Lead Time) und Marktsegmente
Ergebnis der Datenanalyse mit ChatGPT: Wieviel Vorlauf bis zur Hotelbuchung (Lead Time) und Marktsegmente

 

Video: Interaktive Datenanalyse mit ChatGPT

Folgendes Video zeigt, wie man mit ChatGPTs neuen Features im Modell GPT-4o einfach durch alle Analysen klicken kann. Das macht die Datenanalyse deutlich einfacher. So kommt man schneller zu spannenden Insights.

 

 

Tipps zur Datenanalyse

  • Einfach starten mit Charts: Datenanalysen müssen nicht komplex sein. Einfache Charts der richtigen 2-3 Dimensionen und Metriken geben bereits wertvolle Erkenntnisse. Beispiel: Buchungen pro Monat, im Vergleich von 2022 zu 2023 und 2024
  • Korrelieren: Indem ihr den Verlauf zweier Metriken übereinander legt, könnt ihr Korrelationen ermitteln. Beispiel: Hotelbuchungen vs. Regentage pro Monat. Aber: Korrelation ist nicht Kausalität. D.h. dass es nicht immer auch einen direkten Zusammenhang gibt, auch wenn es auf den ersten Blick danach aussieht. 
  • Segmentieren, segmentieren, segmentieren: Wichtige Erkenntnisse sind oft verborgen. Man findet diese, indem man Teile der Daten untersucht ("segmentiert"). Beispiel: Stornierungen Business-Klasse vs. Economy-Klasse.
  • Data Storytelling: Daten sprechen nicht für sich. Erklärt die Insights  in einer Powerpoint-Präsentation schrittweise. Tipp: Die Überschrift sollte die Erkenntnis klar benennen, z.B. "Stornierungen nehmen seit 2023 zu", anstatt allgemeine Headlines wie "Analyse Trends" etc. zu verwenden. Nutzt grüne und rote Sprechblasen um auf Potenziale oder Probleme hinzuweisen.

Weitere Quellen zur KI-basierten Datenanalyse