KI-gestützte Datenanalyse mit Python und Github Copilot

Durch AI-gestütztes Coding kann man leichter als je zuvor Daten analysieren. Wir zeigen, wie man eine interaktive Python-Analyse in Visual Studio Code mit dem Github Copilot durchführt. Mit dem komplettem Code als Download.

Wie funktioniert KI-gestütztes Coding und Data Analytics?

Anstatt seine Daten in Excel, Datenbanken oder Dashboards zu analysieren und visualisieren, kann man dies auch mit Python und anderen Programmiersprachen umsetzen. Die Lernkurve ist anfangs hoch, aber man spart auf Dauer wertvolle Zeit im Alltag. Denn hat man den Analyse-Code einmal entwickelt, kann man diesen oft leicht wiederverwenden. So führt man die gleichen Coding-Aufgaben und Analysen immer schneller durch. Zudem kann man Fehler vermeiden, die beim hin- und herkopieren in Excel oft entstehen.

Als erstes wählt man dafür eine passende Entwicklungsumgebung (IDE). Oft wird hier Visual Studio Code, Google Colab oder weitere Tools genutzt (siehe Artikel: Die beliebtesten Python-IDEs). Als Programmiersprache hat sich für Datenanalysen besonders Python bewährt. Analysen mit Python lassen sich am besten in sogenannten "Python Notebooks" umsetzen. Denn hier kann man den Code schnell in Code-Zellen ausführen lassen und Ergebnisse visualisieren und sogar dokumentieren. Denn Python Notebooks sind eine Mischung aus Code-Umgebung und Wiki.
Für die KI-Unterstützung kann man generative AI nutzen, denn diese ermöglicht es, Code zu generieren, anstatt diesen neu zu schreiben. Der Github Copilot bringt genau dies mit.

Mindmap-Übersicht: Darum gehts in diesem Artikel

Github Copilot hilft bei der Datenanalyse durch automatisches Code-erstellen, auch für Nicht-Programmierer.

 

Was ist Github Copilot?

Github Copilot ist ein AI-Tool, das Code in vielen Programmiersprachen generieren kann. Dahinter steckt eine Kooperation von GitHub mit OpenAI. Das zugrundeliegende Sprachmodell nennt sich "Codex" (technisch auf GPT-3 basiert) und wurde auf dem umfangreichen Code-Datenmengen der beliebten Github-Plattform trainiert. Github Copilot ist als Plugin für die wichtigsten IDEs verfügbar und liefert sehr gute Code-Ergebnisse, mit denen man seine Coding- und Data-Analytics-Produktivität deutlich steigern kann.

Die Vorteile von Github Copilot

  • Schneller Coden (laut Github: 55% schneller, unsere Meinung: eine 10fache Steigerung ist möglich)
  • In allen Programmiersprachen und Frameworks coden, auch wenn man diese zuvor noch nicht gelernt hat
  • Man kann Coding leichter lernen, denn man kann Copilot jederzeit Fragen zum Code stellen
  • Komplexe Datenanalysen wie Clustering, Regression oder Klassifikation nutzen, auch wenn man kein Data Scientist ist
  • Developer können Code automatisch dokumentieren lassen und Unit-Tests automatisch erstellen

In welchen IDEs ist Github Copilot nutzbar?

  • Visual Studio Code
  • Visual Studio
  • JetBrains-Suite (IntelliJ IDEA und weitere)
  • Vim
  • Neovim
  • Azure Data Studio
  • Github.com (Github Copilot Enterprise)

Was kostet Github Copilot?

  • ca. 10 € / Monat

Welche Sprachen kann Github Copilot generieren

Die Antwort ist einfach: Github Copilot kann alle Programmiersprachen coden, die auf Github verfügbar sind. Demnach also nahezu alle

  • Python
  • Java
  • PHP
  • HTML, CSS
  • Javascript, Typescript
  • Javascript-Frameworks wie React, Angular, vue.js, Svelte
  • SQL
  • Scala, Rust, Ruby, Go, ...
  • diverse weitere

 

Tutorial: Interaktive Datenanalyse mit Python und Github Copilot

In diesem Tutorial zeigen wir, wie ihr eine SEO-Analyse von Ranking-Veränderungen mit Python umsetzt. Ein kleines Highlight: Man kann sogar mit einem Dropdown interaktiv wählen, welche URL man auswerten will. Als Tools verwenden wir Visual Studio Code und den Github Copilot.

Schritte:

  1. Visual Studio Code installieren
  2. Github Copilot installieren
  3. Sistrix-Daten runterladen
  4. Python-Analyse vorbreiten (Python installieren, Datei anlegen)
  5. Python-Analyse durchführen

 

Schritt 1: Visual Studio Code installieren

Visual Studio Code ist Microsofts kostenlose Code-Lösung und weltweit die vermutlich meistgenutzte IDE. Hier könnt ihr Visual Studio Code für Windows, MacOS oder Linux herunterladen:

Visual Studio Code ist eine der beliebtesten kostenlosen IDEs zur Python-Entwicklung
Visual Studio Code ist eine der beliebtesten kostenlosen IDEs zur Python-Entwicklung

 

Schritt 2: Github Copilot installieren

Für den Github Copilot braucht ihr einen Github-Account und ein Copilot-Abo (10€/Monat)

Github-Account anlegen

Github Copilot installieren

Visual-Studio-Extensions aktivieren

  • Um den Copilot und Python generell in VS Code nutzen zu können, werden nun noch einige Extensions installiert
  • Im Menü links klickt ihr dafür auf das Extensions-Icon, sucht die Extension über die Suchfunktion und installiert per Klick.
  • Praktisch: Viele der Extensions werden euch automatisch vorgeschlagen. Klickt dann einfach im Hinweisfenster auf "Install".

  • Prüft ob der Github-Copilot aktiviert ist: Im Icon rechts unten wird nun der Copilot angezeigt

Schritt 3: Sistrix-Daten runterladen

Um SEO-Ranking-Daten zu analysieren, laden wir die Daten hier aus Sistrix herunter:

  • Keywords > Ranking Changes > Export

Schritt 4: Python-Analyse vorbereiten (Python installieren, Datei anlegen)

Python installieren

Neue Python-Datei anlegen

  • Python-Datei anlegen: Für die Analyse erstellen wir in Visual Studio Code eine neue Python-Datei, die wir "seo-analysis.ipynb" benennen. Dies kennzeichnet das Python-Notebook-Format.
  • Extensions: Wenn uns dafür noch Extensions fehlen, zeigt uns VS Code rechts unten einen Hinweis an, den wir einfach bestätigen.

Virtual Environment wählen

  • Für Python-Einsteiger der schwierigste Schritt: Python braucht eine virtuelle Umgebung ("venv"), in der man die Python-Runtime und alle notwendigen Libraries etc. installiert. Klickt oben im Menü auf "Run All" um den Code auszuführen und wählt im aufgehenden Dialog die vorgeschlagene Python-Umgebung aus.

 

Schritt 5: Python-Analyse mit Github Copilot erstellen

Jetzt haben wir alles vorbeitet und wir können die eigentliche Analyse mit Python coden.

Aufbau unseres Notebooks:

In einer Python-Notebook-Zelle bereiten wir die Daten vor, in einer weiteren Zelle zeigen wir diese an. Dazwischen setzen wir Überschriften als Markdown-Zellen. Um Überschriften fett zu machen, kann man diese mit dem "#" Zeichen + Leerzeichen markieren, also z.B. "# Step 1". Tipp: Überschriften kann man in verschiedenen Größen markieren, z.B. durch "# Headline 1", "## Headline 2", "### Headline 3" usw.

Github Copilot nutzen:

Man kann den Copilot auf mehrere Arten nutzen:

  • Im Editor: Beim coden werden automatisch Vorschläge gemacht. Mit Tab-Taste wird die vorgeschlagene Zeile übernommen. Man springt dann mit Return in die nächste Zeile, akzeptiert wieder mit Tab, bis der Code fertig ist.
  • Im Fenster: Mit STRG + I (MacOS: Command + I) kann man ein Prompt-Fenster öffnen. Hier kann man beschreiben, was man erledigt haben möchte. Z.B. "Create a tool for analysing rankings" oder "add documentation" oder weiteres. Ähnlich einem Git-Diff sieht man nun im Vergleich den generierten und den originalen Code und man kann den Code akzeptieren oder ablehnen.
  • Im Chat: In der linken schwarzen Menüleiste öffnet man den Chatbereich und kann nun mit dem Copilot chatten. Das ist praktisch, da der Chat neben dem Code angezeigt wird. 

 

Python-Code - Teil 1: Daten einlesen

Wir lassen Github Copilot den Code zum Einlesen und Bereinigen der Datei erstellen. Hier einige Anregungen für einen passenden Prompt.

read the csv file "seo-data.csv", separated by ";"

create a new column "Type" with the value "Lost" if Position#2 is NaN, "Lower" if Position#2 is higher than Position#1, "Higher" if Position#2 is lower than Position#1

set Change to difference between Position#1 and Position#2

remove entries where SearchVolume is 0

create df_result. This contains the grouped data by URL, the sum of ClicksDelta

 

Python-Code - Teil 2: Charts anzeigen

Nun lassen wir Github Copilot die Charts anzeigen. Hier wieder Anregungen für den Prompt:

Show two histograms:
1. Change histogram: Show count of keywords for by position. Bin size is 5.
2. Position histogram: Show in the same histogram how many rankings per position we have on date #1 (blue) vs. date #2 (orange). Bin size is 5.

Add a dropdown which contains all URLs. When changing the dropdown, show the chart for the selected URL.

Das Ergebnis: Interaktive SEO-Datenanalyse im Python-Notebook

Mit diesem schnell erstellten Tool kann man nun seine Daten interaktiv analysieren und Erkenntnisse gewinnen. Diese Art von Analyse wäre in Excel deutlich aufwändiger, denn man müsste hier Charts für jede der 500 URLs erstellen. Und mit wenigen Klicks lässt sich die Analyse immer wieder mit neuen Daten oder für andere Projekte durchführen. Neue Features kann man ebenfalls nun per AI-Coding-Unterstützung mit Github Copilot hinzufügen. So baut man sich sein eigenes Analysetool ganz nach Wunsch. Viel Spaß beim Coden!

Hier könnt ihr das fertige Python-Notebook und die Sistrix-Daten herunterladen:

 

 

Häufig gestellte Fragen zu Github Copilot

Dieser Absatz wurde durch generative KI auf Basis dieses Artikels erstellt

Was ist KI-gestütztes Coding und wie unterstützt es Data Analytics?

KI-gestütztes Coding, insbesondere mit Tools wie Github Copilot, ermöglicht es, Code automatisch zu generieren, wodurch Datenanalyse- und Visualisierungsaufgaben in Programmiersprachen wie Python effizienter durchgeführt werden können. Im Vergleich zu herkömmlichen Methoden wie Excel oder Dashboards spart dies langfristig Zeit und verringert Fehlerquellen.

Was ist Github Copilot und wie funktioniert es?

Github Copilot ist ein von GitHub und OpenAI entwickeltes KI-Tool, das auf dem Codex-Modell basiert und Code in vielen Programmiersprachen automatisch generieren kann. Es ist als Plugin für die wichtigsten IDEs verfügbar und steigert die Produktivität bei der Codeerstellung und Datenanalyse deutlich.

In welchen IDEs kann Github Copilot verwendet werden?

Github Copilot ist kompatibel mit Visual Studio Code, Visual Studio, der JetBrains-Suite (z.B. IntelliJ IDEA), Vim, Neovim, Azure Data Studio und Github.com (Github Copilot Enterprise).

Was kostet Github Copilot?

Die Nutzung von Github Copilot kostet etwa 10 € pro Monat.

Wie führt man eine interaktive Datenanalyse mit Python und Github Copilot durch?

Um eine interaktive Datenanalyse durchzuführen, installiert man zunächst Visual Studio Code und Github Copilot, bereitet die Datenanalyse vor (z.B. durch Herunterladen und Aufbereiten von Daten) und führt dann die Analyse mithilfe von Python-Code und der Unterstützung durch Github Copilot durch. Dies ermöglicht es, interaktive Elemente wie Dropdown-Menüs für die Datenauswahl zu integrieren und die Analyse effizient zu gestalten.

Welche Programmiersprachen kann Github Copilot generieren?

Github Copilot kann Code in nahezu allen auf Github verfügbaren Programmiersprachen generieren, einschließlich Python, Java, PHP, HTML/CSS, Javascript (und Frameworks wie React, Angular, Vue.js, Svelte), SQL, Scala, Rust, Ruby, Go und vielen weiteren.

Wie unterstützt Github Copilot das Erlernen von Coding und Datenanalyse?

Github Copilot erleichtert das Erlernen von Coding und Datenanalyse, indem es nicht nur Code generiert, sondern auch als interaktives Lernwerkzeug dient. Nutzer können direkt im Coding-Prozess Fragen zum Code stellen und erhalten Unterstützung bei der Implementierung komplexer Datenanalysen und der automatischen Dokumentation ihres Codes.