Rohdaten-Reporting: GA4-Daten mit BigQuery und Dataform aufbereiten

Ein GA4-Reporting auf Rohdaten-Basis macht das Marketing-Reporting deutlich akkurater und flexibel modellierbar. In diesem Tutorial zeigen wir, wie man GA4-Daten mit Dataform in Google BigQuery aufbereitet.

Vorteile von GA4-Rohdaten-Reporting mit BigQuery

Einer der größten Vorteile von GA4 ist die Möglichkeit, alle Daten täglich in Google BigQuery zu spiegeln. So hat man Zugriff auf Rohdaten, die man mit anderen Marketing- und Sales-Daten verknüpfen kann. Zudem umgeht man das leidige Quota-Problem, denn Google limitiert die Zugriffe auf GA4 auch bei teuren GA360-Accounts, so dass bei vielen Datenabrufen nur eine Quota-Fehlermeldung statt des Reports angezeigt wird. Google empfiehlt darum, direkt mit Rohdaten zu arbeiten.

Vorteile im Überblick:

  • Datenhoheit: Man besitzt die GA4-Tracking-Daten und ist damit unabhängiger vom Tracking-Tool-Anbieter
  • Datenverknüpfung ermöglichen: GA4-Rohdaten können mit anderen Daten verknüpft werden (z.B. Vertriebs-Daten aus Salesforce, Oracle, Hubspot)
  • Daten selber modellieren: Wer eigene KPIs, Metriken und Dimensionen braucht, kann seine Daten selbst definieren
  • Daten anpassen: Man kann Daten per SQL nachträglich verändern, z.B. um Tracking-Ausfälle durch Mittelwerte oder aus anderen Systemen aufzufüllen und damit das Reporting genau zu halten
  • Quota-Problem lösen: Rohdaten-Reporting vermeidet Quota-Warnungen
  • KI-Nutzung: Die Rohdaten lassen sich direkt mit KI-Modellen analysieren. In der Google Cloud Platform stehen mit VertexAI zahlreiche Modelle vom Forecast, Clustering, Predition-Modelle sowie Highend-LLMs wie Gemini, Claude und weitere zur Verfügung.

 

Ergebnis dieses Tutorials: Rohdaten-Report

So wird das fertige Rohdaten-Reporting mit GA4-Daten aus BigQuery aussehen.

Ergebnis: Looker-Studio Report mit transformierten GA4-Rohdaten aus BigQuery
Ergebnis: Looker-Studio Report mit transformierten GA4-Rohdaten aus BigQuery

 

Problem: GA4-Daten in BigQuery müssen für das Reporting aufbereitet werden

Wer seine GA4-Daten in BigQuery exportiert vorliegen hat, steht vor der Herausforderung, dass man die Metriken und Dimensionen nicht einfach so reporten kann. Viele Dimensionen und Metriken liegen im Rohdatenformat vor und müssen erst definiert und erstellt werden, z.B. Sessions, User, Channels und viele weitere.

Die besten kostenlosen AI-Tools

Die besten kostenlosen KI-Tools
Alle KI-Tools ansehen

Zwar ist Googles Rohdatenformat schön kompakt und effizient modelliert (Tabular-Datenformat mit eigener Datentabelle pro Tag, „nested“ Datenfelder, d.h. Felder innerhalb eines Datenfelds). Das hat den Vorteil, dass man massive Datenmengen in BigQuery schnell abfragen kann. Dafür gibt es auch einen Looker-Studio-Konnektor. Doch jeder Abruf verursacht Kosten in BigQuery. Besonders große Unternehmens-Websites mit vielen Aufrufen müssen so zusätzliche Kosten für das Reporting einplanen, da man in BigQuery nicht nur nach abgerufenen Datenfeldern zahlt (z.B. SELECT pageviews FROM events) sondern nach allen dafür auszuwertenden Daten, d.h. alle Datenfelder der Tabellen.

GA4-Daten in BigQuery im Rohformat
GA4-Daten in BigQuery im Rohformat: Effizient aber für viele SQL-Anwender schwierig nutzbar

 

Was ist BigQuery Dataform?

Dataform ist ein in Google BigQuery integriertes Framework für die strukturierte Datentransformationen. Es ermöglicht, seine Daten mit SQL umzuformen auch wenn zahlreiche, komplexe und verschachtelte Transformationen umgesetzt werden müssen, wie z.B. Metriken und Dimensionen erstellen.

Vorteile:

  • Daten strukturiert transformieren, zusammenführen, modellieren
  • Immer höher werdende Verbreitung, Alternative zu dbt
  • kostenlos

Google Dataform Documentation | Dataform in BigQuery aufrufen

Was ist GA4 Dataform?

Besonders emfehlenswert ist es, hier auf ein weiteres Framework namens GA4Dataform rund um das Team von Superform Labs aufzusetzen (VIELEN DANK!!!). Darauf hat die Analytics- und BI-Szene gewartet! Die als OpenSource bereitgestellte Lösung nutzt Google Dataform, um typische GA4-Transformationen umzusetzen.

GA4Dataform transformiert GA4-Daten kostenlos

GA4Dataform liefert nach der Installation eine fertig definierte, reportbare GA-Session- und GA4-Event-Tabelle mit allen gewünschten Metriken und Dimensionen, die sich jeden Tag selbst aktualisiert. Der Installer macht das Einrichten kinderleicht. Statt wochenlanger Development-Arbeit in SQLs mit vielen möglichen Fehlerquellen nutzt man einfach die jeweils neueste Version von GA4Dataform.

Vorteile:

  • Aufwand und Kosten bei der Datentransformation sparen
  • Laufende Kosten beim Reporting sparen (inkrementeller Datenabruf, einfache Erweiterbarkeit)
  • kostenlos, OpenSource

GA4Dataform

Tutorial: GA4-Rohdaten mit Dataform in BigQuery aufbereiten und in Looker Studio reporten

Installation von GA4Dataform

Als Voraussetzung braucht man einen in GA4 eingerichteten BigQuery-Export und Rechte in BigQuery. Nach Eingabe der Email-Adresse, die man für den BigQuery-Account verwendet hat, bekommt man eine kostenlose Lizenz mit Key. Im Installer loggt man sich mit dem Google-Account in BigQuery ein und startet die Installation.

Schritt 1: Installation von GA4Dataform starten

Installation von GA4Dataform, Schritt 1
Installation von GA4Dataform, Schritt 1

 

Schritt 2: Historische Daten verarbeiten und täglichen Dataform-Run einrichten

Installation von GA4Dataform, Schritt 2
Installation von GA4Dataform, Schritt 2

 

Schritt 3: Fertig: Alle Dataform-Transformationen sind eingerichtet und die Tabellen werden erstellt 

Installation von GA4Dataform, Schritt 3
Installation von GA4Dataform, Schritt 3

Ergebnis: Eingerichtete Dataform-Pipeline für GA4-Daten

Die dank GA4Dataform perfekt modellierte und strukturierte Dataform-Pipeline macht es einfach, mit den Daten zu arbeiten und eigene Modellierungen zu ergänzen, z.B. für eigene Metriken oder Datenkorrekturen (z.B. Trackingausfälle per SQL ausgleichen, Daten hochrechnen, Netto-Margen aus Warenwirtschaftssystem ergänzen und mehr).

Dataform nutzt dafür einige Strukturierungsmöglichkeiten:

  • Github-Integration: Alle Transformationen sind in einem Github-Repo gespeichert.
  • Definitions: Man legt eigene SQL-Snippets an, die man in anderen SQL-Abrufen nutzen kann. Als Format wird hier ein erweitertes sqlx-Format genutzt, damit man Config und SQL-Definition in der gleichen Datei ablegen und includes nutzen kann
  • Assertions: Man kann Daten-Checks anlegen, die prüfen, ob Daten plausibel sind, z.B. Anfangs/End-Datum einer Session, defekte Werte (z.B. Bouncerates über 100% etc.)
  • Incremental Transformations: Die Daten können inkrementell ergänzt werden, also nur benötigte Daten werden ergänzt, was Kosten und Rechenpower spart.
BigQuery Dataform-SQL-Code für GA4-Event-Daten
BigQuery Dataform-SQL-Code für GA4-Event-Daten

 

Die Pipeline lässt sich übersichtlich als Graph anzeigen, damit man sieht, welche Transformationen auf welchen Definitions aufbauen

Die Dataform-Transformationen können als Graph angezeigt werden
Die Dataform-Transformationen können als Graph angezeigt werden

Ergebnis: Aufbereitete Rohdaten in BigQuery

Die Daten werden nun durch Dataform täglich in BigQuery transformiert abgelegt. Dazu zählen:

  • Session-Tabelle
  • Event-Tabelle
  • Transactions-Tabelle

Diese Daten liegen „flach“ vor statt verschachtelt („nested“) wie im Original-Google-Format in BigQuery. Dies ist deutlich einfacher nutzbar im Reporting.

Die GA4-Sessions-Tabelle nach der Transformation durch Dataform
Die GA4-Sessions-Tabelle nach der Transformation durch Dataform

 

Daten der Events-Tabelle als Schema

Praktisch: Alle Event-Parameter liegen flach in einzelnen Feldern vor. Wer eine gute Tracking-Dokumentation gepflegt hat, kann so leicht nachschlagen, welches Events welche Felder hat und damit ein Reporting erstellen.

Schema der neuen GA4-Events-Tabelle, nach Dataform-Transformation
Schema der neuen GA4-Events-Tabelle, nach Dataform-Transformation

 

Daten der Sessions-Tabelle als Schema

Auch die Sessions lassen sich endlich wieder einfach ansehen. Jede Session hat alle für die Analyse notwendigen Felder, wie Start/End-Timestamp, Session-Dauer, User-ID, Quelle nach Attibutionsmodell (First/Last), Device und viele weitere Felder.

Schema der neuen GA4-Sessions-Tabelle, nach Dataform-Transformation
Schema der neuen GA4-Sessions-Tabelle, nach Dataform-Transformation

Ergebnis: GA4-Rohdaten-Reporting in Looker Studio

Die aufbereiteten GA4-Daten können mit Looker Studio, Power BI, QlikSense oder weiteren BI-Lösungen reported werden.

Wir erstellen nun schnell ein Reporting direkt aus BigQuery. Dafür wählt man einfach den entsprechenden Menüeintrag für „Looker-Studio“.

Looker-Studio-Report per Klick direkt aus BigQuery erstellen
Looker-Studio-Report per Klick direkt aus BigQuery erstellen

 

Ergebnis: Fertiger GA4-Rohdaten-Report in Looker Studio

In Looker Studio kann man seinen Report noch etwas einrichten und hat nun schnell nützliche, filterbare Charts und Tabellen auf Rohdatenbasis erstellt.

Ergebnis: Looker-Studio Report mit transformierten GA4-Rohdaten aus BigQuery
Ergebnis: Looker-Studio Report mit transformierten GA4-Rohdaten aus BigQuery

 

Werbung

Rechtlicher Hinweis: Diese Website setzt Affiliate-Links zum Amazon-Partnerprogramm ein. Der Betreiber der Website verdient durch qualifizierte Käufe eine Provision. Dadurch finanzieren wir die Kosten dieser Website, wie z.B. für Server-Hosting und weitere Ausgaben.

Fazit: Professionelles GA4-Rohdaten-Reporting mit Dataform

Ein effizientes GA4-Rohdaten-Reporting ist dank der großartigen OpenSource-Lösung GA4Dataform deutlich einfacher möglich als je zuvor. Statt wochenlanger SQL-Erstellung mit zahlreichen Fehlermöglichkeiten bei der Metrik-Definition kann ein Reporting nun bereits in kurzer Zeit erstellt werden.

GA4-Rohdaten lassen sich für Advanced Marketing-Analysen wie ein 360-Grad-Reporting vom Marketing bis zum Vertrieb nutzen, so dass man z.B. seine Marketing-Kampagnen mit Offline-Conversions (z.B. nach Vertriebs-Calls) verbinden kann und so versteht, welche Kampagne wirklich Conversions gebracht hat.