Google Gemini mit Vertex AI nutzen – Text- und Bilderkennung leicht gemacht

Dieser Artikel bietet einen kurzen Einblick zu Google Gemini und erklärt, wie man KI-Modelle mit Googles KI-Suite "Vertex AI" erkunden und professionell nutzen kann.

Google Gemini - Die multimodale generative KI für Sprache, Text und Bild

Google Gemini wurde in 12/2023 veröffentlich und stellt Googles Antwort auf das mächtige GPT-Modell von OpenAI dar. Man kann Google Gemini in der KI-Plattform Vertex AI professionell für eigene Anwendungen nutzen. Zudem ist Google Gemini die neue Basis für den öffentlichen Chatbot Google Bard. 

Was kann Google Gemini?

Als multimodales generatives KI-Modell kann Google Gemini vielfältige Eingabe- und Ausgabeformate verbinden. Dazu zählen Text, Bild, Video und Sprache. Derzeit wird in zahlreichen Benchmarks die Leistung von Gemini mit OpenAIs ChatGPT verglichen und ständig optimiert. Die verfügbaren Demonstrations-Videos sind beeindruckend und machen erkennbar, dass Gemini die KI-Welt deutlich voranbringt. Weiter unten folgt ein Showcase, der zeigt, wie Gemini mit komplexen Bildbasierten Aufgaben umgehen kann. Zum direkten ausprobieren braucht ihr dafür nur einen Account für die Google Cloud Platform (kostenlos möglich).

Wie kann man Google Gemini nutzen?

Gemini ist Googles Flagschiff-KI im generativen Bereich. Jedoch legt Google ein deutlich langsameres Tempo hin, die KI auf für die Allgemeinheit zur Verfügung zu stellen. Im Europaraum kommt noch dazu, dass der europäische Datenschutz den Rollout deutlich bremst. Doch Google wird Gemini in 2024 in zahlreichen Orten ausrollen.

  • Gemini in Google Bard: Google Bard ist der öffentliche Chatbot von Google. Das bisherige-KI-Modell heisst PaLM2, wird jedoch durch Gemini abgelöst. Bard muss man derzeit noch als "Google Experiment" freischalten.
  • Gemini in Google Cloud Platform: In der GCP kann man über die KI-Suite "Vertex AI" auf Gemini zugreifen. Da man dafür einen GCP-Zugang braucht ist dieser Weg eher für Developer geeignet. Es gibt Google Gemini hier in mehreren Versionen: Gemini Ultra, Gemini Pro, Gemini Nano
  • Gemini in Google AI Studio:  Google bietet mit dem "Google AI Studio" einen einfacheren Weg bereit, Gemini auszuprobieren, ohne dass man einen GCP-Zugang braucht. Dies geht derzeit in diesen Ländern.
  • Gemini in der Google Suche: Die Integration von Gemini in die Google-Suche wird das große Ziel von Google sein.

Vertex AI stellt Google Gemini und viele weitere KI-Modelle bereit

Vertex AI ist Googles umfassende, cloudbasierte KI-Plattform. Man erreicht diese über die Google Cloud Platform:

Die umfangreiche KI-Plattform Vertex AI enthält eine komplette Tool-Landschaft zum Nutzen und Trainieren eigener KI-Modelle. Dazu zählt der umfangreiche "Model Garden", der über 100 verschiedene KI-Modelle von Google sowie anderen Anbietern sowie Open-Source-Modelle enthält. In Vertex AI kann man diese Modelle ausprobieren, anpassen und per Code in eigene Anwendungen einbinden. Die Modelle können zum Teil durch Fine-Tuning noch weiter auf eigene Anwendungsfälle trainiert werden, wofür man die skalierende Hardware der Google Cloud Platform nutzen kann.

Überblick: Vertex AI ist ein Teil der Google Cloud Platform. Die KI-Plattform stellt KI-Modelle bereit, die man anpassen und leicht in eigene Anwendungen integrieren kann.
Überblick: Vertex AI ist ein Teil der Google Cloud Platform. Die KI-Plattform stellt KI-Modelle bereit, die man anpassen und leicht in eigene Anwendungen integrieren kann.

Einen guten Überblick über Vertex AI gibt Googles Dokumentation:

 

Übersicht: Welche KI-Modelle gibt es in Google Vertex AI?

Diese Liste stellt nur eine kleine Auswahl aus dem Model Garden von Vertex AI vor. Es sind noch viele weitere Modelle verfügbar.

  • Gemini Pro: Best performing Gemini model with features for a wide range of tasks.
  • Gemini Pro Vision: Multimodal model designed for text, images, and videos across a wide range of tasks.
  • PaLM 2 Text Bison: Fine-tuned for natural language tasks such as classification, extraction, summarization, and content generation.
  • PaLM 2 Chat Bison: Designed for conducting natural conversations, suitable for chatbot applications.
  • Llama 2: Model from Meta for fine-tuning and deployment on Vertex AI.
  • Imagen for Image Generation and Editing: Specialized in generative AI for vision.
  • Chirp: A Universal Speech Model transcribing in over 100 languages.
  • Codey: Includes models for code completion, code generation, and code-related assistance.
  • Code Llama: Large language models for coding, offering state-of-the-art performance and zero-shot instruction following for programming tasks.
  • Falcon-instruct (PEFT): Model for fine-tuning and deploying with PEFT.
  • Stable Diffusion: Text-to-image diffusion models.
  • Stable Diffusion XL: Generates high fidelity images from text.
  • BERT: Neural network-based NLP technique for creating question answering systems and more.
  • BLIP2: Used for image captioning and visual-question-answering tasks.
  • T5-FLAN: T5 model with T5-FLAN checkpoint.
  • Dolly-v2-7b: Instruction-following large language model.
  • OpenLLaMA (PEFT): Fine-tune and deploy with PEFT.
  • Mistral-7B: Engineered for superior performance and efficiency.
  • BioGPT: Domain-specific language model pre-trained on biomedical literature.
  • Vicuna: Chat assistant trained on user-shared conversations.

 

So kann man Google Gemini in Vertex AI nutzen

Man muss kein Cloud-Profi sein, um folgende Schritte auszuführen. Jedoch ist die Google Cloud Platform (GCP) eher unübersichtlich durch die Vielfalt der dort verfügbaren Tools, so dass man etwas aufpassen muss.

Im Folgenden testen wir Gemini mit folgenden Aufgaben:

  • Aufgabe 1 (Text-Modell): Deutschlands Kanzler der letzten 50 Jahre auflisten
  • Aufgabe 2 (Multimodal-Modell): Bilderkennung, Preise berechnen

 

Schritt 1: Google Cloud Platform aufrufen

Zunächst ruft man die GCP auf und registriert sich, wofür man ein Zahlmittel angeben muss (Kreditkarte, Paypal). Bei Nutzung der Google-Cloud-Produkte entstehen normalerweise Kosten, jedoch bekommt man als Einsteiger einen 300$-Gutschein. Auch wer diesen schon aufgebraucht hat, muss für folgende Schritte nur geringe Kosten unter 1€ zahlen. Worauf man achten sollte: Löscht eure Modelle und Notebooks nachdem ihr getestet habt, damit ihr keine laufenden Kosten zahlen müsst.

https://cloud.google.com

Schritt 2: Vertex AI aufrufen und APIs aktivieren

Um Vertex AI erstmals nutzen zu können, ist es in der Google Cloud Platform aus Sicherheitsgründen notwendig, dafür notwendige APIs zu aktivieren. Dies geht ganz einfach per Klick und Google hat einen Wizard dafür eingerichtet, bei dem ihr per Klick alle APIs aktivieren könnt. Folgt dafür einfach der Aufforderung beim erstmaligen Aufruf von Vertex AI.

Schritt 3: Vertex AI Studio aufrufen

In Vertex AI navigiert man zum Vertex AI Studio. Dort kann man KI-Modelle ohne Code-Erfahrung einfach ausprobieren. Hier habt ihr die Wahl zwischen "Multimodal" (kombinierte KI-Modelle wie Gemini), "Language" (textbasierte Sprachmodelle), "Vision" (Bild), "Speech" (Sprache). Wählt zunächst "Language". Auf der Übersicht könnt ihr einen neuen Prompt erstellen, bestehende Prompts wiederverwenden und weitere Trainings anstoßen.

Nun probieren wir nacheinander Geminis Text- und Multimodal-Fähigkeiten aus.

 

Aufgabe 1: Google Gemini mit Text-Prompt ("Fragen beantworten")

  • Klickt unter "Generate Text" auf "Text Prompt" um der KI eine einfache Frage/Antwort-Aufgabe zu geben (ein sog. "Completion"-Task).

Einstellungen:

  • Model: Gemini Pro
  • Region: Hier wählt ihr den gewünschten Server-Standort. Achtung: Datenschutz: Bitte beachtet, dass eure Daten damit an Server in dem entsprechenden Land gesendet werden. Derzeit sind noch keine europäischen Standorte verfügbar.
  • Temperature: Dieser Parameter steuert die Kreativität des Modells. Je höher die Temperature, desto freier kann die Antwort ausfallen. Wählt 0, wenn ihr eher Fakten ohne Verzierungen oder Freiräume haben wollt. Hinweis: Dies schützt nicht vor Halluzinationen des Modells!
  • Token Limit: Wenn ihr längere Eingaben und Ausgaben wünscht, könnt ihr den Wert erhöhen. Viele lange Texte kosten mehr Rechen-Power und damit auch Kosten.
  • Prompt: Gebt den Prompt ein, Beispiel: "List all chancellors (Kanzler) in Germany in the last 50 years." und klickt auf "Submit"

Ergebnis:

Google Gemini listet korrekt die deutschen Kanzler auf, sogar inklusive der jeweiligen Amtszeit.

Aufgabe 2: Google Gemini mit Multimodal-Prompt ("Bilder verstehen")

  • Klickt unter "Multimodal" auf einen gewünschten Sample Prompt, um das Beispiel auszuprobieren.
  • Wir testen hier den komplexeren KI-Usecase "Image question answering"
  • Weitere Möglichkeiten: Gemini kann aus Videos oder Bildern Anzeigen-Überschriften oder Beschreibungen generieren. Oder spannend für Developer: Fragen zu hochgeladenen Bildern beantworten und im JSON-Format zurückgeben, so dass man diese direkt in Code verwenden kann.

Einstellungen:

  • Wählt Model, Region, Temperature wie zuvor
  • Übernehmt den Prompt oder passt ihn nach Wunsch an
  • Klickt auf "Submit"

Ergebnis:

Das Ergebnis ist wirklich erstaunlich. Gemini gibt korrekt den Preis der Paranüsse zurück und rechnet von 250g auf 1kg um. Das Modell hat also folgende Schritte eigenständig erfolgreich umgesetzt:

  • Erkennen, dass uns die Paranüsse aus Bild 1 interessieren
  • diese in Bild 2 wiedererkennen,
  • den Preis und Mengenangabe aus dem Bild extrahieren,
  • die Sprache von Spanisch zu Englisch übersetzen
  • Mengen und Preise umrechnen

Hier nochmal der Prompt und die Bilder dieses beeindruckenden Beispiels für Geminis Fähigkeiten.

Prompt "What is the price of this for a kilogram?"
Bild 1
Bild 2

 

Code-Beispiel: Einbinden von Google Gemini in eigene Anwendungen

Praktisch: Google stellt Code zum Einbinden des Modells per Klick im Studio in vielen Sprachen inkl. Python oder Java direkt bereit ("Get Code", oben rechts). Wer dies schnell austesten will, kann sich dazu ein Enterprise Colab in der GCP erstellen (also ein Jupyter Notebook in der Google-Cloud) und den Code dort direkt einbinden und ausführen. Klickt dazu einfach auf "Open in Notebook".

Achtung: Wer eine Anwendung ausserhalb der GCP erstellt, muss dafür in Vertex AI zunächst noch einen Endpoint erstellen und freigeben und diesen dann im eigenen Code authentifizieren und abrufen. Hier der Python-Code zum Installieren der Vertex-AI-Library und für den Aufruf von Gemini.

Installieren der Library mit pip:

!pip install --upgrade google-cloud-aiplatform

 

Python-Code zur Abfrage von Google Gemini:

import vertexai
from vertexai.preview.generative_models import GenerativeModel, Part

def generate():

  model = GenerativeModel("gemini-pro")
  responses = model.generate_content(
    """List all chancellors (\"Kanzler\") in Germany of the last 50 years.""",
    generation_config={
      "max_output_tokens": 2048,
      "temperature": 0,
      "top_p": 1
    },
    stream=True,
  )

  for response in responses:
    print(response.candidates[0].content.parts[0].text)

generate()

 

Fazit: Vertex AI macht Google Gemini einfach nutzbar

Die Ergebnisse des Google Gemini-Modells - insbesondere bei multimodalen, komplexen Aufgaben - sind überzeugend. Google Gemini ist eine mächtige KI mit beeindruckenden Multimodal-Fähigkeiten. Durch die professionelle KI-Plattform Vertex AI wird das ausprobieren und nutzen von KI-Modellen erfreulich einfach. So können KI-Modelle aller Art leicht in eigene Anwendungen integriert werden.