Google Gemini: Ein Überblick zur neuen Google KI

Inhaltsverzeichnis

Über diesen Guide

Am 6. Dezember 2023 stellte Google ihre lang erwartete neue künstliche Intelligenz Gemini vor. Damit stellen sie knapp ein Jahr nach der erfolgreichen Veröffentlichung von ChatGPT einen ernstzunehmenden Konkurrenten zu GPT-4, dem “Gehirn” hinter ChatGPT, vor. In diesem Artikel werfen wir einen Blick auf die vorgestellte KI von Google, erklären, was die Neuerungen sind und wie Google Gemini den Chatbot langfristig verändern wird. Außerdem vergleichen wir die Fähigkeiten von Google Gemini mit denen der aktuellen OpenAI GPT-4 Version.

Was steckt hinter Google Gemini?

Google Gemini umfasst eine Familie von multimodalen Large Language Modells, die in der Lage ist, Texte, Bilder, Videos und Programmiercode zu verstehen und auch selbst zu generieren. In dieser Definition stecken gleich zwei Begriffe, die besser erklärt werden sollten, damit man Google Gemini besser verstehen kann. 

Als Large Language Models (kurz: LLM) werden im Bereich der künstlichen Intelligenz vor allem neuronale Netzwerke bezeichnet, die in der Lage sind, menschliche Sprache auf verschiedene Weise zu verstehen, zu verarbeiten und selbst zu generieren. Der Begriff „large“ umschreibt dabei die Eigenschaft, dass diese Modelle auf Unmengen von Daten trainiert werden und mehrere Milliarden Neuronen bzw. Parameter besitzen, die die zugrundeliegenden Strukturen im Text erkennen.

Multimodale Modelle sind ein Teilbereich des Machine Learnings und umfassen Architekturen, die mehrere Varianten von Daten, die sogenannten Modalitäten, verarbeiten können. Bisher konnten die meisten Modelle nur einen einzigen Datentyp verarbeiten, wie zum Beispiel Text oder Bilder. Multimodale Modelle hingegen sind in der Lage, verschiedene Formate aufzunehmen und zu verarbeiten. 

Veranschaulichung eines multimodalen Modells

Genau wie GPT-4 ist auch Google Gemini multimodal, kann also verschiedene Input-Arten, wie Texte, Bilder oder Programmiercode, verarbeiten und diese auch als Output bereitstellen. Im Unterschied zu GPT-4 jedoch ist Gemini von Grund auf multimodal gebaut und nutzt nicht verschiedene Modelle für die unterschiedlichen Inputs. Welche Architektur sich im Endeffekt durchsetzt, wird sich zeigen. 

Das Neue an Google Gemini ist dabei nicht nur die Möglichkeit Texte, Audios, Videos, Bilder und sogar Programmiercode verarbeiten zu können, sondern diese auch zu nutzen, um eigene Schlussfolgerungen anzustellen. Damit sollen von nun an auch Rückschlüsse in Feldern wie der Mathematik oder der Physik kein Problem mehr sein. In den Beispielen von Google werden beispielsweise Fehler in einer Matheberechnung gefunden und zusätzlich auch die korrigierte Lösung erstellt und erklärt.

Was kann Google Gemini?

Auf einer virtuellen Pressekonferenz wurde Google Gemini am 06. Dezember 2023 zum ersten Mal vorgestellt. Gleichzeitig gingen sowohl im Google Blog als auch auf der Website des KI-Unternehmens Google DeepMind, Artikel online, die die Funktionalitäten der neuen KI-Familie beschreiben. 

Laut diesen Berichten und den zusätzlich veröffentlichten YouTube-Videos sind beispielsweise die folgenden Anwendungen möglich:

Google Gemini ist in der Lage, Programmiercode zu erstellen, einzig und allein durch ein Bild der fertigen Anwendung. Dadurch können zum Beispiel Websites nachgebaut werden, indem man lediglich einen Screenshot der aktuellen Seite nutzt. Dies war zwar auch schon bei GPT-4 und Google Bard (der Chatbot heißt inzwischen Google Gemini wie das Sprachmodell) möglich, jedoch wurden die Fertigkeiten nochmals verbessert. Nichtsdestotrotz sind hier keine allzu großen Sprünge zu erwarten, da ein Großteil der Komplexität einer Website oder eines Computer Programms nicht über einen Screenshot dargestellt werden kann. Jedoch ist es ein guter Startpunkt für die weitere Programmierung. 

Außerdem wurden Beispiele gezeigt, in denen zwei Bilder zu einem neuen Bild kombiniert werden und ein entsprechender Text dazu geschrieben wird. In dem Beispiel von Google wird die KI gefragt, was der Nutzer mit zwei Wollknäuel anstellen kann. Als zusätzlichen Input wird ein Bild der zwei verschiedenfarbigen Knäuel gezeigt. Das Modell liefert ein fertiges Bild eines Oktopusses aus Wolle, der aus den beiden Knäueln gefertigt werden kann.

Vorschlag, was aus zwei Wollknäuel gebastelt werden kann | Quelle: Google Vorstellungsvideo (Minute 4:02)

Die mit Abstand beeindruckendste Anwendung ist nicht nur für alle Schüler, Studenten und Eltern interessant, wie man auf den ersten Blick vermuten könnte. In dem Video wird gezeigt, wie Gemini dafür genutzt wird, die Hausaufgaben in Physik zu korrigieren. Dabei stellt es nicht nur fest, welche Aufgaben richtig und welche falsch gelöst wurden, sondern es kann auch erklären, welche Fehler gemacht wurden und wie diese korrigiert werden können. Eine solche Argumentationsführung ist für ein Sprachmodell tatsächlich eine bemerkenswerte Leistung.

Bereits wenige Tage nach der initialen Vorstellung entdeckten einige Nutzer die wichtigen Informationen, die in den Videobeschreibungen der YouTube Videos versteckt waren. Google hatte nämlich bei ihren Vorstellungsvideos getrickst, indem es zum Beispiel mit Standbildern und Texteingaben arbeitete, als das Modell erkennen sollte, dass das Video eine Partie Schere-Stein-Papier zeigt. Dieses Vorgehen stieß auf einige Kritik, da durch die Darstellung in ihrem Blog deutlich mehr Fähigkeiten suggeriert wurden, die das Modell dann jedoch nicht aufweisen konnte.

Welche Versionen von Gemini gibt es?

Die erste Version von Google Gemini, Gemini 1.0, gibt es in drei verschiedenen Varianten, die für unterschiedliche Geräte optimiert wurden:

Gemini 1.0 Ultra war bis zur Veröffentlichung von Gemini 1.5 das größte und leistungsstärkste Modell und wird für einen Großteil der Anwendungen genutzt. Da es sehr rechenintensiv ist, steht es nur für leistungsstarke Endgeräte, also nicht auf mobilen Geräten, wie Handys oder Tablets, zur Verfügung. Diese Variante ist von der Leistung mit GPT-4 vergleichbar und schlägt in den meisten Tests die Leistungen des OpenAI Konkurrenten in den Bereichen Argumentation, Programmieren und Mathematik. Jedoch steht bei OpenAI der Nachfolger GPT-4 Turbo bereits in den Startlöchern, sodass es interessant wird zu beobachten, wie dieses Modell im Vergleich zu Gemini Ultra abschneidet. 

Gemini 1.0 Pro ist der Allrounder in der KI-Familie und kann für eine Vielzahl von Anwendungen genutzt werden. Beispielsweise wird Gemini 1.0 Pro zurzeit in der kostenlosen Version des Gemini-Chatbots eingesetzt. Von der Leistungsfähigkeit ist diese Variante mit GPT-3.5 vergleichbar, die aktuell für die kostenfreie Version von ChatGPT genutzt wird.

Die Gemini Nano Version schließlich wurde für Anwendungen optimiert, die auf dem Endgerät berechnet werden können. Dadurch kann Gemini auf Android-Geräten genutzt werden und es können Apps entwickelt werden, die direkt von Google Gemini profitieren. Der Vorteil ist, dass für die Berechnung keine Verbindung zu Google Servern hergestellt werden muss, sodass auch mit vertraulichen Daten, wie zum Beispiel Nachrichten, gearbeitet werden kann. In diesem Bereich stellt Google tatsächlich eine Neuerung vor, da es komplett autark ohne Verbindung zu einem Server oder Internet auskommt und außerdem performant genug ist, um auf Mobilgeräten zu laufen, die meist leistungsschwächer als Computer oder Notebooks sind.

Nur kurze Zeit nachdem Google die drei Varianten Gemini 1.0 Ultra, Pro und Nano veröffentlichte, kündigte der Konzern Anfang 2024 bereits die aktualisierte, leistungsstärkere Version Gemini 1.5 an. Gemini 1.5 war zunächst nur zum Testen für ausgewählte Entwickler bereitgestellt worden und ist seit April 2024 in mehr als 180 Ländern in der Public Review der Gemini-API für alle Entwickler verfügbar. Gemini 1.5 Pro soll vergleichbare Ergebnisse wie Gemini 1.0 Ultra liefern, dafür aber weniger Rechenleistung benötigen und beeindruckende Fähigkeiten in Hinblick auf das Verstehen besonders langer Kontexte und die Erstellung verschiedener Arten von Audio (Musik, Sprache, Tonspuren für Videos) aufweisen. So soll Gemini 1.5 Pro dazu in der Lage sein, 

  • kann eine Stunde Video 
  • 11 Stunden Audio 
  • 30.000 Codezeilen und
  • 700.000 Wörter 

zu verarbeiten. 

Es ist damit zu rechnen, dass Gemini 1.5 Pro künftig auch für den Gemini Chatbot verwendet werden wird. Ob Gemini 1.5 auch auf das Ultra- und Nano-Modell ausgeweitet wird oder bald sogar eine Gemini 2.0 Version veröffentlicht wird, bleibt abzuwarten.

Wie kann Google Gemini genutzt werden?

Google Gemini ist keine alleinstehende App oder Anwendung und kann deshalb nicht direkt genutzt oder getestet werden. Es wird jedoch verschiedene Google Dienste verbessern und dadurch indirekt bei den Nutzern ankommen. 

Gemini 1.0 Pro wird bereits in der kostenlosen Version von Googles eigenem Chatbot Google Gemini (ehemals Bard) genutzt. Dieser Chatbot ist Teil der Google Suchmaschine und kann auch dort genutzt werden. Seit Anfang 2024 gibt es die Weiterentwicklung Google Gemini Advanced, die auf dem großen Bruder Gemini 1.0 Ultra basiert, kostenpflichtig ist und in Deutschland bislang nur auf Englisch genutzt werden kann. 

Auf dem neuen Android Smartphone von Google, dem Pixel 8 Pro, läuft die kleinste Version Gemini Nano bereits lokal auf dem Handy und kann unter anderem in der App für Sprachaufnahmen genutzt werden, um eine Zusammenfassung von Audio-Dateien zu bekommen. Außerdem werden die Antwortvorschläge der Google Tastatur auf dem Smartphone mithilfe von Gemini Nano vorhergesagt. Diese mobile Android-App ist zurzeit nur in den USA und noch nicht in Deutschland nutzbar.

Gemini 1.5 Pro ist seit April 2024 in mehr als 180 Ländern in der Public Review der Gemini-API (AI Studio oder Vertex AI) für alle Entwickler verfügbar.

Google Bard vs. OpenAI GPT-4

Als im November 2022 OpenAI mit der Anwendung ChatGPT und dem dazugehörigen Modell GPT3 an den Start ging, war der Hype groß und die erwartete Antwort von Google hatte eine Weile auf sich warten lassen. 

Es dauerte bis März 2023, als der von Google entwickelte Chatbot Bard (inzwischen Google Gemini) veröffentlicht wurde. Dieser macht jedoch anfangs eher aufgrund von falschen oder witzigen Antworten auf sich aufmerksam. Wie es scheint, wurde dieses Rennen nun deutlich enger, da Google Bard durch Gemini einen echten Boost erfahren hat. 

Vor allem auf X, ehemals Twitter, wurden einige Tweets erstellt, die die teilweise lustigen und teilweise beängstigenden Fehler zeigen, die in der vorherigen Version von Google Bard sehr häufig vorkamen: 

Bard über das Monopol-Verfahren gegen Google:

Google Bards Probleme mit einfachen Matheaufgaben: 

Google Bards Umgang mit Tippfehlern: 

In einem Artikel des Business Insiders werden zehn (englische) Fragen sowohl an ChatGPT mit dem zugrundeliegenden GPT4 Modell als auch an Google Gemini (ehemals Bard) mit Gemini Pro gestellt. In dem Artikel fällt auf, dass Google Gemini auf Grenzfragen zur Sexualität und Politik nur sehr verhalten reagiert. Wahrscheinlich, um unangenehme Fehltritte wie in der Vergangenheit aus dem Weg zu gehen. Außerdem erscheinen die Antworten von Google Gemini (vorher Bard) teilweise etwas zurückhaltender und rationaler, während ChatGPT auch Emojis und emotionale Antworten nutzt. 

Der klare Vorteil von Google Gemini lag bei dem Test in der Beantwortung von aktuellen Fragen, da das GPT4 Modell mit Daten bis einschließlich April 2023 trainiert wurde und somit nicht auf Ereignisse reagieren kann, die seitdem stattgefunden haben.

Neben diese beiden Platzhirschen, sollten jedoch auch die anderen konkurrierenden Chatbot-Systeme und Large Language Modelle nicht vergessen werden, die beispielsweise auch dadurch überzeugen können, dass sie teilweise aktuellere Informationen enthalten. Deshalb haben wir für Sie einen ausführlichen Beitrag vorbereitet, der interessante Alternativen zu ChatGPT und Google Bard (inzwischen Google Gemini) vorstellt.

Fazit

Google Gemini ist eine interessante Innovation von Google, die hauptsächlich durch die Möglichkeit besticht, mit einer Vielzahl an Formaten umgehen zu können. Die ersten gezeigten Anwendungen sind vor allem aufgrund der Eigenschaft interessant, gezielte Rückschlüsse treffen zu können und die Antworten so zu begründen. 

Erste Anwendungen profitieren bereits heute von den Möglichkeiten, die sich mit Google Gemini ergeben. Besonders interessant wird es zu beobachten, wie sich der Chatbot Google Bard Gemini schlägt, sobald es von der leistungsstärksten Variante von Gemini 1.5 Pro unterstützt wird.

Zufriedenere Kunden durch schnellere Antworten.

Überzeugen Sie sich selbst und erstellen Sie Ihren eigenen Chatbot. Kostenlos und unverbindlich.