None
Nachrichten

KI-Wochenrückblick KW 11/2023

by Viktor Garske on March 19, 2023, 10:10 p.m.
Der KI-Wochenrückblick fasst die Nachrichten der Kalenderwoche 11 des Jahres 2023 zusammen. In dieser Woche gab es viele Neuigkeiten, darunter die Veröffentlichung von GPT-4, Midjourney 5, PyTorch 2.0 oder Alpaca.

Treue Leser des Blogs können sich noch an das Jahr 2018 und den Wochenrückblick erinnern. Über ein halbes Jahr habe ich im Wochentakt das Geschehen der Woche zusammengefasst. Der Wochenrückblick wurde nach kurzer Zeit wieder eingestellt und sollte auch nur als Experiment dienen.

Im Jahr 2023 wird allerdings der Wochenrückblick aus einem anderen Blickwinkel wieder relevant. Wir erleben momentan etwas, was mich an die Erfindung des iPhones erinnert: eine neue Technologie ist da und man möchte den ganzen Tag die Funktionalität ausprobieren. Dies fing bereits 2022 mit GPT-3 und DALL-E an setzt sich nun mit Stable Diffusion, ChatGPT und den ganzen neuen Modellen fort.

Um die Flut an Informationen zu sortieren, möchte ich die Gelegenheit nutzen und im KI-Wochenrückblick das Geschehen der Woche aufarbeiten und kurz zusammenfassen.

GPT-4 erschienen

Den Anfang macht ganz klar OpenAI mit GPT-4. Um die neue Version des bekannten Large Language Models (LLM) gab es schon seit einiger Zeit einen gewissen Hype. Am Dienstag war es dann soweit: OpenAI hat GPT-4 veröffentlicht. In einem Demo-Livestream wurden die Möglichkeiten vorgestellt. GPT-4 soll multimodal sein und neben Text auch Bilder verarbeiten können. Die Anzahl der Tokens steigt von 2048 auf 32k Tokens, was in etwa 25.000 Wörtern entspricht. Eine Eingabe kann also deutlich länger sein als bisher.

Das mit Spannung erwartete Paper, welches jetzt auf arxiv.org liegt, bietet allerdings recht wenig Einblicke in die Funktionsweise. Hier wurde der Fokus besonders auf Vergleiche bei standardisierten Tests gelegt, Details zur Architektur wurden nicht verraten. Diese Politik enttäuscht teilweise die Forschungswelt und wird bisher mit dem Konkurrenzdruck begründet. (Blogartikel von Dienstag)

Midjourney V5 Alpha veröffentlicht

Bei den Text-zu-Bild-Wandlern gibt es auch Neuigkeiten. Midjourney ist als Alpha in Version 5 verfügbar, wie das Team auf Twitter berichtet. Mit dem neuen Release werden die Bilder deutlich realistischer und die Qualitätssteigerungen werden sichtbar.

Midjorney ist allerdings, im Gegensatz zu OpenAI-Produkten, aktuell nicht als API verfügbar und kann nur teils kostenpflichtig über den Discord-Server erreicht werden.

ViperGPT: Visuelle Inferenz mittels Python-Ausführung

Eines meiner persönlichen Highlights der Woche ist die Vorstellung von ViperGPT und dem dazugehörigen Paper. Es geht ein Problem an, welches insbesondere bei Bild-Tasks präsent ist: während jeweils die Erkennung von Objekten oder die Codegenerierung für ein Problem relativ zuverlässig sind, ist die Kombination aus beidem fehleranfällig.

Beispiel: wir haben ein Bild mit verschiedenen Pizzastücken und Personen vorliegen. Die Frage "Wie viele Stücke könnte jede Person erhalten, wenn die Pizza fair aufgeteilt wird?" ist schwierig zu beantworten, wenn wir einen End-to-End-Ansatz fahren. ViperGPT wählt allerdings einen anderen Ansatz: hier wird ein Python-Programm generiert, welches Platzhalter für die eigentlichen Image-Recognition-Tasks im Rahmen von speziellen find()-Funktionsaufrufen lässt. Die eigentliche Aufteilungberechnung pizzastueckzahl // personenanzahl wird vom Codegenerator-Modell zwar formuliert, dann aber ganz normal deterministisch in Python auf einer CPU ausgeführt. Somit wird einerseits das Modell erklärbarer und andererseits auch deterministischer.

Ich freue mich schon auf den Code, um das Verfahren auszuprobieren. Wenn das funktioniert, lassen sich in meinen Augen die Vorteile unscharfer Large Language Models und präsizer Computerberechnungen besser kombinieren.

PyTorch 2.0 erschienen

PyTorch ist ein wichtiger Baustein in der ML-Forschung, da es als wichtiges Framework und TensorFlow-Konkurrent die Modelle erst implementierbar und trainierbar macht. Umso spannender ist es, dass hier eine neue Version erschienen ist.

In Version 2.0 sind allerdings glücklicherweise keine substantiellen Breaking Changes zu erwarten, es ist eine umgebrandete Version 1.14. Hinzu gekommen ist insbesondere torch.compile(), sodass Modelle vorkompiliert werden können und nicht mehr zwangsläufig im "eager mode" arbeiten müssen. (Blogartikel von Samstag)

Alpaca: Do-it-yourself GPT?

Ein großer Nachteil der aktuellen KI-Forschung liegt in der Verfügbarkeit der Modelle. Dabei müssen wir zwischen Modellen und Modellen unterscheiden – leider wird beides oft mit dem gleichen Namen bezeichnen. Modelle können einerseits die Architektur beschreiben (GPT-3, LLaMA, AlexNet, ...), andererseits aber auch die Architektur plus die dazugehörigen Gewichte (= das Herzstück für den Einsatz eines Modells) bedeuten. Die Gewichte sind das Ergebnis des Trainings.

Die Architektur wird meist offengelegt (in GPT-4 jetzt nicht mehr, wie wir gesehen haben), die Gewichte sind oft unter Verschluss, sind aber die Voraussetzung für den Betrieb eines vortrainierten Modells. LLMs wie GPT-4 oder PaLM sind prioprietär, Meta beschreitet mit LLaMA einen Mittelweg mit einer restriktiven Lizenz und andere Modelle wie die Spracherkennung Whisper sind komplett offen.

Um nun aber zügig ein lauffähiges, lokales LLM aufzubauen, haben die Stanford-Forscher mit Alpaca einen Trick angewandt. Sie nehmen das LLaMA-Modell und führen mittels Instructions, die mit ChatGPT synthetisiert werden, über das Self-Instruct-Verfahren ein Fine-Tuning durch. Herauskommen soll ein Modell, welches mit GPT-3 konkurrieren kann, aber unter 600 USD im Training gekostet hat. Das ist für bisherige Verhältnisse sehr billig.

Das Modell gibt es noch nicht zum Download, hier möchte das Alpaca-Team in Verhandlung mit Meta treten. Die Auswirkungen wären tatsächlich enorm, da einerseits die Entwicklungen lokal nachvollziehbar werden (für die Wissenschaft unerlässlich), andererseits aber der Alleinstellungswert von LLM-Providern sinkt, wenn ein anderes Modell einfach ihr Modell imitieren kann.

Weitere Neuigkeiten

  • Microsoft 365 Copilot hält Einzug in Office
    Dieser Schritt war aus meiner Sicht seit dem 10 Mrd.-Investment erwartbar und wird nun umgesetzt. Effektiv wird dadurch ChatGPT direkt in Office nutzbar.
  • Google führt KI-Systeme in Google Workspace ein
    Google zieht nach und bietet ähnliche Funktionen in den eigenen Produkten mit den eigenen Modellen an. Auch hier geht es darum, das Prompting innerhalb der Dokumente zu ermöglichen. Durch die enge Einbindung von Gmail in die Business-Suite können aber auch über die Schnittstellen z. B. E-Mail-Vorlagen schnell modifiziert werden.
Author image
Viktor Garske

Viktor Garske ist der Hauptautor des Blogs und schreibt gerne über Technologie, Panorama sowie Tipps & Tricks.

Comments (0)

Comments are not enabled for this entry.