Im heutigen Wochenrückblick werde ich einige spannende Einblicke in die KI-Welt der letzten Tage präsentieren. Einige der Nachrichten stammen aus dieser Woche, bei anderen etwas älteren Themen möchte ich diesen Wochenrückblick zur Nachbesprechung nutzen.
LLaMa-Adapter
LLaMA-Adapter (Paper) ist so spannend, dass ich es euch nicht vorenthalten möchte. Über die letzten Wochen haben sich im Rahmen der ChatGPT-DIY-Konkurrenzmodelle einige Modelle und vor allem Methodiken für das Finetuning dieser herausgebildet.
Eine wichtige Rolle hat hierbei Metas LLaMA eingenommen. Das Modell ist zwar für ausgewählte Forscher mit den Gewichten verfügbar, steht aber unter einer restriktiven Lizenz. Trotzdem haben sich verschiedene Methodiken herausgebildet, LLaMa auf die eigenen Bedürfnisse feinzutunen, um insbesondere bessere Resultate zu erhalten.
Eines der ersten verbreiteten Verfahren hierfür war Alpaca. Dabei wurde ein spezielles Dataset herangezogen (52k Instruct), das aus Instruktionen bestand. Anschließend wurde LLaMa(-7B) genommen und die bestehenden Gewichte so angepasst, dass der Loss auf das Dataset als Trainingsdatensatz verringert wird. Problematisch hierbei: alle Gewichte müssen "angefasst" werden – und mit mindestens 7 Mrd. sind es nicht wenige.
LLaMa-Adapter nutzt einen anderen Ansatz und friert erst einmal die bestehenden Gewichte ein. Für das Finetuning wird eine eigene Schicht mit 1,2 Mio. neuen Gewichten hinzugefügt, wobei nur diese trainiert werden. Das Ergebnis ist ein Training, welches lediglich unter einer Stunde mit 8 A100-GPUs dauert. Diese Effizienz schlägt sich in einer kürzeren Trainingszeit und somit auch geringeren Kosten nieder.
Als sei das nicht genug, ermöglicht LLaMa-Adapter auch die Implementierung von Mutlimodalen Modellen, wo zusätzlich zur Texteingabe Bilder als solche verarbeitet werden können.
Semgment Anything Model
Meta bzw. Facebook nimmt in der aktuellen KI-Forschung eine ganz besondere Rolle ein. Denn oft sind es gerade die Entwicklungen und Modelle von Meta, die in der Community weite Anerkennung und Verbreitung finden.
In der aktuellsten Veröffentlichung aus dieser Woche widmen sich die KI-Forscher von Meta der Bildsegmentierung und stellen eines der Modelle frei einsehbar zur Verfügung.
Mit Bildsegmentierung dürften viele iOS-Nutzer letztes Jahr mit der Umstellung auf Version 16 in Kontakt bekommen sein. Eines der zentralen neuen Features war die Möglichkeit, sehr einfach Objekte in Bildern freistellen zu können ("cut out"). Dabei ist es entscheidend, sauber Objekte auf einem Bild trennen zu können.
Das Semgent Anything Model (SAM) stellt solche Möglichkeiten nun für Jedermann zur Verfügung, der damit arbeiten oder forschen möchte. Von Meta werden hierfür das Paper, der Datensatz und eine Demo bereitgestellt.
Auto-GPT
Mit Auto-GPT wurde diese Woche ein experimentelles Werkzeug bekannt, das GPT-4 bzw. GPT-3.5 direkt an den Computer anschließt, um automatisiert Ziele erarbeiten zu können. Man kann sich das wie die ChatGPT Plugins, nur mit viel mehr Freiheiten vorstellen. Um die Ziele zu erreichen, kann z. B. das System im Internet suchen oder auch Dateien lesen.
Für den einzelnen Endnutzer ist natürlich der Einsatz sehr riskant, da das System a) Zugriff auf den eigenen Computer hat und b) nicht vorhersagbar in Bezug auf das nächste ausgeführte Kommando ist. Trotzdem zeigt das Experiment, dass die GPT-Modelle heute beindruckend gut Ziele erreichen können, wenn sie eine Schnittstelle zu einem Computer erhalten.
Das war der KI-Wochenrückblick mit einer Auswahl von spannenden Nachrichten für diese Woche. Ich freue mich schon auf die nächste Woche, wenn wir wieder die Neuerungen der nächsten Woche besprechen können!