Eine weitere Woche ist vergangen, in der sich in der KI-Welt wieder viel bewegt hat. Im heutigen Wochenrückblick wird der Fokus auf dem Thema liegen, das seit Wochen heiß diskutiert wird: Open Source.
Open-Source-Trend
Ich habe ja schon in den vergangenen Wochen angemerkt, dass der Trend weiter in Richtung Open-Source-Modelle geht. Die Arbeit mit neuronalen Netzen ist in der Regel kreativ und experimentell und da war es bisher ein Hindernis, dass die Modelle aufgrund der hohen Parameterzahl so groß waren. Genau diesen Umstand konnten kommerzielle Akteure ausnutzen und damit einen "Burggraben" ziehen, auf den ich nachher noch eingehen werde. Große KI-Modelle lassen sich nur mit hohem finanziellen Aufwand ausführen und schon gar nicht auf normaler Hardware trainieren.
Seit Metas LLaMA scheint dieser Damm allerdings gebrochen zu sein. Mit LLaMA wurde ein hochwertiges Modell der Allgemeinheit freigegeben, wenn auch unter einer sehr restriktiven nicht-kommerziellen Lizenz. Da die Gewichte (also das Blut in den Venen des Modells, d. h. Architektur + Gewichte = nutzbares Produkt) allerdings ausgewählten Forschern der Öffentlichkeit zur Verfügung gestellt wurden, dauert es nicht lange, bis sie geleakt wurden. Für quasi alle.
Die Folgen waren ganz interessant: die Community begann, die Modelle auszuprobieren. Als Erstes wurde mit llama.cpp die Quantisierung populär: wenn wir sowieso schon mit Unschärfe arbeiten, wird die Präzision nachrangig und es ist nicht mehr erheblich, ob wir 32-Bit-Floats oder 8-Bit-Floats nutzen. Reduzieren wir die Bits pro Gewicht, reduzieren wir die Modellgröße im (GPU-)RAM und machen das Modell verarbeitbarer. Schlagartig wird ein vortrainiertes Modell wie LLaMA sogar auf CPUs lauffähig und zum sog. Foundation Model, das nun für einen bestimmten Zweck nachtrainiert werden kann. Auch hier hat die Community Techniken wie LoRA angewandt, die den Trainingsaufwand reduzieren.
Dabei stellt sich schnell die Frage, wie weit die großen Firmen noch voraus sind. Glaubt man dem geleakten Memo eines Google-Engineers, schätzt er ein, dass der Burggraben (engl. Moat) nicht mehr so groß ist. Er glaubt zudem auch, dass das gleiche für OpenAI gilt. Der Economic Moat ist im übrigen ein Begriff von Warren Buffet und symbolisiert den Wettbewerbsvorteil von Unternehmen.
Neue Open-Source-Modelle
Metas LLaMA kann man nicht klassisch als "Open Source" bezeichnen, weil die Lizenz restriktiv ist und das Teilen der Gewichte zum Beispiel verbietet. Ich weiß, dass "freie Modelle" (im Sinne von "freie Software") anstatt "Open Source" die korrektere Wortwahl wäre, möchte mich aber an den Begriffen der Community halten.
Während der Zeit enstanden einige Fine-tunings (Nachtrainings), die auf speziellen Datasets beruhten, die tatsächlich frei waren. Besonders ist hier Databricks' Dolly-15k hervorzuheben. Allerdings werden finegetunte Modelle auf LLaMA-Basis nicht freier als LLaMA selber, weswegen es sich nur um eine Zwischenlösung handelte.
Das war Stand Anfang April 2023. Nun gibt es Modelle, die von Grund auf so trainiert und lizenziert wurden, dass es eine einheitliche Lizenz gibt. In dieser Woche kamen viele neue Modelle diesbezüglich heraus, darunter:
- StarCoder von HuggingFace für Programmieraufgaben,
- RedPajama-INCITE von Together AI als freier LLaMA-Nachbau und
- MPT-7B von MosaicML als weiteres freies Foundation Model.
Das Transformer-Framework von HuggingFace ist gut geeignet, um die Modelle zu testen und Anleitungen in den Model Cards helfen beim Einstieg.
OMR23
Nächste Woche werde ich auch auf der OMR23 in Hamburg sein. Auch das Thema künstliche Intelligenz und deren Auswirkungen wird dort präsent sein. Wer auch auf der OMR ist, kann mich gerne via Mail oder LinkedIn anschreiben, sodass man sich eventuell treffen kann!