Better stay informed?

Inform today, better decide tomorrow.

Latest Posts

KI-Wochenrückblick KW 21/2023
by Viktor on May 28, 2023

Seit einigen Wochen veröffentliche ich den Wochenrückblick, in dem ich regelmäßig über aktuelle Nachrichten aus der KI-Welt berichte. Auch in dieser Woche gab es drei Neuigkeiten, die ich euch nicht vorenthalten möchte. Endlich gibt es auch wieder neue Modelle!

RWKV-Paper veröffenlicht

Nicht alles in der Welt der Large Language Models (LLM) beruht auf Transformers. Sie sind ein Weg, aber nicht der einzige. Das Team rund um Peng, Alcaide und Anthony hat mit Receptance Weighted Key Value (RWKV) eine neue Methode und Architektur entwickelt, mit der es möglich ist, LLMs über rekurrente neuronale Netze (RNNs) statt Transformer umzusetzen.

Der Hintergrund ist, dass beim Einatz von Transformern die Speicher- und Rechenkomplexität eine große Herausforderung darstellt. Sie wächst quadratisch, während RNNs ein lineares Wachstum aufweisen. RNNs mit klassischen Architekturen wiederum waren allerdings nicht so leistungsfähig wie gewünscht. RWKV versucht nun, die Leistungsfähigkeit bei RNNs deutlich zu verbessern, sodass sie mit Transformern mithalten und ihre Skalierungsvorteile ausnutzen können.

Die Ergebnisse wurden vorab in einem Preprint veröffentlicht und können z. B. auf Hugging Face ausprobiert werden. Der Code befindet sich auf GitHub. Schauen wir also, wie sich das Projekt in den nächsten Wochen entwickelt.

Falcon-Modelle erschienen

Wie bereits in den letzten Wochen erwähnt, …

KI-Wochenrückblick KW 20/2023
by Viktor on May 21, 2023

Es wird ruhiger im Umfeld der künstlichen Intelligenz, aus diesem Grund wird es in diesem Wochenrückblick mehr um Anwendungen als Grundlagenforschung gehen.

DarkBERT

In dieser Woche hat DarkBERT die Runde gemacht. Dabei handelt es sich um ein Sprachmodell der RoBERTa-Klasse, das von Forschern aus Südkorea speziell auf Darknet-Inhalte trainiert wurde. Ziel soll es sein, die Umgangsformen in diesen schwerer zugänglichen Netzwerken analysieren zu können. Aus diesem Grund wird das Modell auch nicht veröffentlicht.

Mich hat diese Nachricht in erster Linie an das Projekt GPT-4chan von Yannic Klicher erinnert. Wenig überraschend ist es daher, dass auch dieses Modell in einigen Metriken besser abschneidet als die weitverbreiteten LLMs.

Drag Your GAN

KI besteht nicht nur aus LLMs, das habe ich schon öfter erwähnt. In den letzten 5 Jahren dominierten vor allem die Generative Adverserial Networks (GANs), die sich mit der gezielten Generierung und Manipulation von Bildern beschäftigt haben.

Hier gibt es mit dem Paper Drag You GAN gute Neuigkeiten: Forscher vom Max-Planck-Institut, vom MIT und Google haben eine Methodik entwickelt, mit der es möglich ist, interaktiv und Punkt-basiert Änderungen an Fotos umzusetzen. Damit kann einfach ein Gesicht verschoben oder ein zugekniffenes Auge im Sonnenlicht wieder aufgeklappt werden. Gut, dass es hier auch …

Arch Linux zieht auf Git um und ändert Testing-Repositories
by Viktor on May 18, 2023

Diese Nachricht ist insbesondere für alle Testing-Nutzer von Bedeutung: Arch Linux wird die Repositories umstellen, die für den Bezug der Testing-Pakete erforderlich sind.

Hintergrund ist die Migration von SVN auf Git in der Infrastruktur von Arch Linux. Dazu werden von Freitag, dem 19. Mai 2023 bis Sonntag, dem 21. Mai 2023 die Repositories eingefroren - das Arch Linux Packaging Team wird in der Zeit keine neuen Pakete bereitstellen können. Durch die Umstellung werden der SVN-Zugriff sowie der svn2git-Mirror obsolet.

Nach der Umstellung werden die Testing- und Staging-Repositories aufgespaltet und das Community-Repository aufgelöst:

  • [testing] wird aufgeteilt in [core-testing] und [extra-testing]
  • [staging] wird aufgeteilt in [core-staging] und [extra-staging]
  • [community] wird in [extra] überführt

Nutzer von Arch Linux müssen auf die Änderungen folgendermaßen ab Montag, dem 22. Mai 2023 reagieren:

  • (Optional) für alle Nutzer: in der /etc/pacman.conf kann der [community]-Abschnitt entfernt werden.
  • Für Testing-Nutzer: in der /etc/pacman.conf müssen der Abschnitt für [testing] entfernt und zwei neue für [core-testing] und [extra-testing] hinzugefügt werden. Das gleiche muss, wenn eingesetzt, für das Staging-Repository unternommen werden.

Wer als Nutzer von Arch Linux keine Testing-Repositories einsetzt, muss kurzfristig auch nichts unternehmen, da das Extra-Repository nun auch alle Pakete des Community-Repositories führt. In einer Übergangsphase werden die drei …

KI-Wochenrückblick KW 19/2023
by Viktor on May 14, 2023

In dieser Woche fasse ich mich mit dem Wochenrückblick recht kurz, im Wesentlichen war die Woche vom Google-Event geprägt.

Google I/O

Wer die KI-Entwicklung der letzten Wochen und Monate beobachtet hat, wird bemerkt haben, dass Google bisher mit der Veröffentlichung von Modellen und Projekten zurückhaltender war. Mit der Google I/O hat sich Google allerdings wieder vermehrt an die Öffentlichkeit gewagt, wie sich im umfangreichen Blogartikel lesen lassen kann.

Im Vordergrund stand insbesondere PaLM 2, welches laut Vorstellungsbeitrag besonders in drei Punkten nachzieht: Multilingualität, Schlussfolgerung und Coding. Letzter Punkt mag interessant sein, da wir in der letzten Woche sehen konnten, wie viele Open-Source-Coding-LLMs veröffentlicht wurden. PaLM 2 soll bereits schon in 25 (neuen) Google-Produkten arbeiten.

LLaMA-13B auf 6-GB-Grafikkarten

Während Google PaLM 2 vorstellt, aber die Gewichte nicht veröffentlicht, geht die Entwicklung bei den offeneren Modellen ungebremst weiter. Insbesondere die Zugänglichkeit im Bezug auf die Ressourcen wird laufend verbessert.

LLaMA-13B (13 Mrd. Parameter) wurde nun im Rahmen des llama.cpp-Projekts so eingesetzt, dass es auf einer NVIDIA RTX 2060 mit 6 GB VRAM lauffähig wird. Damit werden nicht nur die kleinsten Modelle auf normaleren Grafikkarten betreibbar, sondern auch die etwas größeren Modelle.

OMR23 mit dem Thema KI

Wie letzte Woche schon …

KI-Wochenrückblick KW 18/2023
by Viktor on May 7, 2023

Eine weitere Woche ist vergangen, in der sich in der KI-Welt wieder viel bewegt hat. Im heutigen Wochenrückblick wird der Fokus auf dem Thema liegen, das seit Wochen heiß diskutiert wird: Open Source.

Open-Source-Trend

Ich habe ja schon in den vergangenen Wochen angemerkt, dass der Trend weiter in Richtung Open-Source-Modelle geht. Die Arbeit mit neuronalen Netzen ist in der Regel kreativ und experimentell und da war es bisher ein Hindernis, dass die Modelle aufgrund der hohen Parameterzahl so groß waren. Genau diesen Umstand konnten kommerzielle Akteure ausnutzen und damit einen "Burggraben" ziehen, auf den ich nachher noch eingehen werde. Große KI-Modelle lassen sich nur mit hohem finanziellen Aufwand ausführen und schon gar nicht auf normaler Hardware trainieren.

Seit Metas LLaMA scheint dieser Damm allerdings gebrochen zu sein. Mit LLaMA wurde ein hochwertiges Modell der Allgemeinheit freigegeben, wenn auch unter einer sehr restriktiven nicht-kommerziellen Lizenz. Da die Gewichte (also das Blut in den Venen des Modells, d. h. Architektur + Gewichte = nutzbares Produkt) allerdings ausgewählten Forschern der Öffentlichkeit zur Verfügung gestellt wurden, dauert es nicht lange, bis sie geleakt wurden. Für quasi alle.

Die Folgen waren ganz interessant: die Community begann, die Modelle auszuprobieren. Als Erstes wurde mit llama.cpp die …

KI-Wochenrückblick KW 17/2023
by Viktor on April 30, 2023

Diese Woche hat auch wieder spannende Neuigkeiten geboten, die ich euch gerne vorstellen möchte. Legen wir los!

StableLM

Eingangs möchte ich euch heute das Modell StableLM vorstellen. Hierbei handelt es sich um ein Open-Source-LLM aus dem Hause Stability AI – das Team, das auch schon Stable Diffusion populär gemacht hat. Es wurde am 19. April 2023 vorgestellt und steht in verschiedenen Parameterzahlen zur Verfügung, darunter z. B. 7 Milliarden Parameter. Technisch wird die Grundlage durch Pythia und somit auch GPT-NeoX gebildet.

Das Grundtraining von StableLM basiert auf The Pile mit einigen Anpassungen. Diese Anpassungen ermöglichen es, dass ein qualitativ hochwertiges Modell mit deutlich weniger Parametern erstellt werden konnte.

DeepFloyd IF

Stability AI hat in dieser Woche zwei weitere interessante Modelle veröffentlicht, darunter eines in Partnerschaft mit der DeepFloyd-Gruppe. DeepFloyd IF wurde am 28. April 2023 veröffentlicht. Eine der spannendsten Neuigkeiten ist die Fähigkeit, sauberen Text in generierte Bilder einzuarbeiten. Wer Modelle wie DALLE-2 oder Stable Diffusion kennt, weiß, dass dies oft eine Herausforderung ist und oft schlecht aussieht.

Diese Fähigkeiten ermöglichen auch völlig neue Anwendungen in Kunst und Design, weil die Gestaltung von Schrift besser abgedeckt werden kann. Das Modell ist auf HuggingFace verfügbar, im Veröffentlichungsartikel sind schon einige …

KI-Wochenrückblick KW 16/2023
by Viktor on April 23, 2023

In dieser Woche gab es wieder eine Reihe von KI-Entwicklungen, die ich euch heute vorstellen möchte. Auch in dieser Woche zeichnet sich wieder ein Trend ab: die Open-Source-Community schreitet auch bei der Entwicklung von eigenen Modellen voran.

RedPajama

Rechtlich befinden sich LLMs weiterhin oftmals in einer Grauzone. Die gefeierten, erfolgreichen Systeme wurden nicht nur mit viel Rechenkraft, sondern auch anhand eines bestimmten Datensatzes trainiert. Dieser ist in der Regel nicht öffentlich zugänglich. Diese Modelle, die aus dem Nichts trainiert wurden und grundsätzliche Fähigkeiten bereitstellen, werden auch als Foundation Models bezeichnet. Darauf aufbauend wird ein gewisses Fine-tuning unternommen, womit z. B. die Chatfähigkeiten deutlich verbessert werden.

Während Databricks mit Dolly 2.0 schon einen bemerkenswerten Auftakt zur Entwicklung offener LLMs angeboten hat, wurden die Foundation Models bisher wenig angetastet. Das soll sich nun mit RedPajama ändern. Das Projekt hat es sich vorgenommen, den Trainingsdatensatz hinter dem erfolgreichen, aber nicht-offenen LLaMA zu reproduzieren. Anschließend sollen freie Foundation Models trainiert werden.

Die Erstellung des Datensatzes ist nun abgeschlossen, die Ergebnisse können im oben verlinkten Artikel nachvollzogen werden. Nun steht das Training an. Vorteil solcher Modelle ist, dass sie rechtlich einfacher weiterverwendet und -trainiert werden können, was sehr wahrscheinlich einen Innovationsschub verursachen wird. Freie Modelle …

KI-Wochenrückblick KW 15/2023
by Viktor on April 16, 2023

Im heutigen Wochenrückblick werde ich, wie gehabt, einige spannende Einblicke in die KI-Welt der letzten Tage präsentieren. Einige der Nachrichten stammen aus dieser Woche, bei anderen etwas älteren Themen möchte ich diesen Wochenrückblick zur Nachbesprechung nutzen.

Generative Agenten

Diese Woche war insbesondere von einem Paper geprägt: Generative Agents: Interactive Simulacra of Human Behavior. Wer sich noch an Spiele wie "Die Sims" erinnert, wird Teile der Funktionsweise wiedererkennen. 25 Spieler bzw. Avatare wurden auf die virtuelle Welt Smallville losgelassen und können dort textbasiert miteinander interagieren. Jeder Avatar wird durch einen Agenten repräsentiert. Das ist gerade sinnvoll, weil Ausgaben vom einem Avatar als Eingabe für einen anderen Avatar dienen können.

Damit alles funktioniert, haben die Forscher im Paper beschrieben, wie sie das auf GPT-3.5 aufbauende Systeme angepasst haben, um wie richtige "intelligente Agenten" agieren zu können. Das Ergebnis ist eine virtuelle Spielwelt, in der sich die virtuellen Avatare begrüßen, ihren Tag planen oder besondere Termine wie den Valentinstag berücksichtigen – und wir können zuschauen.

Agenten sind ein relativ altes Konzept der künstlichen Intelligenz und betreffen tatsächlich nicht nur Machine Learning direkt. Es geht insbesondere um die Simulation von Ergebnissen, um die Zusamennarbeit bestimmter Akteure praktisch auszutesten. ChatGPT zeichnet sich hierbei …

Neue Podcastepisode Risikozone RZ019: Open-Source-KI, BGP und RPKI, Supply-Chain-Angriffe, Firefox
by Viktor on April 12, 2023

Seit September letzten Jahres produziere ich den Risikozone-Podcast. Über das vergangene halbe Jahr sind auf diese Weise schon 19 Episoden entstanden, die üblicherweise zwischen 40 und 60 Minuten lang sind. Ein besonderes Highlight war die Sonderepisode 6, wo wir Sönke Huster interviewt haben, der über die Erfahrungen beim Auffinden von Sicherheitslücken im WLAN-Stack des Linux-Kernels berichten konnte.

In weiteren Episoden haben wir bereits über Grundlagen der IT-Sicherheit gesprochen, darunter E-Mail-Hosting, VPNs, Mastodon, symmetrische Kryptosysteme oder asymmetrische Kryptosysteme. Ein immer stärkerer Fokus wird allerdings auch auf Machine-Learning-Modelle gerichtet, wie schon im Dezember über ChatGPT angesprochen.

In der heutigen Risikozone-Episode Nr. 19 geht es um eine ganze Reihe von Themen und aktuellen Nachrichten, die wir gestern aufgegriffen haben. Dabei ist ein konkretes Open-Source-Thema dabei, was ich euch nicht vorenthalten möchte.

Open Source wird bei KI-Systemen und hier den oft angesprochenen Large-Language-Models (LLMs) eine besondere Rolle spielen, denn bisher gibt es wenige große Anbieter, die in ihrer Rolle gleichzeitig auch als Gatekeeper fungieren. Gatekeeper, da sie einerseits proprietär die Gewichte bzw. Parameter für sich behalten möchten, aber andererseits auch eine Sicherheitsfunktion einnehmen.

Hier steht Sicherheit dem Open-Source-Gedanken gegenüber. Wer allerdings jetzt nach Verboten von "ungeprüfter" Open-Source-KI ruft, …

About

Viktors Blog is a blog about technology, open source software, artificial intelligence and economy. It was started in 2016 and steadily developed.