In dieser Woche gab es wieder eine Reihe von KI-Entwicklungen, die ich euch heute vorstellen möchte. Auch in dieser Woche zeichnet sich wieder ein Trend ab: die Open-Source-Community schreitet auch bei der Entwicklung von eigenen Modellen voran.
RedPajama
Rechtlich befinden sich LLMs weiterhin oftmals in einer Grauzone. Die gefeierten, erfolgreichen Systeme wurden nicht nur mit viel Rechenkraft, sondern auch anhand eines bestimmten Datensatzes trainiert. Dieser ist in der Regel nicht öffentlich zugänglich. Diese Modelle, die aus dem Nichts trainiert wurden und grundsätzliche Fähigkeiten bereitstellen, werden auch als Foundation Models bezeichnet. Darauf aufbauend wird ein gewisses Fine-tuning unternommen, womit z. B. die Chatfähigkeiten deutlich verbessert werden.
Während Databricks mit Dolly 2.0 schon einen bemerkenswerten Auftakt zur Entwicklung offener LLMs angeboten hat, wurden die Foundation Models bisher wenig angetastet. Das soll sich nun mit RedPajama ändern. Das Projekt hat es sich vorgenommen, den Trainingsdatensatz hinter dem erfolgreichen, aber nicht-offenen LLaMA zu reproduzieren. Anschließend sollen freie Foundation Models trainiert werden.
Die Erstellung des Datensatzes ist nun abgeschlossen, die Ergebnisse können im oben verlinkten Artikel nachvollzogen werden. Nun steht das Training an. Vorteil solcher Modelle ist, dass sie rechtlich einfacher weiterverwendet und -trainiert werden können, was sehr wahrscheinlich einen Innovationsschub verursachen wird. Freie Modelle sind momentan das A und O für eine erfolgreiche Forschung, weil nur kleine Teile am Modell nachtrainiert werden.
VideoLDM
Ich war schon bei der Veröffentlichung von DALL-E und Stable Diffusion davon überzeugt, dass es nur noch eine Frage der Zeit ist, bis nicht nur Bilder, sondern auch Bildersequenz - Videos - generiert werden können. Nun ist es soweit: das Team rund um Andreas Blattmann und Robin Rombach hat mit Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models die ersten Ergebnisse ihrer Arbeit präsentiert.
Und diese können sich sehen lassen: den auf der Übersichtsseite vorgestellten Videosequenzen sieht man an vielen Stellen noch Unregelmäßigkeiten an, die auf eine Computergenerierung schließen lassen, aber je nach Setting sieht das extrem flüssig und hochwertig aus.
Dazu muss man die Dimension berücksichtigen: immerhin werden die kompletten Szenen aus einer kleinen Textbeschreibung erzeugt. Keine komplexen Beschreibungen oder Modellierung einer Szenerie, keine Animation, keine Videobearbeitung - direkt die Videos. Insbesondere für Filmstudios kann dies einen enormen Umbruch einleiten - entweder als Ergänzung oder aber auch als Ersatz.
NaturalSpeech 2
Modelle, die auf latente Diffusion setzen, haben nicht nur Stable Diffusion und VideoLDM ermöglicht. Ein Team von Microsoft Research hat sich jetzt Sprachsynthese unter Einsatz eines LDM (Latent Diffusion Model) vorgenommen und kommt zu erstaunlichen Ergebnissen.
Auf ihrer Seite können die Beispiele angehört werden.
Bark
Wo wir schon bei schon bei Sprachsynthese sind: könnt ihr euch noch an die Google I/O im Jahre 2018 erinnern? Eines der Highlights war die Demo von Google Duplex. Hier konnte das System selbstständig Personen anrufen, um z. B. Termine zu verabreden und Sprach dabei wie ein Mensch - mit allen Zwischenlauten und Pausen.
Mit Bark kann ein solches System selber ausprobiert werden. Grundsätzlich handelt es sich hierbei um eine normale Text-zu-Sprache-Anwendung, allerdings können Zusatzlaute wie Lachen, Schlucken oder Räuspern eingefügt werden. Darüber hinaus können Wörter besonders betont werden. Die Anwendung bietet beeindruckende Ergebnisse und zeigt, dass in Sachen Sprachsynthese noch einiges an Entwicklung momentan stattfindet.
Aktuelle Entwicklung werden zeitnah im Zeitstrahl der LLMs bzw. Transformer-Modelle vorgestellt.