Stell Dir vor, Du könntest Deiner KI einfach sagen, dass sie eine Aufgabe erledigen soll – und sie entscheidet selbst, wie und mit welchem Modell sie das Ergebnis erzielt. Das ist jetzt möglich, dank HuggingGPT, einem innovativen Framework, das grosse Sprachmodelle nutzt, um verschiedene KI-Modelle zu koordinieren und komplexe Aufgaben zu lösen, und dabei die HuggingFace Community einbezieht.
HuggingGPT verwendet ChatGPT, um Benutzeranfragen in durchführbare Aufgaben zu zerlegen und verbindet dann verschiedene KI-Modelle von der Hugging Face-Plattform, um die geplanten Aufgaben zu lösen. Dabei wählt es Expertenmodelle wie T5, BERT und GPT-2 Large basierend auf deren Beschreibungen aus.
HuggingGPT ist so ein innovatives Framework, das grosse Sprachmodelle (LLMs) verwendet, um verschiedene KI-Modelle zu koordinieren und komplexe Aufgaben zu lösen und es nutzt dabei die Hugginface Community.
Der Arbeitsprozess von HuggingGPT kann in vier Phasen unterteilt werden:
- Aufgabenplanung: ChatGPT analysiert die Benutzeranfragen, um deren Absichten zu verstehen und sie in mögliche lösungsfähige Aufgaben über Aufforderungen zu zerlegen.
- Modellauswahl: ChatGPT wählt basierend auf Modellbeschreibungen Expertenmodelle aus, die auf Hugging Face gehostet sind, um die geplanten Aufgaben zu lösen.
- Aufgabenausführung: Jedes ausgewählte Modell wird aufgerufen und ausgeführt, und die Ergebnisse werden an ChatGPT zurückgegeben.
- Antwortgenerierung: Schliesslich verwendet ChatGPT die Vorhersagen aller Modelle, um Antworten für die Benutzer zu generieren.
Einige Beispiele, wie HuggingGPT funktioniert
- Beispiel 1: HuggingGPT zerlegt abstrakte Benutzeranfragen in konkrete Aufgaben wie Pose-Erkennung, Bildbeschriftung und Bildproduktion basierend auf der Pose. Es erkennt auch Abhängigkeiten zwischen den Aufgaben und verwendet die Ergebnisse der abhängigen Aufgaben, um die Eingabeargumente für die nachfolgenden Aufgaben auszufüllen.
- Beispiel 2: HuggingGPT kann sowohl in Audio- als auch in Videoformaten Gespräche führen. In beiden Fällen zeigt es, dass HuggingGPT die Expertenmodelle verwendet, um die vom Benutzer angeforderten Text-zu-Audio- und Text-zu-Video-Aufgaben auszuführen. Es organisiert auch, wie Modelle zusammenarbeiten und wie Aufgaben voneinander abhängig sind.
- Beispiel 3: HuggingGPT integriert mehrere Benutzereingabe-Ressourcen, um einfache Schlussfolgerungen zu ziehen. Es kann die Hauptarbeit in mehrere grundlegende Aufgaben zerlegen, auch wenn mehrere Ressourcen vorhanden sind, und dann die Ergebnisse verschiedener Inferenzen aus verschiedenen Modellen kombinieren, um die richtige Antwort zu finden.
HuggingGPT bietet eine offene und kontinuierliche Möglichkeit, verschiedene Expertenmodelle zu integrieren, ohne dass schwere Aufforderungs-Engineering erforderlich ist. Es löst die Herausforderung, eine grosse Anzahl von hochwertigen Modellbeschreibungen zu sammeln, die für das Lösen zahlreicher KI-Aufgaben erforderlich sind, die eine koordinierte Zusammenarbeit mehrerer KI-Modelle erfordern
Und jetzt kommt Microsoft mit Jarvis
Ja genau, Jarvis wie bei Iron Man – mal schauen ob es den Namen behalten darf. Jedenfalls basiert Jarvis von Microsoft auf “Hugging GPT”, welches die Verwendung von grossen Sprachmodellen wie GPT-3.5 zur Interaktion mit Hugging Faces Model Hub untersucht.
Die Frage nach “wie nahe dran sind wir” an einer universellen künstlichen Intelligenz (AI) ist schwer zu beantworten, da die Meinungen von Expert:Innen darüber variieren und die Entwicklung von AI kontinuierlich voranschreitet. Auch wenn Huggingface schon nahe dran zu sein scheint: denn dieses Papier wurde am 30.3 veröffentlicht: https://paperswithcode.com/paper/hugginggpt-solving-ai-tasks-with-chatgpt-and
HuggingGPT nutzt ChatGPT und greift auf die ganze Datenbank von Huggingface zu und wählt das Modell automatisch aus – selbständig und es lernt dabei. HuggingGPT nimmt also Sprachmodelle (LLMs) wie ChatGPT verwendet, um komplexe KI-Aufgaben zu lösen. Es verbindet verschiedene KI-Modelle, nutzt chatGPT als Schnittstelle. Es “spricht” also mit den Modellen und plant und koordiniert Aufgaben, wählt Modelle basierend auf ihren Funktionen aus und führt Teilaufgaben aus.
Die Integration von HuggingGPT in Microsoft ist bereits vollzogen: siehe auch hier
Dieser neue Ansatz für KI könnte erhebliche Auswirkungen auf die Zukunft der KI-Entwicklung und -Anwendungen haben. Denn Jarvis nutzt die umfangreiche Sammlung von Modellen, um verschiedene Aufgaben in verschiedenen Modalitäten wie Sprache, Vision und Sprache auszuführen.
Denn auch Jarvis arbeitet in einem vierstufigen Prozess:
- Aufgabenplanung: Basierend auf der Eingabeaufforderung plant Jarvis die auszuführenden Aufgaben.
- Modellauswahl: Jarvis identifiziert die geeigneten Open-Source-Modelle aus Hugging Faces Model Hub für jede Aufgabe.
- Aufgabenausführung: Die Aufgaben werden mit den ausgewählten Modellen ausgeführt.
- Antwortgenerierung: Jarvis sammelt die Ergebnisse und generiert eine Antwort für den Benutzer.
Das System ermöglicht es Jarvis, komplexe, multimodale Aufgaben zu bewältigen, für die normalerweise umfangreiche benutzerdefinierte Programmierung oder mehrere individuelle KI-Systeme erforderlich wären.
Die Fähigkeit, eine leistungsstarke KI wie GPT-3.5 mit Hugging Faces Model Hub zu verbinden, eröffnet eine Welt voller Möglichkeiten. Jarvis hat das Potenzial, Anwendungen für die natürliche Sprachverarbeitung, die 3D-Bildgenerierung oder den Aktienhandel zu ermöglichen.
Jarvis stellt also damit einen bedeutenden Fortschritt in der KI-Entwicklung dar. Durch die Nutzung von Hugging GPT und Hugging Faces Model Hub kann Jarvis eine Vielzahl von Aufgaben bewältigen und die Art und Weise revolutionieren, wie wir mit KI interagieren und sie nutzen.
Microsoft hat übrigens bereits Systemanforderungen und Anweisungen zur Verfügung gestellt, um Jarvis auszuprobieren. Mal sehen wer was daraus macht.