Wenn Du Dich in der "KI-Blase" befindest, hat jeder mittlerweile von "KI-Agenten" gehört.
Unvermeidlich verlagerte sich die Diskussion hin zur Debatte über den Nutzen von KI (Künstliche Intelligenz), AGI (Allgemeine Künstliche Intelligenz) und die Semantik von Dingen wie KI-Agenten, anstatt die Funktionalitäten und Vorteile von KI und generativer KI im Speziellen zu erkunden.
Meiner bescheidenen Meinung nach sind Meta-Diskussionen und noch mehr das Definieren von Begriffen hilfreich, um die unklaren Punkte zu klären, aber sie dürfen kein Selbstzweck sein. Ein Einverständnis über die Terminologie zu erreichen, hilft mir, mein Denken zu strukturieren und hilft Dir, einige Grundlagen zu verstehen und hilft uns, auf der gleichen Seite zu sein.
Ich verspreche, dass wir in anderen Artikeln wieder auf die praktischeren, substantielleren Themen fokussieren werden, wie die Entwicklung, geschäftliche Überlegungen und reale Anwendungen von KI-Agenten.
Dieser Artikel sollte jedoch dazu beitragen, dass Klarheit und Konsens darüber herrscht, was die Begriffe bedeuten, was für eine effektive Kommunikation und Verständnis entscheidend ist, insbesondere in einem so komplexen und sich schnell entwickelnden Feld wie der KI.
Einleitung
Es ist immer schön, wenn eine kluge Person, die tief im Thema steckt – oder wie man heutzutage sagt, in der Arena ist – fließend beschreibt, was man selbst schon eine Weile gedacht hat, aber selbst die klügsten Köpfe auf Twitter konnten keine sinnvolle Debatte über einen Begriff führen.
Dharmesh Shahs erster Artikel in seinem neuen Blog agent.ai handelt genau von der Unterscheidung von KI-Agenten. Es macht Sinn, das Thema zu sezieren, indem man fragt Was ist Agent KI, wenn die ganze Seite agent.ai heißt (was er auf Twitter sagte, war eine ziemlich teure Domain zu kaufen).
Während seine Quellen Erfahrung und Twitter sind, sind meine Wikipedia und weniger erfolgreich Twitter – obwohl Twitter den Funken in meinem Kopf entzündet hat.
Was für eine großartige Gelegenheit, einige Schleifen in meiner Forschung zu schließen, meine Gedanken mit seiner Hilfe zu festigen und sie aus meiner Perspektive zu verstehen und zu teilen.
Was sind KI-Agenten?
In Gesprächen über KI werden viele Begriffe wie GPT, LLM, Prompt-Engineering, RAG, Agent, oft austauschbar verwendet.
In meiner Definition ist ein KI-Agent wie ein Trupp auf einer Mission:
KI-Agent: Eine KI mit Handlungsfähigkeit, z. B. eine fähige KI, der von einem Benutzer, einschließlich nicht-menschlichen Benutzern, zielorientierte (vordefinierte) Ziele oder Aufgaben gegeben wurden.
Dharmesh Shah nennt sie Agent KI und definiert sie als:
Agent KI: Software, die künstliche Intelligenz nutzt, um ein bestimmtes Ziel zu verfolgen. Dies erreicht sie, indem sie das Ziel in handhabbare Aufgaben zerlegt, ihren Fortschritt überwacht und bei Bedarf mit digitalen Ressourcen und anderen Agenten interagiert.
Ein LLM ist ein Sprachmodell, das jedoch kein Agent ist, da es kein Ziel hat, aber es kann als Komponente eines intelligenten Agenten verwendet werden.
Ein Großes Sprachmodell (LLM) ist ein künstliches neuronales Netzwerk – wie Dein Gehirn –, das anhand von Daten vortrainiert wurde. Wie Du, als Du von der Schule abgingst, wurden die neuronalen Verbindungen in Deinen verschiedenen Gehirnteilen auf eine bestimmte Weise aufgebaut.
Und GPT (Generative Pre-trained Transformer) ist eine der Architekturen, wie dieses Gehirn trainiert und neuronale Verbindungen hergestellt werden.
Also gingen sie zur OpenAI-Schule, um auf die GPT-Art trainiert zu werden.
Je nachdem, welches Trainingsprogramm und welche Iteration – GPT-3.5 oder GPT-4 etc. – haben die Modelle unterschiedliche Fähigkeiten. Genau wie, wenn Du auf eine Kunstschule im Gegensatz zu einer MINT-Schule gegangen bist.
Und aus dieser Ausbildungsstätte ist ein neuronales Netzwerk entstanden, mit dem Du jetzt durch Texteingabe (eine Chat-Benutzeroberfläche (UI)) sprechen kannst.
Jetzt gibt es GPTs wie GPT-4, das in ChatGPT verwendet wird.
Mit der Ankündigung von OpenAI Anfang November kannst Du jetzt „Deinen eigenen GPT bauen“ = Deinen eigenen KI-Agenten bauen mit ChatGPT auf zwei Arten. Erstens, indem Du Deinen KI-Agenten nur mit einer Chat-Schnittstelle baust. Und dann, um mit Deinem KI-Agenten nur mit einer Chat-Schnittstelle zu kommunizieren.
Das ist wie der erste kommerzielle Webbrowser im Jahr 1995, der es Dir ermöglichte, das Web mit einer grafischen Benutzeroberfläche GUI zu durchsuchen, was zuvor ein textbasiertes Kommando war.
Das ist gewaltig: Deinen eigenen Agenten auf Basis von OpenAIs LLM ohne vorherige Programmierkenntnisse zu bauen, mit dem Du dann über eine Chat-Schnittstelle kommunizieren kannst.
Es geht über Prompt-Engineering hinaus, denn Dein eigener GPT, den Du vordefinierte Ziele oder Aufgaben hast.
Ich denke, das Verständnis des Konzepts „intelligenter Agenten“ ist grundlegend, um zu diskutieren, wie Große Sprachmodelle (LLMs) wie GPT-4 in sie integriert werden können, um Zielorientierung und Handlungsfähigkeit zu bieten.
Können es "KI-Softwareagenten" geben? Oder nur "KI-Intelligente Agenten"?
Die Unterscheidung zwischen "KI-Softwareagenten" und "KI-Intelligenten Agenten" erscheint wie eine theoretische Übung, besonders da die Grenzen zwischen diesen Kategorien in realen Anwendungen oft verwischt sind und praktisch unbedeutend.
Diese Art der Unterscheidung kann jedoch als nützliches Rahmenwerk für Entwickler, Forscher und Nutzer dienen, um die große und wachsende Landschaft von KI-getriebenen Softwaresystemen zu verstehen und zu klassifizieren.
Die Begriffe "KI-Softwareagenten" und "KI-Intelligente Agenten" können tatsächlich auf ähnliche Konzepte verweisen, betonen aber unterschiedliche Aspekte.