Home » Selbst die schlechteste Version von Claude AI ist besser als GPT 3.5, sagen Forscher

Selbst die schlechteste Version von Claude AI ist besser als GPT 3.5, sagen Forscher

by Thomas

Die KI-Branche ist Zeuge eines spannenden Wettbewerbs zwischen den bekannten KI-Modellen ChatGPT und Claude. Die Large Model Systems Organization (LMSO), die für die Erstellung der Chatbot-Arena und des renommierten Vicuna-Modells verantwortlich ist, hat gerade ihr Chatbot-Arena-Leaderboard aktualisiert, das zeigt, wie jeder KI-Chatbot im Vergleich zu seinen Konkurrenten abschneidet. Es hat sich herausgestellt, dass Anthropic OpenAI den Rang abläuft, auch wenn seine Modelle immer noch kostenlos zu verwenden sind.

GPT-4, das Kraftpaket hinter ChatGPT Plus und Bing AI, führt die Rangliste mit der höchsten Punktzahl an und setzt den Goldstandard für große Sprachmodelle (LLMs). Auf dem Weg nach unten in der Rangliste entfaltet sich jedoch eine unerwartete Außenseiterstory. Die Claude-Modelle von Anthropic – Claude 1, Claude 2 und Claude Instant – übertreffen alle GPT-3.5, die Engine, die die kostenlose Version von ChatGPT betreibt. Dies bedeutet, dass jedes von Anthropic entwickelte Large Language Model die kostenlose Version von ChatGPT übertreffen kann.

Das akribische Ranking-System des LMSO gab Aufschluss über die Leistungsmetriken dieser Modelle. Laut der Rangliste liegt GPT-4 mit einer Arena-Elo-Bewertung von 1181 deutlich an der Spitze, während die Claude-Modelle mit Bewertungen zwischen 1119 und 1155 dicht folgen. GPT-3.5 hingegen liegt mit einer Bewertung von 1115 zurück.

Um die Modelle in eine Rangfolge zu bringen, lässt das LMSO sie in Spielen mit ähnlichen Aufforderungen „kämpfen“. Das Modell mit der besten Antwort gewinnt, das andere verliert. Die Nutzerinnen und Nutzer entscheiden aufgrund ihrer eigenen Präferenzen, wer gewinnt, aber sie erfahren nie, welche Modelle gegeneinander antreten.

Image: LMSO

Image: LMSO


Wie TCN bereits berichtete, ist der Unterschied in den Token-Verarbeitungsfähigkeiten zwischen ChatGPT Plus und Claude Pro, obwohl kein Faktor im LMSO-Ranking, auch ein großer Vorteil, den die Claude-Modelle gegenüber GPT haben.

„Claude Pro, das auf dem Claude 2 LLM basiert, kann bis zu 100.000 Token an Informationen verarbeiten, während ChatGPT Plus, das auf dem GPT-4 LLM basiert, 8.192 Token verarbeiten kann“, erinnerten wir. Dieser Unterschied in der Fähigkeit, Token zu verarbeiten, unterstreicht den Vorteil der Claude-Modelle bei der Verwaltung umfangreicher kontextbezogener Eingaben, die für eine nuancierte und bereichernde Benutzererfahrung entscheidend sind.

Darüber hinaus hat sich Claude 2 bei der Verarbeitung langer Eingabeaufforderungen gegenüber GPT als überlegen erwiesen, da es Eingabeaufforderungen größeren Umfangs effizienter verarbeiten kann. Bei vergleichbaren Aufforderungen liefern Claude 1 und Claude Instant jedoch ähnliche oder leicht bessere Ergebnisse als GPT-3.5, was die Konkurrenzfähigkeit dieser Modelle unterstreicht. Mit den Kontextfähigkeiten von Claude kann eine schlechte erste Antwort durch eine verfeinerte, größere und reichhaltigere Aufforderung drastisch verbessert werden.

Open-Source-Modelle liegen in diesem Rennen nicht weit zurück.

WizardLM, ein Modell, das auf Meta’s LlaMA-2 mit 70 Milliarden Parametern trainiert wurde, sticht als bestes Open-Source-LLM hervor. Dicht gefolgt von Vicuna 33B und dem ursprünglichen LlaMA-2, das von Meta veröffentlicht wurde:

Open-Source-Modelle spielen aus verschiedenen Gründen eine wichtige Rolle bei der Entwicklung des KI-Bereichs. Sie können lokal betrieben werden, was den Nutzern die Möglichkeit gibt, sie zu verfeinern, und die Gemeinschaft in eine gemeinsame Anstrengung zur Perfektionierung des Modells einbindet. Außerdem sind sie aufgrund ihrer Lizenzen billiger zu betreiben, weshalb es in diesem Bereich Dutzende von Open-Source-LLMs und nur eine Handvoll proprietärer Modelle gibt.

Aber bei den KI-Chatbots geht es nicht nur um Zahlen. Es geht um die Auswirkungen auf die reale Welt.

Da Chatbots in verschiedenen Sektoren vom Kundendienst bis zu persönlichen Assistenten zum Einsatz kommen, sind ihre Effizienz, Anpassungsfähigkeit und Genauigkeit von größter Bedeutung. Mit Claude-Modellen, die höher als GPT-3.5 eingestuft sind, könnten sich Unternehmen und einzelne Nutzer an einem Scheideweg wiederfinden, um zu bewerten, welches Modell am besten zu ihren Bedürfnissen passt. TCN hat zwei Leitfäden erstellt, die Ihnen bei der Entscheidung helfen sollen, welches Modell am besten zu Ihnen passt:

Für Uneingeweihte mag dies wie eine weitere Aktualisierung der Rangliste erscheinen. Aber für diejenigen, die die KI-Branche genau beobachten, ist es ein Beweis dafür, wie hart der Wettbewerb ist und wie schnell sich die Gezeiten ändern können. Und für den Rest von uns, der sich zwischen diesen beiden Lagern befindet, ist es eine Erinnerung daran, dass in der KI-Welt das beliebteste Modell von heute zum effizientesten werden kann.

Related Posts

Leave a Comment