Home » Beyond Bard: Google uruchamia Gemini, multimodalną sztuczną inteligencję, aby rzucić wyzwanie ChatGPT

Beyond Bard: Google uruchamia Gemini, multimodalną sztuczną inteligencję, aby rzucić wyzwanie ChatGPT

by Patricia

Google oszołomiło w środę świat technologii debiutem Gemini, konsumenckiego i biznesowego pakietu multimodalnych narzędzi sztucznej inteligencji.

Wśród gigantów technologicznych agresywnie dążących do sztucznej inteligencji, tytan wyszukiwania Google wydawał się pływać w środkowej przestrzeni, ponieważ wspierany przez Microsoft OpenAI popchnął ChatGPT do Turbo, a Vision i Anthropic ulepszyły Claude. Na dzień dzisiejszy Google wychodzi z bramki z trzema wersjami Gemini – Nano, Pro i Ultra – które płynnie rozumieją i integrują tekst, obrazy, audio i wideo.

Gemini wydaje się być w stanie przewyższyć najlepsze modele sztucznej inteligencji z OpenAI, które właśnie opublikowały listę nowych możliwości, ale wkrótce potem zostały pochowane przez korporacyjne intrygi.

Najbardziej zaawansowana wersja, Gemini Ultra, osiągnęła dobre wyniki w kilku popularnych testach porównawczych, w niektórych przypadkach dorównując lub przewyższając wydajność człowieka. Na przykład, ustanowiła nowe rekordy w 30 z 32 testów porównawczych w egzaminie MMLU, który obejmuje różne przedmioty akademickie.

Kluczową cechą Gemini jest jego „natywnie multimodalne” szkolenie, pozwalające mu przetwarzać wiele typów danych, takich jak tekst, obrazy i dźwięk jako dane wejściowe i wyjściowe. Takie podejście oznacza, że model został zbudowany i przeszkolony od podstaw w celu zrozumienia różnych danych wejściowych, a nie w wyniku późniejszego połączenia dyskretnych trybów i modułów.

Najpopularniejsze obecnie multimodalne SI są zgodne z tą drugą mapą drogową. Na przykład ChatGPT łączy GPT-4 Turbo z Dall-E 3 do przetwarzania tekstu w celu generowania obrazów, GPT-4 Vision do przetwarzania obrazów oraz specjalny moduł kodujący do obliczeń. W rezultacie LLM jest zdegradowany do roli koordynatora pomiędzy różnymi modelami sztucznej inteligencji, które nie mogą niezależnie zrozumieć pełnej natury konkretnego problemu.

Ograniczenie to może również prowadzić do luk w zabezpieczeniach, takich jak prompt injection. Na przykład, techniki pozwalające obejść mechanizmy kontroli bezpieczeństwa obowiązujące dla podpowiedzi tekstowych poprzez napisanie lub wydrukowanie ich na kartce papieru, zrobienie zdjęcia i poproszenie modułu wizualnego o jego przetworzenie.

Google Gemini pokazuje świetne wyniki w benchmarkach AI. Image: Google

Google Gemini pokazuje świetne wyniki w benchmarkach AI. Image: Google


W przeciwieństwie do tego, wczesne oceny jakościowe Gemini ujawniają jego niezwykłą zdolność do przeprowadzania rozumowania crossmodalnego. Na przykład w środowisku edukacyjnym Gemini może zrozumieć złożone problemy z fizyki, przekształcając je w formuły matematyczne i zapewniając prawidłowe rozwiązania. Zdolność ta otwiera transformacyjne ścieżki w edukacji, a także w innych dziedzinach.

Tradycyjne maszyny LLM zazwyczaj nie są zbyt dobre w matematyce, więc zdolności rozumowania multimodalnych maszyn LLM z rodziny Gemini zasługują na uwagę.

W innym teście porównawczym skoncentrowanym na multimodalnym rozumieniu języka, Gemini Ultra osiągnął ponad 90% dokładności, przewyższając inne istniejące modele. Google twierdzi, że testy preferencji ludzkich wykazały również wyraźną preferencję dla Gemini w stosunku do modeli takich jak PaLM 2 w obszarach takich jak kreatywne pisanie.

Mniejsza usługa, Gemini Nano, została zaprojektowana z myślą o wydajności na urządzeniu, wyróżniając się w podsumowywaniu, czytaniu ze zrozumieniem i różnych zadaniach rozumowania. Pomimo mniejszych rozmiarów, Gemini Nano wykazuje niezwykłą wydajność w porównaniu do większego modelu Gemini Pro. Oznacza to, że Gemini może stać się preferowaną sztuczną inteligencją do zasilania mobilnych asystentów, którzy mogą lub muszą pracować w trybie offline.

Gemini wygląda na bardzo mocny debiut, pod każdym względem. A ponieważ możliwości sztucznej inteligencji Google są ulepszane, ich wszechstronność może umożliwić nowe zastosowania w wielu dziedzinach. Na razie jednak wymagane są dalsze testy w świecie rzeczywistym, aby określić realistyczne poziomy wydajności.

Użytkownicy mogą przetestować dopracowaną wersję Gemini Pro już dziś dzięki Bard. Gemini Ultra zostanie wydany w przyszłym roku w nowej wersji chatbota Google o nazwie Bard Advanced. Google ostatecznie spodziewa się uruchomić Gemini w ponad 170 różnych językach i wykorzystać tę technologię do zasilania swojej linii Pixel Lineup i Search Generative Experience.

Related Posts

Leave a Comment