Beyond Bard: Google uruchamia Gemini, multimodalną sztuczną inteligencję, aby rzucić wyzwanie ChatGPT

Google oszołomiło w środę świat technologii debiutem Gemini, konsumenckiego i biznesowego pakietu multimodalnych narzędzi sztucznej inteligencji.

Wśród gigantów technologicznych agresywnie dążących do sztucznej inteligencji, tytan wyszukiwania Google wydawał się pływać w środkowej przestrzeni, ponieważ wspierany przez Microsoft OpenAI popchnął ChatGPT do Turbo, a Vision i Anthropic ulepszyły Claude. Na dzień dzisiejszy Google wychodzi z bramki z trzema wersjami Gemini – Nano, Pro i Ultra – które płynnie rozumieją i integrują tekst, obrazy, audio i wideo.

Gemini wydaje się być w stanie przewyższyć najlepsze modele sztucznej inteligencji z OpenAI, które właśnie opublikowały listę nowych możliwości, ale wkrótce potem zostały pochowane przez korporacyjne intrygi.

Najbardziej zaawansowana wersja, Gemini Ultra, osiągnęła dobre wyniki w kilku popularnych testach porównawczych, w niektórych przypadkach dorównując lub przewyższając wydajność człowieka. Na przykład, ustanowiła nowe rekordy w 30 z 32 testów porównawczych w egzaminie MMLU, który obejmuje różne przedmioty akademickie.

Kluczową cechą Gemini jest jego „natywnie multimodalne” szkolenie, pozwalające mu przetwarzać wiele typów danych, takich jak tekst, obrazy i dźwięk jako dane wejściowe i wyjściowe. Takie podejście oznacza, że model został zbudowany i przeszkolony od podstaw w celu zrozumienia różnych danych wejściowych, a nie w wyniku późniejszego połączenia dyskretnych trybów i modułów.

Najpopularniejsze obecnie multimodalne SI są zgodne z tą drugą mapą drogową. Na przykład ChatGPT łączy GPT-4 Turbo z Dall-E 3 do przetwarzania tekstu w celu generowania obrazów, GPT-4 Vision do przetwarzania obrazów oraz specjalny moduł kodujący do obliczeń. W rezultacie LLM jest zdegradowany do roli koordynatora pomiędzy różnymi modelami sztucznej inteligencji, które nie mogą niezależnie zrozumieć pełnej natury konkretnego problemu.

Ograniczenie to może również prowadzić do luk w zabezpieczeniach, takich jak prompt injection. Na przykład, techniki pozwalające obejść mechanizmy kontroli bezpieczeństwa obowiązujące dla podpowiedzi tekstowych poprzez napisanie lub wydrukowanie ich na kartce papieru, zrobienie zdjęcia i poproszenie modułu wizualnego o jego przetworzenie.

Google Gemini pokazuje świetne wyniki w benchmarkach AI. Image: Google

W przeciwieństwie do tego, wczesne oceny jakościowe Gemini ujawniają jego niezwykłą zdolność do przeprowadzania rozumowania crossmodalnego. Na przykład w środowisku edukacyjnym Gemini może zrozumieć złożone problemy z fizyki, przekształcając je w formuły matematyczne i zapewniając prawidłowe rozwiązania. Zdolność ta otwiera transformacyjne ścieżki w edukacji, a także w innych dziedzinach.

Tradycyjne maszyny LLM zazwyczaj nie są zbyt dobre w matematyce, więc zdolności rozumowania multimodalnych maszyn LLM z rodziny Gemini zasługują na uwagę.

W innym teście porównawczym skoncentrowanym na multimodalnym rozumieniu języka, Gemini Ultra osiągnął ponad 90% dokładności, przewyższając inne istniejące modele. Google twierdzi, że testy preferencji ludzkich wykazały również wyraźną preferencję dla Gemini w stosunku do modeli takich jak PaLM 2 w obszarach takich jak kreatywne pisanie.

Mniejsza usługa, Gemini Nano, została zaprojektowana z myślą o wydajności na urządzeniu, wyróżniając się w podsumowywaniu, czytaniu ze zrozumieniem i różnych zadaniach rozumowania. Pomimo mniejszych rozmiarów, Gemini Nano wykazuje niezwykłą wydajność w porównaniu do większego modelu Gemini Pro. Oznacza to, że Gemini może stać się preferowaną sztuczną inteligencją do zasilania mobilnych asystentów, którzy mogą lub muszą pracować w trybie offline.

Gemini wygląda na bardzo mocny debiut, pod każdym względem. A ponieważ możliwości sztucznej inteligencji Google są ulepszane, ich wszechstronność może umożliwić nowe zastosowania w wielu dziedzinach. Na razie jednak wymagane są dalsze testy w świecie rzeczywistym, aby określić realistyczne poziomy wydajności.

Użytkownicy mogą przetestować dopracowaną wersję Gemini Pro już dziś dzięki Bard. Gemini Ultra zostanie wydany w przyszłym roku w nowej wersji chatbota Google o nazwie Bard Advanced. Google ostatecznie spodziewa się uruchomić Gemini w ponad 170 różnych językach i wykorzystać tę technologię do zasilania swojej linii Pixel Lineup i Search Generative Experience.

Beyond Bard: Google uruchamia Gemini, multimodalną sztuczną inteligencję, aby rzucić wyzwanie ChatGPT

Portal Crypto Gaming Platform dodaje współzałożyciela Rockstar wśród szału Airdropów

Założyciel FaZe Clan Banks mówi, że Ethereum stanowi „duży procent” jego wartości netto

Related Posts

Leave a Comment Cancel Reply