Chociaż sztuczna inteligencja eksplodowała na scenie dzięki czasami niesamowicie sprytnym chatbotom, interakcje oparte na tekście są już staromodne. Ogłoszenie aktualizacji GPT-4 OpenAI wprowadziło GPT-Vision (GPT-V), najnowszy multimodalny cud sztucznej inteligencji. Zapowiedź ta staje się teraz rzeczywistością, ponieważ użytkownicy wreszcie mają szansę przetestować pełny potencjał jej możliwości.
Multimodalny duży model językowy (LLM) oznacza, że może on wchodzić w interakcje nie tylko ze słowem pisanym, ale także za pośrednictwem innych trybów. W tym przypadku nowy GPT-V może rozumieć obrazy i pracować z nimi. Ponadto, dzięki nowemu generatywnemu narzędziu artystycznemu DALL-E 3, ChatGPT może zarówno przyjmować obrazy jako dane wejściowe, jak i generować obrazy jako dane wyjściowe.
Te nowe możliwości podniosły brwi w całej przestrzeni technologicznej, gdy użytkownicy sprawdzili je w praktyce. Czy mogą dekodować zredagowane dokumenty rządowe dotyczące obserwacji UFO? Tak. „ChatGPT-4V Multimodal dekoduje zredagowany dokument rządowy dotyczący obserwacji UFO wydany przez NASA” – zachwala jeden z tweetów. „Może prawda nie jest tam, jest tutaj, w GPT-V.”
ChatGPT-4V Multimodal dekoduje zredagowany dokument rządowy dotyczący obserwacji UFO wydany przez NASA.
Przetestowałem to na setkach zredagowanych dokumentów i mogę powiedzieć, że jesteśmy w nowym świecie. pic.twitter.com/aCKOm577TO
– Brian Roemmele (@BrianRoemmele) 6 października 2023
Próba wypełnienia luk w ciągu tekstu jest w zasadzie tym, co robią LLM. Użytkownik zrobił kolejną najlepszą rzecz, próbując przetestować możliwości GPT-V i zmusił go do odgadnięcia części tekstu, który ocenzurował. „Prawie 100% dokładności intencji” – poinformował.
Oczywiście trudno jest zweryfikować, czy jego domysły na temat tego, co jest zasłonięte, są dokładne – to nie tak, że możemy zapytać CIA, jak dobrze poradziła sobie z podglądaniem przez czarne linie.
Jeszcze trudniejsze niż odkrycie informacji, które zostały ocenzurowane przez rząd, jest próba zrozumienia tajemniczego pisma odręcznego lekarza. Ale GPT-V może rozszyfrować te bazgroły. Za pomocą uprzejmego monitu GPT-V może nadać sens nawet najbardziej nieczytelnym notatkom lekarza, zapewniając, że „weź dwie tabletki” nie stanie się „upiecz niebieskie gofry”.
ChatGPT-4V Multimodal.
Monit: „Rozszyfruj ten dokument. Zastanówmy się krok po kroku. Ważne jest, aby być dokładnym. Dziękuję” pic.twitter.com/b7FPuPVRn9
– Brian Roemmele (@BrianRoemmele) 6 października 2023
Ale bądź ostrożny. Czasami nawet najbardziej zaawansowana sztuczna inteligencja zawodzi w starciu z doświadczonym – lub cierpiącym na artretyzm – lekarzem, a rozszyfrowanie tych zapisanych enigm może wymagać eksperta.
A dla tych, którzy nie ufają swoim lekarzom, ChatGPT może zapewnić natychmiastową drugą opinię. Model może zrozumieć zdjęcia rentgenowskie i zapewnić analizę i wgląd w konkretne przypadki medyczne.
Niedoceniany przypadek użycia ChatGPT Vision.
Aby zostać radiologiem, trzeba przejść 13 lat szkolenia.
Teraz zamiast sporządzać raport od zera, prawdopodobnie wystarczy przejrzeć diagnozę AI. pic.twitter.com/IhQFe98m5q
– Peter Yang (@petergyang) 2 października 2023
Ale dlaczego poprzestawać na skanowaniu pisma odręcznego i ciała? GPT-V stał się najnowszym domowym guru fitnessu, opracowując plany treningowe dostosowane do sprzętu domowego i celów. A jeśli jesteś ciekawy, ile kalorii jest w posiłku, który zamierzasz zjeść, GPT-V ma Twoje wsparcie. Jeden z użytkowników podzielił się radośnie: „OK ChatGPT 4.0 z nowymi funkcjami widzenia… rozpoznaje wszystko. Nawet fokę na plaży.”
OK ChatGPT 4.0 z nowymi funkcjami wizyjnymi jest całkiem niesamowity.
Tutaj pytam go, ile kalorii jest w rybnym taco, które właśnie zjadłem.
To niesamowite widzieć, jak rozpoznaje wszystko. Nawet fokę na plaży. pic.twitter.com/rfIK5o9ODD
– Robert Scoble (@Scobleizer) 5 października 2023
Entuzjaści projektowania wnętrz, radujcie się! Sztuczna inteligencja oferuje teraz sugestie projektowe i może uwzględniać osobiste preferencje. Wyobraź sobie przestrzeń życiową, która krzyczy „ty”, bez wysokich opłat za projekt. Wystarczy zrobić zdjęcie swojego okropnego pokoju i poprosić GPT-V o sugestie, aby przekształcić go w raj, który chcesz.
Problemy z pracą domową? Po prostu zrób zrzut ekranu zadania, a GPT-V wcieli się w rolę tego pomocnego kolegi z klasy, który zawsze chciał siedzieć obok ciebie.
Dzieci już nigdy nie będą odrabiać prac domowych. pic.twitter.com/rtjJT2xn9l
– Peter Yang (@petergyang) September 27, 2023
ChatGPT rozkłada ten schemat ludzkiej komórki na czynniki pierwsze dla 9-klasisty.
To jest przyszłość edukacji. pic.twitter.com/L0Za0ZB5rs
– Mckay Wrigley (@mckaywrigley) 28 września 2023
A dla maniaków finansów wśród nas, GPT-V to nie tylko zabawa i gry. GPT-V może zagłębić się w analizę techniczną. Wystarczy wprowadzić zrzut ekranu ulubionej (lub najbardziej znienawidzonej) akcji lub kryptowaluty, a aplikacja przeanalizuje wykres i odpowiednio przygotuje prognozy. Pamiętaj tylko, że nie jest to porada finansowa – a jeśli skończysz biedny, żadna sztuczna inteligencja nie uczyni cię bogatym.
IT’S SO OVER FOR TA-OOOOORS
Dałem GPT-V obraz mojego wykresu dla $UBER z kilkoma wskaźnikami i dało to dobre długie wejścia. Przetestuję to na żywo.
Wątek poniżej! pic.twitter.com/k6Su9G0267
– Ropirito (0commoDTE) (@ropirito) 11 października 2023
Pojawienie się multimodalnych LLM na nowo definiuje branże. Wraz z ewolucją tytanów sztucznej inteligencji, GPT-V to tylko wierzchołek góry lodowej. Nadchodzący Gemini firmy Google ma podobno przewyższyć Bard dzięki swojej multimodalnej sprawności. NexT-GPT oferuje alternatywę open-source, a horyzont obiecuje modele wyszkolone do żonglowania słowami, dźwiękami, filmami i obrazami.
Takie postępy to nie tylko technobełkot – mają one implikacje, które mogą zmienić nasze codzienne interakcje, zawody, a może nawet nasz światopogląd. Podczas gdy OpenAI jest pionierem z GPT-V, konkurenci nie są daleko w tyle. Czy możemy być na krawędzi renesansu sztucznej inteligencji?
Cóż, jeśli nadal używasz sztucznej inteligencji tylko do czatu, możesz już pozostawać w tyle. Sztuczna inteligencja potrafi czytać i widzieć, a każdego dnia zyskuje coraz więcej możliwości.
GPT-V może również zrujnować zabawę z książką „Gdzie jest Waldo?”. Dlaczego ktoś miałby tego chcieć? To jest terytorium ChaosGPT.
„Znalazłem go!” pic.twitter.com/LhMQ8e29x2
– Pietro Schirano (@skirano) 29 września 2023