Home » Od czytania zdjęć rentgenowskich po dekodowanie tajnych raportów o UFO – ChatGPT prezentuje swoją wizję

Od czytania zdjęć rentgenowskich po dekodowanie tajnych raportów o UFO – ChatGPT prezentuje swoją wizję

by v

Chociaż sztuczna inteligencja eksplodowała na scenie dzięki czasami niesamowicie sprytnym chatbotom, interakcje oparte na tekście są już staromodne. Ogłoszenie aktualizacji GPT-4 OpenAI wprowadziło GPT-Vision (GPT-V), najnowszy multimodalny cud sztucznej inteligencji. Zapowiedź ta staje się teraz rzeczywistością, ponieważ użytkownicy wreszcie mają szansę przetestować pełny potencjał jej możliwości.

Multimodalny duży model językowy (LLM) oznacza, że może on wchodzić w interakcje nie tylko ze słowem pisanym, ale także za pośrednictwem innych trybów. W tym przypadku nowy GPT-V może rozumieć obrazy i pracować z nimi. Ponadto, dzięki nowemu generatywnemu narzędziu artystycznemu DALL-E 3, ChatGPT może zarówno przyjmować obrazy jako dane wejściowe, jak i generować obrazy jako dane wyjściowe.

Te nowe możliwości podniosły brwi w całej przestrzeni technologicznej, gdy użytkownicy sprawdzili je w praktyce. Czy mogą dekodować zredagowane dokumenty rządowe dotyczące obserwacji UFO? Tak. „ChatGPT-4V Multimodal dekoduje zredagowany dokument rządowy dotyczący obserwacji UFO wydany przez NASA” – zachwala jeden z tweetów. „Może prawda nie jest tam, jest tutaj, w GPT-V.”

Próba wypełnienia luk w ciągu tekstu jest w zasadzie tym, co robią LLM. Użytkownik zrobił kolejną najlepszą rzecz, próbując przetestować możliwości GPT-V i zmusił go do odgadnięcia części tekstu, który ocenzurował. „Prawie 100% dokładności intencji” – poinformował.

Oczywiście trudno jest zweryfikować, czy jego domysły na temat tego, co jest zasłonięte, są dokładne – to nie tak, że możemy zapytać CIA, jak dobrze poradziła sobie z podglądaniem przez czarne linie.

Jeszcze trudniejsze niż odkrycie informacji, które zostały ocenzurowane przez rząd, jest próba zrozumienia tajemniczego pisma odręcznego lekarza. Ale GPT-V może rozszyfrować te bazgroły. Za pomocą uprzejmego monitu GPT-V może nadać sens nawet najbardziej nieczytelnym notatkom lekarza, zapewniając, że „weź dwie tabletki” nie stanie się „upiecz niebieskie gofry”.

Ale bądź ostrożny. Czasami nawet najbardziej zaawansowana sztuczna inteligencja zawodzi w starciu z doświadczonym – lub cierpiącym na artretyzm – lekarzem, a rozszyfrowanie tych zapisanych enigm może wymagać eksperta.

A dla tych, którzy nie ufają swoim lekarzom, ChatGPT może zapewnić natychmiastową drugą opinię. Model może zrozumieć zdjęcia rentgenowskie i zapewnić analizę i wgląd w konkretne przypadki medyczne.

Ale dlaczego poprzestawać na skanowaniu pisma odręcznego i ciała? GPT-V stał się najnowszym domowym guru fitnessu, opracowując plany treningowe dostosowane do sprzętu domowego i celów. A jeśli jesteś ciekawy, ile kalorii jest w posiłku, który zamierzasz zjeść, GPT-V ma Twoje wsparcie. Jeden z użytkowników podzielił się radośnie: „OK ChatGPT 4.0 z nowymi funkcjami widzenia… rozpoznaje wszystko. Nawet fokę na plaży.”

Entuzjaści projektowania wnętrz, radujcie się! Sztuczna inteligencja oferuje teraz sugestie projektowe i może uwzględniać osobiste preferencje. Wyobraź sobie przestrzeń życiową, która krzyczy „ty”, bez wysokich opłat za projekt. Wystarczy zrobić zdjęcie swojego okropnego pokoju i poprosić GPT-V o sugestie, aby przekształcić go w raj, który chcesz.

Problemy z pracą domową? Po prostu zrób zrzut ekranu zadania, a GPT-V wcieli się w rolę tego pomocnego kolegi z klasy, który zawsze chciał siedzieć obok ciebie.

A dla maniaków finansów wśród nas, GPT-V to nie tylko zabawa i gry. GPT-V może zagłębić się w analizę techniczną. Wystarczy wprowadzić zrzut ekranu ulubionej (lub najbardziej znienawidzonej) akcji lub kryptowaluty, a aplikacja przeanalizuje wykres i odpowiednio przygotuje prognozy. Pamiętaj tylko, że nie jest to porada finansowa – a jeśli skończysz biedny, żadna sztuczna inteligencja nie uczyni cię bogatym.

Pojawienie się multimodalnych LLM na nowo definiuje branże. Wraz z ewolucją tytanów sztucznej inteligencji, GPT-V to tylko wierzchołek góry lodowej. Nadchodzący Gemini firmy Google ma podobno przewyższyć Bard dzięki swojej multimodalnej sprawności. NexT-GPT oferuje alternatywę open-source, a horyzont obiecuje modele wyszkolone do żonglowania słowami, dźwiękami, filmami i obrazami.

Takie postępy to nie tylko technobełkot – mają one implikacje, które mogą zmienić nasze codzienne interakcje, zawody, a może nawet nasz światopogląd. Podczas gdy OpenAI jest pionierem z GPT-V, konkurenci nie są daleko w tyle. Czy możemy być na krawędzi renesansu sztucznej inteligencji?

Cóż, jeśli nadal używasz sztucznej inteligencji tylko do czatu, możesz już pozostawać w tyle. Sztuczna inteligencja potrafi czytać i widzieć, a każdego dnia zyskuje coraz więcej możliwości.

GPT-V może również zrujnować zabawę z książką „Gdzie jest Waldo?”. Dlaczego ktoś miałby tego chcieć? To jest terytorium ChaosGPT.

Related Posts

Leave a Comment