OpenAI aktualizuje ChatGPT: Chatbot AI może teraz "widzieć, słyszeć i mówić"

OpenAI wprowadziło bardzo oczekiwane aktualizacje, które pozwolą popularnemu chatbotowi ChatGPT na interakcję z obrazami i głosami. Ta premiera stanowi ważny krok w kierunku wizji OpenAI dotyczącej sztucznej inteligencji ogólnej, która może postrzegać i przetwarzać informacje z wielu trybów, a nie tylko z tekstu.

„Zaczynamy wdrażać nowe możliwości głosowe i graficzne w ChatGPT. Oferują one nowy, bardziej intuicyjny typ interfejsu, umożliwiając prowadzenie rozmowy głosowej lub pokazanie ChatGPT, o czym mówisz” – powiedział OpenAI w oficjalnym poście na blogu.

OpenAI powiedział, że nowy ChatGPT-Plus będzie zawierał czat głosowy oparty na nowatorskim modelu zamiany tekstu na mowę, zdolnym do naśladowania ludzkich głosów, oraz możliwość omawiania obrazów dzięki integracji z modelami generowania obrazów firmy. Nowe funkcje wydają się być częścią tego, co jest znane jako GPT Vision (lub GPT-V, który jest często mylony z teoretycznym GPT-5) i reprezentują kluczowe elementy ulepszonej multimodalnej wersji GPT-4, którą OpenAI drażnił na początku tego roku

Aktualizacja ta pojawia się zaraz po tym, jak OpenAI zaprezentowało DALL-E 3, swój najbardziej zaawansowany jak dotąd generator tekstu na obraz. Okrzyknięty „szalonym” przez pierwszych testerów ze względu na swoją jakość i dokładność, DALL-E 3 może tworzyć obrazy o wysokiej wierności z podpowiedzi tekstowych, jednocześnie rozumiejąc złożony kontekst i koncepcje wyrażone w języku naturalnym. Będzie on wbudowany w ChatGPT Plus, usługę opartą na subskrypcji, która oferuje ChatGPT zasilany przez GPT-4.

Integracja DALL-E 3 i konwersacyjnego czatu głosowego oznacza nacisk OpenAI na asystentów AI, którzy mogą postrzegać świat bardziej jak ludzie – za pomocą wielu zmysłów. Według firmy: „Głos i obraz dają ci więcej sposobów na wykorzystanie ChatGPT w swoim życiu. Zrób zdjęcie punktu orientacyjnego podczas podróży i porozmawiaj na żywo o tym, co jest w nim interesujące.”

Microsoft podsyca wyścig AI dzięki integracji OpenAI

Największy sponsor OpenAI, firma Microsoft, również dąży do integracji zaawansowanych możliwości generatywnej sztucznej inteligencji OpenAI z własnymi produktami konsumenckimi. Podczas niedawnego jesiennego wydarzenia Microsoft ogłosił aktualizacje AI do Windows 11, Office i wyszukiwarki Bing, wykorzystujące modele takie jak DALL-E 3 (w programach do obróbki obrazu, takich jak odnowiony Paint Microsoftu) i Copilot, asystent programowania OpenAI.

Jest to zgodne z wartą ponad 10 miliardów dolarów inwestycją Microsoftu w OpenAI, której celem jest objęcie pozycji lidera w wyścigu asystentów AI. Debiut Copilota w Windows 11 26 września obiecuje udostępnienie pomocy AI na wszystkich platformach i urządzeniach Microsoftu. Tymczasem Microsoft 365 Chat wykorzystuje umiejętności OpenAI w zakresie języka naturalnego do automatyzacji złożonych zadań roboczych.

Jak wcześniej informował TCN, Microsoft powiedział, że „Microsoft 365 Chat przeczesuje cały wszechświat danych w pracy, w tym e-maile, spotkania, czaty, dokumenty i nie tylko, a także sieć.”

Ostrożne kroki w kierunku odpowiedzialnej sztucznej inteligencji

Jednakże OpenAI jest świadoma potencjalnych zagrożeń związanych z potężniejszymi multimodalnymi systemami sztucznej inteligencji obejmującymi generowanie wizji i głosu. Podszywanie się, stronniczość i poleganie na interpretacji wizualnej to kluczowe obawy.

„Celem OpenAI jest zbudowanie AGI, która jest bezpieczna i korzystna” – napisała firma w swoim komunikacie. „Wierzymy w stopniowe udostępnianie naszych narzędzi, co pozwala nam wprowadzać ulepszenia i udoskonalać ograniczanie ryzyka w miarę upływu czasu, jednocześnie przygotowując wszystkich na potężniejsze systemy w przyszłości.”

Zgodnie z wcześniejszymi doniesieniami TCN, OpenAI tworzy czerwony zespół, który ma pracować nad sposobami zapobiegania szkodliwym konsekwencjom wynikającym z niewłaściwego korzystania z produktów AI. CEO Sam Altman lobbuje również na całym świecie na rzecz korzystnych przepisów.

OpenAI powiedział, że użytkownicy Plus i Enterprise będą mieli dostęp do tych nowych funkcji w ciągu najbliższych dwóch tygodni, a następnie planowane jest rozszerzenie dostępności dla programistów. A ponieważ Google ogłosił również swój własny rewolucyjny multimodalny LLM, Gemini, wyścig o dominację w branży sztucznej inteligencji dopiero się zaczyna

OpenAI aktualizuje ChatGPT: Chatbot AI może teraz „widzieć, słyszeć i mówić”

Microsoft podsyca wyścig AI dzięki integracji OpenAI

Ostrożne kroki w kierunku odpowiedzialnej sztucznej inteligencji

Marvel’s Spider-Man 2 (PS5): Wszystko, co musisz wiedzieć

SEC sprzeciwia się roli Coinbase w planie dystrybucji upadłości Celsius

Related Posts

Leave a Comment Cancel Reply