Home » OpenAI aktualizuje ChatGPT: Chatbot s umělou inteligencí nyní “vidí, slyší a mluví”.

OpenAI aktualizuje ChatGPT: Chatbot s umělou inteligencí nyní „vidí, slyší a mluví“.

by Tim

OpenAI představila velmi očekávaná vylepšení, která umožní jejímu populárnímu chatbotu ChatGPT komunikovat pomocí obrázků a hlasů. Toto spuštění představuje významný krok směrem k vizi společnosti OpenAI o umělé obecné inteligenci, která dokáže vnímat a zpracovávat informace z více způsobů, nejen z textu.

„Začínáme zavádět nové hlasové a obrazové funkce v ChatGPT. Nabízejí nový, intuitivnější typ rozhraní tím, že umožňují vést hlasovou konverzaci nebo ukázat ChatGPT, o čem mluvíte,“ uvedla společnost OpenAI ve svém oficiálním příspěvku na blogu.

OpenAI uvedla, že nový ChatGPT-Plus bude obsahovat hlasový chat využívající nový model převodu textu na řeč, který dokáže napodobit lidský hlas, a možnost diskutovat o obrázcích díky integraci s modely společnosti pro generování obrázků. Nové funkce jsou zřejmě součástí tzv. GPT Vision (nebo GPT-V, který je často zaměňován s teoretickým GPT-5) a představují klíčové součásti vylepšené multimodální verze GPT-4, kterou společnost OpenAI teasovala na začátku tohoto roku.

Toto vylepšení přichází hned poté, co společnost OpenAI představila DALL-E 3, svůj dosud nejpokročilejší generátor převodu textu na obraz. DALL-E 3, který první testeři označili za „šílený“ díky jeho kvalitě a přesnosti, dokáže vytvářet vysoce věrné obrázky z textových podnětů a zároveň rozumí složitému kontextu a pojmům vyjádřeným v přirozeném jazyce. Bude zabudován do ChatGPT Plus, služby založené na předplatném, která nabízí ChatGPT poháněný GPT-4.

Integrace DALL-E 3 a konverzačního hlasového chatu znamená snahu společnosti OpenAI o vytvoření asistentů umělé inteligence, kteří dokáží vnímat svět více jako lidé – pomocí více smyslů. Podle společnosti: „Hlas a obraz vám dávají více možností, jak ChatGPT používat ve svém životě. Vyfoťte na cestách nějakou pamětihodnost a živě konverzujte o tom, co je na ní zajímavého.“

Microsoft podporuje závod v umělé inteligenci integrací OpenAI

Největší podporovatel OpenAI, společnost Microsoft, rovněž pokračuje v integraci pokročilých schopností generativní AI OpenAI do svých vlastních spotřebitelských produktů. Na své nedávné podzimní akci Microsoft oznámil vylepšení AI pro Windows 11, Office a vyhledávání Bing s využitím modelů, jako je DALL-E 3 (v programech pro úpravu obrázků, jako je modernizovaný Microsoft Paint) a Copilot, programovací asistent OpenAI.

To je v souladu s investicí společnosti Microsoft do OpenAI ve výši více než 10 miliard dolarů, protože jejím cílem je stát se lídrem v závodě o asistenta umělé inteligence. Debut Copilota v systému Windows 11 26. září slibuje, že pomoc AI bude dostupná na všech platformách a zařízeních společnosti Microsoft. Mezitím Microsoft 365 Chat využívá schopnosti OpenAI v oblasti přirozeného jazyka k automatizaci složitých pracovních úkolů.

Jak již dříve informoval TCN, společnost Microsoft uvedla, že „Microsoft 365 Chat prochází celý váš pracovní vesmír dat, včetně e-mailů, schůzek, chatů, dokumentů a dalších, a navíc i web.“

Obezřetné kroky k odpovědné umělé inteligenci

OpenAI si však velmi dobře uvědomuje potenciální rizika spojená s výkonnějšími multimodálními systémy umělé inteligence zahrnujícími generování zraku a hlasu. Klíčovými obavami jsou napodobování, zkreslení a spoléhání se na vizuální interpretaci.

„Cílem OpenAI je vytvořit AGI, která bude bezpečná a přínosná,“ píše společnost ve svém oznámení. „Věříme v postupné zpřístupňování našich nástrojů, což nám umožňuje v průběhu času provádět vylepšení a zdokonalovat omezení rizik a zároveň všechny připravit na výkonnější systémy v budoucnosti.“

Jak již dříve informoval TCN, společnost OpenAI sestavuje červený tým, který bude pracovat na způsobech, jak zabránit škodlivým následkům v důsledku nesprávného používání jejích produktů AI. Generální ředitel Sam Altman také lobbuje po celém světě za příznivou legislativu.

Společnost OpenAI uvedla, že uživatelé aplikací Plus a Enterprise budou mít k těmto novým funkcím přístup v průběhu příštích dvou týdnů, přičemž následně plánuje rozšířit dostupnost pro vývojáře. A vzhledem k tomu, že společnost Google rovněž oznámila svůj vlastní revoluční multimodální LLM Gemini, závod o dominanci v odvětví umělé inteligence právě začíná

Related Posts

Leave a Comment