Beyond Bard: Google spouští Gemini, multimodální umělou inteligenci, která se postaví ChatGPT.

Google ve středu ohromil technologický svět debutem Gemini, sady multimodálních nástrojů umělé inteligence pro spotřebitele i firmy.

Mezi technologickými giganty, kteří se agresivně prosazují v oblasti umělé inteligence, vyhledávací titán Google zdánlivě plaval ve středním prostoru, protože OpenAI podporovaná společností Microsoft vytlačila ChatGPT na Turbo a Vision a Anthropic vylepšily Claude. Od dnešního dne Google vyrukuje se třemi verzemi Gemini – Nano, Pro a Ultra – které bezproblémově rozumí textu, obrázkům, zvuku a videu a integrují je.

Zdá se, že Gemini je připraven překonat špičkové modely AI od OpenAI, které právě zveřejnily seznam nových schopností, ale brzy poté je pohřbily firemní intriky.

Nejpokročilejší verze, Gemini Ultra, dosáhla dobrých výsledků v několika populárních benchmarcích a v některých případech se vyrovnala lidskému výkonu nebo jej dokonce překonala. Například ve zkoušce MMLU, která zahrnuje různé akademické předměty, dosáhla nových rekordů ve 30 z 32 benchmarků.

Klíčovou vlastností systému Gemini je jeho „nativně multimodální“ trénink, který mu umožňuje zpracovávat jako vstupy a výstupy více typů dat, jako je text, obrázky a zvuk. Tento přístup znamená, že model byl od základu sestaven a vycvičen tak, aby rozuměl různým vstupům, a ne jako výsledek pozdějšího spojení diskrétních režimů a modulů.

Nejoblíbenější multimodální umělé inteligence současnosti se řídí druhým uvedeným postupem. Například ChatGPT kombinuje GPT-4 Turbo s Dall-E 3 pro zpracování textu za účelem generování obrázků, GPT-4 Vision pro zpracování obrázků a speciální kódovací modul pro výpočty. V důsledku toho je LLM odsunut do role koordinátora mezi různými modely AI, které nemohou samostatně pochopit celou podstatu konkrétního problému.

Toto omezení může také vést ke zranitelnostem, jako je například prompt injection. Například techniky, které umožňují obejít bezpečnostní kontroly zavedené pro textové výzvy tím, že je napíšou nebo vytisknou na kus papíru, vyfotografují a požádají vizuální modul o jejich zpracování.

Google Gemini vykazuje skvělé výsledky v benchmarcích umělé inteligence. Obrázek: Google

Naopak první kvalitativní hodnocení Gemini odhalují jeho pozoruhodnou schopnost provádět mezismodální uvažování. Například ve vzdělávacím prostředí dokáže Gemini porozumět složitým problémům ve fyzice, převést je do matematických vzorců a poskytnout správná řešení. Tato schopnost otevírá transformační cesty ve vzdělávání i v jiných oblastech.

Tradiční LLM obvykle nejsou příliš dobré v matematice, takže schopnosti uvažování rodiny multimodálních LLM Gemini si zaslouží určitou pozornost.

V jiném srovnávacím testu zaměřeném na multimodální porozumění jazyku dosáhl Gemini Ultra přesnosti přes 90 %, čímž překonal ostatní existující modely. Společnost Google tvrdí, že testy lidských preferencí také ukázaly jasnou preferenci Gemini před modely, jako je PaLM 2, v oblastech, jako je tvůrčí psaní.

Menší služba, Gemini Nano, je navržena pro efektivitu přímo v zařízení a vyniká v sumarizaci, porozumění čtenému textu a různých úkolech uvažování. I přes svou menší velikost vykazuje Gemini Nano pozoruhodný výkon ve srovnání s větším modelem Gemini Pro. To znamená, že by se Gemini mohl stát preferovanou umělou inteligencí pro napájení mobilních asistentů, kteří mohou nebo musí pracovat offline.

Gemini vypadá jako velmi silný debut, a to podle všech měřítek. A s tím, jak se schopnosti umělé inteligence Google zlepšují, by jejich všestrannost mohla umožnit nové aplikace v mnoha oblastech. Prozatím je však zapotřebí dalšího testování v reálném světě, aby bylo možné určit její reálnou úroveň výkonu.

Uživatelé si mohou vyladěnou verzi Gemini Pro vyzkoušet již dnes s Bardem. Gemini Ultra bude v příštím roce uvolněn v nové verzi chatbota společnosti Google nazvané Bard Advanced. Společnost Google nakonec očekává, že Gemini uvede na trh ve více než 170 různých jazycích a bude tuto technologii využívat pro svou řadu Pixel a generativní vyhledávání

Beyond Bard: Google spouští Gemini, multimodální umělou inteligenci, která se postaví ChatGPT.

Kryptografická herní platforma Portal získala spoluzakladatele Rockstar uprostřed šílenství kolem airdropu

Zakladatel klanu FaZe Banks říká, že ethereum tvoří „velké procento“ jeho čistého jmění

Related Posts

Leave a Comment Cancel Reply