Google зашемети технологичния свят в сряда с дебюта на Gemini, своя потребителски и бизнес пакет от мултимодални инструменти за изкуствен интелект.
Сред технологичните гиганти, които агресивно навлизат в областта на ИИ, титанът в областта на търсенето Google сякаш плуваше в междинното пространство, тъй като подкрепяният от Microsoft OpenAI изтласка ChatGPT към Turbo, а Vision и Anthropic надградиха Клод. Към днешна дата Google предлага три версии на Gemini – Nano, Pro и Ultra, които безпроблемно разбират и интегрират текст, изображения, аудио и видео.
Gemini изглежда е готова да надмине най-добрите модели на изкуствен интелект от OpenAI, които току-що публикуваха списък с нови възможности, но скоро след това бяха погребани в корпоративни интриги.
Най-усъвършенстваната версия, Gemini Ultra, постигна добри резултати в няколко популярни бенчмарка, като в някои случаи съвпадна или надмина човешките резултати. Например, тя постави нови рекорди на 30 от 32-те бенчмарка в изпита MMLU, който обхваща различни академични дисциплини.
Ключова характеристика на Gemini е неговото „естествено мултимодално“ обучение, което му позволява да обработва множество типове данни като текст, изображения и аудио като входове и изходи. Този подход означава, че моделът е изграден и обучен от нулата, за да разбира различните входове, а не е резултат от обединяване на дискретни режими и модули по-късно.
Най-популярните мултимодални изкуствени интелекти днес следват последната пътна карта. Например ChatGPT комбинира GPT-4 Turbo с Dall-E 3 за обработка на текст за генериране на изображения, GPT-4 Vision за обработка на изображения и специален модул за кодиране на изчисления. В резултат на това на LLM е отредена ролята на координатор между различни модели на ИИ, които не могат самостоятелно да разберат пълната същност на конкретен проблем.
Това ограничение може да доведе и до уязвимости като инжектиране на подкана. Например техники за заобикаляне на контрола за безопасност, въведен за текстови подсказки, чрез написването или отпечатването им на лист хартия, фотографиране и искане от визуалния модул да ги обработи.

Google Gemini показва отлични резултати в сравнителните тестове за изкуствен интелект. Снимка: Google
За разлика от тях, ранните качествени оценки на Gemini разкриват забележителната му способност да извършва кросмодални разсъждения. Например в образователна среда Gemini може да разбира сложни проблеми по физика, да ги преобразува в математически формули и да дава правилни решения. Тази способност открива трансформиращи пътища в образованието, както и в други области.
Традиционните УНВ обикновено не са много добри в математиката, така че способностите за разсъждаване на семейството мултимодални УНВ Gemini заслужават известно внимание.
В друг сравнителен тест, фокусиран върху мултимодалното разбиране на езици, Gemini Ultra постигна над 90% точност, надминавайки други съществуващи модели. Google твърди, че тестовете за човешки предпочитания също са показали ясно предпочитание към Gemini пред модели като PaLM 2 в области като творческото писане.
По-малката услуга, Gemini Nano, е проектирана за ефективност на устройството, като се отличава с обобщаване, четене с разбиране и различни задачи за разсъждение. Въпреки по-малкия си размер Gemini Nano показва забележителна производителност в сравнение с по-големия модел Gemini Pro. Това означава, че Gemini може да се превърне в предпочитания изкуствен интелект за захранване на мобилни асистенти, които могат или трябва да работят офлайн.
Gemini изглежда като много силен дебют по всички показатели. И тъй като възможностите на ИИ на Google се подобряват, тяхната гъвкавост може да даде възможност за нови приложения в много области. Засега обаче са необходими допълнителни тестове в реални условия, за да се определят реалистичните му нива на производителност.
Потребителите могат да тестват фино настроена версия на Gemini Pro днес с Bard. Gemini Ultra ще бъде пуснат през следващата година в нова версия на чатбота на Google, наречена Bard Advanced. В крайна сметка Google очаква да пусне Gemini на повече от 170 различни езика и да използва технологията за захранване на линията Pixel и генеративното преживяване за търсене.