Home » Отвъд Бард: Google стартира Gemini, мултимодален изкуствен интелект, който ще предизвика ChatGPT

Отвъд Бард: Google стартира Gemini, мултимодален изкуствен интелект, който ще предизвика ChatGPT

by v

Google зашемети технологичния свят в сряда с дебюта на Gemini, своя потребителски и бизнес пакет от мултимодални инструменти за изкуствен интелект.

Сред технологичните гиганти, които агресивно навлизат в областта на ИИ, титанът в областта на търсенето Google сякаш плуваше в междинното пространство, тъй като подкрепяният от Microsoft OpenAI изтласка ChatGPT към Turbo, а Vision и Anthropic надградиха Клод. Към днешна дата Google предлага три версии на Gemini – Nano, Pro и Ultra, които безпроблемно разбират и интегрират текст, изображения, аудио и видео.

Gemini изглежда е готова да надмине най-добрите модели на изкуствен интелект от OpenAI, които току-що публикуваха списък с нови възможности, но скоро след това бяха погребани в корпоративни интриги.

Най-усъвършенстваната версия, Gemini Ultra, постигна добри резултати в няколко популярни бенчмарка, като в някои случаи съвпадна или надмина човешките резултати. Например, тя постави нови рекорди на 30 от 32-те бенчмарка в изпита MMLU, който обхваща различни академични дисциплини.

Ключова характеристика на Gemini е неговото „естествено мултимодално“ обучение, което му позволява да обработва множество типове данни като текст, изображения и аудио като входове и изходи. Този подход означава, че моделът е изграден и обучен от нулата, за да разбира различните входове, а не е резултат от обединяване на дискретни режими и модули по-късно.

Най-популярните мултимодални изкуствени интелекти днес следват последната пътна карта. Например ChatGPT комбинира GPT-4 Turbo с Dall-E 3 за обработка на текст за генериране на изображения, GPT-4 Vision за обработка на изображения и специален модул за кодиране на изчисления. В резултат на това на LLM е отредена ролята на координатор между различни модели на ИИ, които не могат самостоятелно да разберат пълната същност на конкретен проблем.

Това ограничение може да доведе и до уязвимости като инжектиране на подкана. Например техники за заобикаляне на контрола за безопасност, въведен за текстови подсказки, чрез написването или отпечатването им на лист хартия, фотографиране и искане от визуалния модул да ги обработи.

Google Gemini показва отлични резултати в сравнителните тестове за изкуствен интелект. Снимка: Google

Google Gemini показва отлични резултати в сравнителните тестове за изкуствен интелект. Снимка: Google


За разлика от тях, ранните качествени оценки на Gemini разкриват забележителната му способност да извършва кросмодални разсъждения. Например в образователна среда Gemini може да разбира сложни проблеми по физика, да ги преобразува в математически формули и да дава правилни решения. Тази способност открива трансформиращи пътища в образованието, както и в други области.

Традиционните УНВ обикновено не са много добри в математиката, така че способностите за разсъждаване на семейството мултимодални УНВ Gemini заслужават известно внимание.

В друг сравнителен тест, фокусиран върху мултимодалното разбиране на езици, Gemini Ultra постигна над 90% точност, надминавайки други съществуващи модели. Google твърди, че тестовете за човешки предпочитания също са показали ясно предпочитание към Gemini пред модели като PaLM 2 в области като творческото писане.

По-малката услуга, Gemini Nano, е проектирана за ефективност на устройството, като се отличава с обобщаване, четене с разбиране и различни задачи за разсъждение. Въпреки по-малкия си размер Gemini Nano показва забележителна производителност в сравнение с по-големия модел Gemini Pro. Това означава, че Gemini може да се превърне в предпочитания изкуствен интелект за захранване на мобилни асистенти, които могат или трябва да работят офлайн.

Gemini изглежда като много силен дебют по всички показатели. И тъй като възможностите на ИИ на Google се подобряват, тяхната гъвкавост може да даде възможност за нови приложения в много области. Засега обаче са необходими допълнителни тестове в реални условия, за да се определят реалистичните му нива на производителност.

Потребителите могат да тестват фино настроена версия на Gemini Pro днес с Bard. Gemini Ultra ще бъде пуснат през следващата година в нова версия на чатбота на Google, наречена Bard Advanced. В крайна сметка Google очаква да пусне Gemini на повече от 170 различни езика и да използва технологията за захранване на линията Pixel и генеративното преживяване за търсене.

Related Posts

Leave a Comment