Отвъд Бард: Google стартира Gemini, мултимодален изкуствен интелект, който ще предизвика ChatGPT

Google зашемети технологичния свят в сряда с дебюта на Gemini, своя потребителски и бизнес пакет от мултимодални инструменти за изкуствен интелект.

Сред технологичните гиганти, които агресивно навлизат в областта на ИИ, титанът в областта на търсенето Google сякаш плуваше в междинното пространство, тъй като подкрепяният от Microsoft OpenAI изтласка ChatGPT към Turbo, а Vision и Anthropic надградиха Клод. Към днешна дата Google предлага три версии на Gemini – Nano, Pro и Ultra, които безпроблемно разбират и интегрират текст, изображения, аудио и видео.

Gemini изглежда е готова да надмине най-добрите модели на изкуствен интелект от OpenAI, които току-що публикуваха списък с нови възможности, но скоро след това бяха погребани в корпоративни интриги.

Най-усъвършенстваната версия, Gemini Ultra, постигна добри резултати в няколко популярни бенчмарка, като в някои случаи съвпадна или надмина човешките резултати. Например, тя постави нови рекорди на 30 от 32-те бенчмарка в изпита MMLU, който обхваща различни академични дисциплини.

Ключова характеристика на Gemini е неговото „естествено мултимодално“ обучение, което му позволява да обработва множество типове данни като текст, изображения и аудио като входове и изходи. Този подход означава, че моделът е изграден и обучен от нулата, за да разбира различните входове, а не е резултат от обединяване на дискретни режими и модули по-късно.

Най-популярните мултимодални изкуствени интелекти днес следват последната пътна карта. Например ChatGPT комбинира GPT-4 Turbo с Dall-E 3 за обработка на текст за генериране на изображения, GPT-4 Vision за обработка на изображения и специален модул за кодиране на изчисления. В резултат на това на LLM е отредена ролята на координатор между различни модели на ИИ, които не могат самостоятелно да разберат пълната същност на конкретен проблем.

Това ограничение може да доведе и до уязвимости като инжектиране на подкана. Например техники за заобикаляне на контрола за безопасност, въведен за текстови подсказки, чрез написването или отпечатването им на лист хартия, фотографиране и искане от визуалния модул да ги обработи.

Google Gemini показва отлични резултати в сравнителните тестове за изкуствен интелект. Снимка: Google

За разлика от тях, ранните качествени оценки на Gemini разкриват забележителната му способност да извършва кросмодални разсъждения. Например в образователна среда Gemini може да разбира сложни проблеми по физика, да ги преобразува в математически формули и да дава правилни решения. Тази способност открива трансформиращи пътища в образованието, както и в други области.

Традиционните УНВ обикновено не са много добри в математиката, така че способностите за разсъждаване на семейството мултимодални УНВ Gemini заслужават известно внимание.

В друг сравнителен тест, фокусиран върху мултимодалното разбиране на езици, Gemini Ultra постигна над 90% точност, надминавайки други съществуващи модели. Google твърди, че тестовете за човешки предпочитания също са показали ясно предпочитание към Gemini пред модели като PaLM 2 в области като творческото писане.

По-малката услуга, Gemini Nano, е проектирана за ефективност на устройството, като се отличава с обобщаване, четене с разбиране и различни задачи за разсъждение. Въпреки по-малкия си размер Gemini Nano показва забележителна производителност в сравнение с по-големия модел Gemini Pro. Това означава, че Gemini може да се превърне в предпочитания изкуствен интелект за захранване на мобилни асистенти, които могат или трябва да работят офлайн.

Gemini изглежда като много силен дебют по всички показатели. И тъй като възможностите на ИИ на Google се подобряват, тяхната гъвкавост може да даде възможност за нови приложения в много области. Засега обаче са необходими допълнителни тестове в реални условия, за да се определят реалистичните му нива на производителност.

Потребителите могат да тестват фино настроена версия на Gemini Pro днес с Bard. Gemini Ultra ще бъде пуснат през следващата година в нова версия на чатбота на Google, наречена Bard Advanced. В крайна сметка Google очаква да пусне Gemini на повече от 170 различни езика и да използва технологията за захранване на линията Pixel и генеративното преживяване за търсене.

Отвъд Бард: Google стартира Gemini, мултимодален изкуствен интелект, който ще предизвика ChatGPT

Платформата за крипто игри Portal добавя съоснователя на Rockstar на фона на безумието на Airdrop

Основателят на клана FaZe Banks казва, че Ethereum е „голям процент“ от нетната му стойност

Related Posts

Leave a Comment Cancel Reply