Нов модел на изкуствен интелект с отворен код от Китай разполага с два пъти по-голям капацитет от ChatGPT

Модел за изкуствен интелект (ИИ), разработен в Китай, предизвиква вълна от редица аспекти, включително и поради това, че е с отворен код и може да обработва до 200 000 токена контекст – това значително надвишава други популярни модели като Claude на Anthropic (100 000 токена) или GPT-4 Turbo на OpenAI (128 000 токена).

Компанията за информационни технологии Beijing Lingyi Wanwu създаде този прогресивен генеративен чатбот в лабораторията си за изкуствен интелект 01.AI, наречена Yi series. Големият езиков модел (LLM) се предлага в две версии: олекотената Yi-6B-200K и по-стабилната Yi-34B-200K, като и двете могат да запазват огромен контекст на разговора и да разбират английски и мандарин.

Само няколко часа след пускането му моделът Yi се изстреля нагоре в класациите и стана вторият най-популярен модел с отворен код в Hugging Face, ключово хранилище за модели на изкуствен интелект.

Изображение: Hugging Face

Въпреки че моделите на Yi се справят с огромни контекстни подсказки, те също така са много ефективни и точни, като побеждават други LLM в няколко синтетични бенчмарка.

„Yi-34B превъзхожда много по-големи модели като LLaMA2-70B и Falcon-180B; също така размерът на Yi-34B може да поддържа приложенията по икономически ефективен начин, като по този начин позволява на разработчиците да създават фантастични проекти“, обяснява 01.AI на своя уебсайт. Според таблото с резултати, споделено от разработчиците, най-мощният модел Yi е показал силни резултати при четене с разбиране, разсъждение по общоприет начин и общи тестове за ИИ като Gaokao и C-eval.

Големите езикови модели (LLM) като серията Yi работят чрез анализиране и генериране на резултати, базирани на езика. Те работят, като обработват „токени“ или единици текст, които могат да бъдат толкова малки, колкото една дума или част от дума.

Да се каже „200 хил. токена контекст“ на практика означава, че моделът може да разбира и да отговаря на значително по-дълги подсказки, които преди това биха претоварили дори най-напредналите LLM. Серията Yi може да се справи с обширни подсказки, които включват по-сложна и подробна информация, без да се срине.

Неотдавнашен анализ на трета страна обаче посочва ограничение в тази област. Когато дадена подкана заема повече от 65% от капацитета на модела Yi, той може да се затрудни при извличането на точна информация. Въпреки това, ако размерът на подсказката се поддържа значително под този праг, моделът от серията Yi се представя отлично, дори при сценарии, които водят до влошаване на работата на модели като Claude и ChatGPT.

Тестване под налягане на GPT-4-128K с дълъг период на припомняне на контекста

128 хил. токена контекст е страхотно – но каква е производителността?

Исках да разбера, затова направих анализ на „игла в купа сено“.

Някои очаквани (и неочаквани) резултати

Ето какво открих:

Констатации:
pic.twitter.com/nHMokmfhW5

– Greg Kamradt (@GregKamradt) November 8, 2023

Ключова отличителна черта на Yi е, че тя е с напълно отворен код, което позволява на потребителите да стартират Yi локално на собствените си системи. Това им осигурява по-голям контрол, възможност да променят архитектурата на модела и избягва зависимостта от външни сървъри.

„Предвиждаме, че AI 2.0 ще създаде възможност за платформа, десет пъти по-голяма от мобилния интернет, пренаписвайки целия софтуер и потребителски интерфейси“, заявяват от 01.AI. „Тази тенденция ще даде началото на следващата вълна от AI-first приложения и AI-empowered бизнес модели, стимулирайки с течение на времето AI 2.0 иновациите.“

Чрез предоставянето на отворен достъп до такъв способен модел 01.AI дава възможност на разработчиците по целия свят да изградят следващото поколение ИИ. С огромната работа с контекст в персонализиран пакет можем да очакваме поток от иновативни приложения, използващи Yi.

Потенциалът на моделите с отворен код като Yi-6B-200K и Yi-34B-200K е огромен. Тъй като изкуственият интелект навлиза в живота ни, локално управляваните системи обещават по-голяма прозрачност, сигурност и възможност за персонализиране в сравнение със затворените алтернативи, зависещи от облака.

Докато Claude и GPT-4 Turbo привличат вниманието, тази нова алтернатива с отворен код може скоро да изгради следващия етап на ИИ направо в устройствата на потребителите. Точно когато изглеждаше, че няма други начини за обновяване на хардуера ни, може би е време да си купите по-способно устройство, преди да откриете, че вашият местен ИИ е превъзхождан от конкурент с повече „контекстна осведоменост“.

Нов модел на изкуствен интелект с отворен код от Китай разполага с два пъти по-голям капацитет от ChatGPT

Ръководство за игра на Phantom Galaxies

ChatGPT спира регистрациите за платен план, тъй като системите се натоварват

Related Posts

Leave a Comment Cancel Reply