Новата версия на MidJourney V6 подобрява визуализацията и се занимава с генерирането на текст (най-вече)

MidJourney току-що обяви най-новия си модел генератор на изображения с изкуствен интелект – базовия модел V6 – в пренаселената надпревара за управление на сферата на цифровото творчество. Екипът на разработчиците казва, че V6 се отличава с повишена точност на подсказване, подобрена съгласуваност и – за първи път в развитието на MidJourney – с възможности за генериране на текст.

Обявена в официална публикация в Discord, V6 е представена като основна промяна.

„Много по-точно следване на подкани, както и по-дълги подкани, подобрена кохерентност и познаване на модела“, разкрива съобщението, като подчертава напредъка му спрямо предишния модел V5.1, пуснат през май 2023 г. Моделът V5, отбелязан с лесните за използване кратки подсказки и естетическото подобрение, проправи пътя за по-сложния и подробен V6.

Един от най-забележителните компоненти на V6 е неговата способност за рисуване на текст. Макар че това не е централната точка на модела – екипът казва, че все още е „незначителна“ функция – тази способност поставя MidJourney в пряка конкуренция с други водещи модели като Dall-E 3 и Ideogram. Въпреки това подходът на MidJourney към генерирането на текст е уникален.

Описвайки го като „малка способност за рисуване на текст“, Midjourney казва. „Трябва да напишете текста си в „кавички“ и –style raw или по-ниските стойности на –stylize могат да помогнат“.

TCN успя да тества модела и да го сравни с Dall-E 3, известен с точността си при генериране на текст. Изглежда, че MidJourney дава приоритет на стила и естетиката, понякога за сметка на точността на текста. През по-голямата част от времето той генерира или неточен, или никакъв текст. Но когато се появяваше, изображенията бяха на същото ниво или дори по-добри от тези, генерирани от Dall-E 3 – моделът на изкуствения интелект за преобразуване на текст в изображение, който захранва ChatGPT и Microsoft Bing.

Сравнявайки генерирането на текст от MidJourney, Dall-E 3, SDXL с Harrlogos и Ideogram AI, една твърде опростена препоръка би могла да бъде да се използва MidJourney, ако естетиката е приоритет, Dall-E 3 за лесно използване и естетика на дигиталното изкуство на карикатурата, SDXL за тези с напреднали познания за A1111 и Ideogram AI за резултати, при които текстът е по-важен от естетиката.

В момента MidJourney и Dalle-3 с ChatGPT струват пари, докато SDXL и Ideogram AI са безплатни. Версията на Дал-Е 3 на Bing е безплатна за използване, но тя генерира само квадратни изображения и хората могат да променят само подсказките вместо подхода на естествен разговор, използван от OpenAI.

MidJourney V6 също е малко по-бавен и по-скъп от v5, но екипът подчертава, че се фокусира върху ускоряването на модела с времето. Моделът V6 може да се похвали и с подобрени ъпскейлъри в режимите „фин“ и „творчески“, които повишават резолюцията на изображението 2 пъти.

Тези функции, съчетани с разнообразен набор от поддържани аргументи като –ar (за промяна на разделителната способност), –chaos (за промяна на вариациите между поколенията) и –stylize (за промяна на степента на креативност на модела), предлагат на потребителите широк спектър от творчески възможности. Все още обаче не са налични други функции, като например inpainting, outpainting и описание на изображенията. Според MidJourney те трябва да се появят в актуализация следващия месец.

В съобщението се призовава потребителите да използват тези „невероятни сили с радост, удивление, отговорност и уважение“, което винаги е било част от етиката на MidJourney. Но не се вълнувайте твърде много, тъй като те ще бъдат по-строги по отношение на цензурата.

„Не бъдете глупаци и не създавайте изображения, за да предизвиквате драма“, се казва в съобщението. Има вероятност това да блокира опитите за създаване на дигитални waifus или политически deepfakes.

Новата версия на MidJourney V6 подобрява визуализацията и се занимава с генерирането на текст (най-вече)

Манията по мемори монети помага на Solana DeFi да надхвърли обема на Ethereum за първи път

Критикът на Bitcoin Ordinals се пропуква, тъй като подкрепеният от Джак Дорси Ocean Mining Pool се обръща върху надписите

Related Posts

Leave a Comment Cancel Reply