Home » Новата версия на MidJourney V6 подобрява визуализацията и се занимава с генерирането на текст (най-вече)

Новата версия на MidJourney V6 подобрява визуализацията и се занимава с генерирането на текст (най-вече)

by Patricia

MidJourney току-що обяви най-новия си модел генератор на изображения с изкуствен интелект – базовия модел V6 – в пренаселената надпревара за управление на сферата на цифровото творчество. Екипът на разработчиците казва, че V6 се отличава с повишена точност на подсказване, подобрена съгласуваност и – за първи път в развитието на MidJourney – с възможности за генериране на текст.

Обявена в официална публикация в Discord, V6 е представена като основна промяна.

„Много по-точно следване на подкани, както и по-дълги подкани, подобрена кохерентност и познаване на модела“, разкрива съобщението, като подчертава напредъка му спрямо предишния модел V5.1, пуснат през май 2023 г. Моделът V5, отбелязан с лесните за използване кратки подсказки и естетическото подобрение, проправи пътя за по-сложния и подробен V6.


Един от най-забележителните компоненти на V6 е неговата способност за рисуване на текст. Макар че това не е централната точка на модела – екипът казва, че все още е „незначителна“ функция – тази способност поставя MidJourney в пряка конкуренция с други водещи модели като Dall-E 3 и Ideogram. Въпреки това подходът на MidJourney към генерирането на текст е уникален.

Описвайки го като „малка способност за рисуване на текст“, Midjourney казва. „Трябва да напишете текста си в „кавички“ и –style raw или по-ниските стойности на –stylize могат да помогнат“.

TCN успя да тества модела и да го сравни с Dall-E 3, известен с точността си при генериране на текст. Изглежда, че MidJourney дава приоритет на стила и естетиката, понякога за сметка на точността на текста. През по-голямата част от времето той генерира или неточен, или никакъв текст. Но когато се появяваше, изображенията бяха на същото ниво или дори по-добри от тези, генерирани от Dall-E 3 – моделът на изкуствения интелект за преобразуване на текст в изображение, който захранва ChatGPT и Microsoft Bing.


Сравнявайки генерирането на текст от MidJourney, Dall-E 3, SDXL с Harrlogos и Ideogram AI, една твърде опростена препоръка би могла да бъде да се използва MidJourney, ако естетиката е приоритет, Dall-E 3 за лесно използване и естетика на дигиталното изкуство на карикатурата, SDXL за тези с напреднали познания за A1111 и Ideogram AI за резултати, при които текстът е по-важен от естетиката.

В момента MidJourney и Dalle-3 с ChatGPT струват пари, докато SDXL и Ideogram AI са безплатни. Версията на Дал-Е 3 на Bing е безплатна за използване, но тя генерира само квадратни изображения и хората могат да променят само подсказките вместо подхода на естествен разговор, използван от OpenAI.

MidJourney V6 също е малко по-бавен и по-скъп от v5, но екипът подчертава, че се фокусира върху ускоряването на модела с времето. Моделът V6 може да се похвали и с подобрени ъпскейлъри в режимите „фин“ и „творчески“, които повишават резолюцията на изображението 2 пъти.

Тези функции, съчетани с разнообразен набор от поддържани аргументи като –ar (за промяна на разделителната способност), –chaos (за промяна на вариациите между поколенията) и –stylize (за промяна на степента на креативност на модела), предлагат на потребителите широк спектър от творчески възможности. Все още обаче не са налични други функции, като например inpainting, outpainting и описание на изображенията. Според MidJourney те трябва да се появят в актуализация следващия месец.

В съобщението се призовава потребителите да използват тези „невероятни сили с радост, удивление, отговорност и уважение“, което винаги е било част от етиката на MidJourney. Но не се вълнувайте твърде много, тъй като те ще бъдат по-строги по отношение на цензурата.

„Не бъдете глупаци и не създавайте изображения, за да предизвиквате драма“, се казва в съобщението. Има вероятност това да блокира опитите за създаване на дигитални waifus или политически deepfakes.

Related Posts

Leave a Comment