Home » Nowa wersja MidJourney V6 ulepsza wizualizacje i zajmuje się generowaniem tekstu (w większości)

Nowa wersja MidJourney V6 ulepsza wizualizacje i zajmuje się generowaniem tekstu (w większości)

by Thomas

MidJourney właśnie ogłosiło swój najnowszy model generatora obrazów AI, model podstawowy V6, w zatłoczonym wyścigu o panowanie w królestwie cyfrowej kreatywności. Zespół programistów twierdzi, że V6 oferuje zwiększoną dokładność podpowiedzi, lepszą spójność i – po raz pierwszy w ewolucji MidJourney – możliwości generowania tekstu.

Ogłoszony w oficjalnym poście na Discordzie, V6 jest pozycjonowany jako poważny przegląd.

„Znacznie dokładniejsze podążanie za podpowiedziami, a także dłuższe podpowiedzi, lepsza spójność i wiedza o modelu”, ujawnia ogłoszenie, podkreślając jego postęp w stosunku do poprzedniego modelu V5.1 uruchomionego w maju 2023 roku. Model V5, znany z łatwych w użyciu krótkich podpowiedzi i poprawy estetyki, utorował drogę dla bardziej wyrafinowanego i szczegółowego V6.


Jednym z najbardziej godnych uwagi elementów V6 jest możliwość rysowania tekstu. Chociaż nie jest to centralny punkt modelu – zespół twierdzi, że nadal jest to „drobna” funkcja – ta zdolność stawia MidJourney w bezpośredniej konkurencji z innymi wiodącymi modelami, takimi jak Dall-E 3 i Ideogram. Podejście MidJourney do generowania tekstu jest jednak wyjątkowe.

Opisując to jako „niewielką zdolność rysowania tekstu”, Midjourney mówi. „Musisz napisać swój tekst w 'cudzysłowie’, a wartości –style raw lub niższe –stylize mogą pomóc”.

TCN był w stanie przetestować model i porównać go z Dall-E 3, znanym ze swojej dokładności w generowaniu tekstu. MidJourney wydaje się priorytetowo traktować styl i estetykę, czasami kosztem precyzji tekstu. Przez większość czasu generował niedokładny tekst lub nie generował go wcale. Ale kiedy to robił, obrazy były na równi lub nawet lepsze niż te generowane przez Dall-E 3, model sztucznej inteligencji tekst-obraz zasilający ChatGPT i Microsoft Bing.


Porównując generacje tekstu z MidJourney, Dall-E 3, SDXL z Harrlogos i Ideogram AI, jedną z nadmiernie uproszczonych rekomendacji może być użycie MidJourney, jeśli estetyka jest priorytetem, Dall-E 3 dla łatwości użycia i estetyki kreskówkowej sztuki cyfrowej, SDXL dla osób z zaawansowaną znajomością A1111 i Ideogram AI dla wyników, w których tekst jest ważniejszy niż estetyka.

MidJourney i Dalle-3 z ChatGPT kosztują obecnie pieniądze, podczas gdy SDXL i Ideogram AI są bezpłatne. Wersja Dall-E 3 firmy Bing jest darmowa, ale generuje tylko kwadratowe obrazy, a ludzie mogą tylko modyfikować podpowiedzi zamiast naturalnego podejścia do konwersacji przyjętego przez OpenAI.

MidJourney V6 jest również nieco wolniejszy i droższy niż v5, jednak zespół podkreśla, że skupia się na przyspieszeniu modelu wraz z upływem czasu. Model V6 oferuje również ulepszone upscalery w trybach „subtelnym” i „kreatywnym”, zwiększając rozdzielczość obrazu o 2x.

Funkcje te, w połączeniu z szeroką gamą obsługiwanych argumentów, takich jak –ar (do zmiany rozdzielczości), –chaos (do zmiany wariacji między generacjami) i –stylize (do zmiany kreatywności modelu), oferują użytkownikom szerokie spektrum kreatywnych możliwości. Jednak inne funkcje, takie jak inpainting, outpainting i opis obrazu, nie są jeszcze dostępne. Według MidJourney powinny one pojawić się w aktualizacji w przyszłym miesiącu.

Ogłoszenie wzywa użytkowników do korzystania z tych „niesamowitych mocy z radością, zdumieniem, odpowiedzialnością i szacunkiem”, co zawsze było częścią etosu MidJourney. Nie należy się jednak zbytnio ekscytować, ponieważ cenzura będzie bardziej rygorystyczna.

„Nie bądź kretynem ani nie twórz obrazów, by wywoływać dramaty” – czytamy w ogłoszeniu. Są szanse, że blokuje to próby tworzenia cyfrowych waifusów lub politycznych deepfake’ów.

Related Posts

Leave a Comment