Nowy generator obrazów DALL-E 3 to duża aktualizacja - z zabezpieczeniami

OpenAI, jednorożec stojący za rozkwitem branży generatywnej sztucznej inteligencji, zaprezentował DALL-E 3, najnowszą iterację swojego generatora obrazów. Dzięki kontrolerowi ChatGPT aktualizacja zapewnia najwyższej jakości obrazy w odpowiedzi na monity w języku naturalnym – i uruchamia się z etycznymi kontrolami na miejscu.

Generatory obrazów, takie jak DALL-E, MidJourney i Stable Diffusion, otworzyły nowe kreatywne granice dla artystów i zwykłych użytkowników od czasu boomu na sztuczną inteligencję pod koniec ubiegłego roku. Przekładając podpowiedzi tekstowe na oszałamiające wizualizacje, oferują one przebłyski maszynowej interpretacji ludzkiej kreatywności. Teraz OpenAI zamierza dalej przesuwać granice dzięki DALL-E 3, modelowi, który może przywrócić go do bezpośredniej konkurencji z innymi liderami branży.

Zaprezentowany dziś wcześnie DALL-E 3 demonstruje ogromną poprawę w dokładnym przedstawianiu szczegółowych opisów tekstowych. W przeciwieństwie do poprzednich wersji, ściśle przylega do złożonych podpowiedzi, nie wymagając ogromnych poprawek inżynieryjnych lub innych skomplikowanych sztuczek. Nowy system doskonale radzi sobie również z wychwytywaniem relacji między obiektami i generowaniem fotorealistycznych ludzkich szczegółów, takich jak dłonie i odbicia.

Nasz nowy model zamiany tekstu na obraz, DALL-E 3, może tłumaczyć niuansowe żądania na niezwykle szczegółowe i dokładne obrazy.

Wkrótce w ChatGPT Plus & Enterprise, który może pomóc w tworzeniu niesamowitych podpowiedzi, aby ożywić Twoje pomysły: https://t.co/jDXHGNmarT pic.twitter.com/aRWH5giBPL

– OpenAI (@OpenAI) 20 września 2023

Po porównaniu wyników z tych samych monitów w DALL-E 2 i DALL-E 3, ten drugi generuje znacznie ostrzejsze i bardziej precyzyjne obrazy. Potrafi renderować niezwykle realistyczne obrazy scen, zapewniając jednocześnie odpowiednie tekstury, oświetlenie i tła. I wydaje się całkiem zdolny do generowania tekstu i integrowania go z obrazami – coś, co pozostaje problemem nawet dla najpotężniejszych generatorów obrazów AI do tej pory.

DALL-E 3 został zbudowany w oparciu o ChatGPT, umożliwiając użytkownikom iteracyjne udoskonalanie podpowiedzi poprzez wymianę konwersacji. Wczesne próbki, które wyciekły, wskazują na niesamowicie szybkie możliwości iteracji. Jak wcześniej informował TCN, YouTuber MattVidPro nazwał wcześniejszą wersję beta DALL-E 3 „szaloną” i zapewnił, że nawet nadchodząca wersja MidJourney nie może z nią konkurować.

Jednak dostępność pozostaje ściśle ograniczona do około 400 testerów, a OpenAI twierdzi, że jego nowy model zostanie wydany „wkrótce”.

Obraz utworzony za pomocą DALL-E 3 i język podpowiedzi używany w tym procesie. Źródło: OpenAI

Na razie użytkownicy mogą tworzyć obrazy za pomocą DALL-E 2 przy użyciu wtyczek z ChatGPT Plus. Ci, którzy nie płacą za subskrypcję, będą musieli poradzić sobie z ograniczeniami takimi jak to:

Podróż do tego punktu nie obyła się bez wybojów. Podczas fazy testów beta model został zauważony ze względu na swoją nieocenzurowaną naturę, zdolną do generowania treści, które wahały się od nagości po gore i przemoc. Podniosło to brwi i wzbudziło obawy o potencjalne niewłaściwe wykorzystanie takiej technologii. Wydaje się jednak, że OpenAI wzięła sobie te obawy do serca, wdrażając w DALL-E 3 funkcje, które zapobiegają generowaniu treści, które można uznać za brutalne, dla dorosłych lub nienawistne, zapewniając bezpieczniejsze wrażenia użytkownika.

Jednym z takich środków jest powołanie zespołu ekspertów „w celu informowania o naszej ocenie ryzyka i działaniach ograniczających ryzyko w obszarach takich jak propaganda i dezinformacja”.

Obawy związane ze sztuką AI utrzymują się, zwłaszcza w odniesieniu do nieodpowiednich lub nieetycznych treści. Podczas gdy OpenAI usunęło filtry podczas testów, firma bada strategie zapobiegania nadużyciom w wersjach publicznych. Ułatwi to również identyfikację obrazów wygenerowanych za pomocą jej narzędzia. Może to zapobiec rozprzestrzenianiu się deepfake i potencjalnie zidentyfikować pochodzenie obrazu w przypadku, gdy ktoś ominie natywną cenzurę modelu.

OpenAI jest również świadome obaw związanych z legalnym wykorzystaniem ludzkich dzieł sztuki do szkolenia swojego modelu i wymyśliło odpowiedź na bardziej etyczny generator. DALL-E 3 nie będzie powielać treści, gdy zostanie poproszony o naśladowanie żyjących artystów, a OpenAI umożliwi twórcom rezygnację. Jest to odpowiedź na sprzeciw artystów takich jak Greg Rutkowski, którzy twierdzą, że kopiowanie ich stylu przez sztuczną inteligencję bez ich zgody jest nieetyczne.

Złożono również poważne pozwy sądowe, w tym od autora George’a R.R. Martina oskarżającego OpenAI o niewłaściwe wykorzystanie materiałów chronionych prawem autorskim.

OpenAI nie odpowiedziało natychmiast na prośbę o komentarz TCN.

Nowy generator obrazów DALL-E 3 to duża aktualizacja – z zabezpieczeniami

Wspierana przez Andreessena aplikacja Fintech Eco „podwaja się” na kryptowalutach innych niż celne

Po nieudanej próbie odzyskania firmy, Ben „Bitboy” Armstrong prosi fanów o gotówkę

Related Posts

Leave a Comment Cancel Reply