Home » MidJourneyの新モデルV6はビジュアルをアップグレードし、テキスト生成にも対応(大部分)

MidJourneyの新モデルV6はビジュアルをアップグレードし、テキスト生成にも対応(大部分)

by Thomas

MidJourneyは、デジタル・クリエイティビティの領域を支配するための混雑した競争において、最新のAI画像ジェネレーターモデルであるV6ベースモデルを発表した。本日からアルファテストが開始され、開発チームによると、V6はプロンプトの精度が向上し、一貫性が改善され、MidJourneyの進化で初めてテキスト生成機能を備えているという。

Discordの公式投稿で発表されたV6は、大幅なオーバーホールと位置づけられている。

「より正確なプロンプトのフォロー、より長いプロンプト、改善された一貫性、モデル知識」と発表され、2023年5月に発売された前モデルV5.1からの進化を強調している。V5モデルは、使いやすい短いプロンプトと審美的な改善で注目され、より洗練された詳細なV6.への道を開いた



V6の最も注目すべきコンポーネントのひとつは、そのテキスト描画能力である。この機能のおかげで、MidJourneyはDall-E 3やIdeogramのような他の主要モデルと直接競合することになる。しかし、テキスト生成に対するMidJourneyのアプローチはユニークだ。

Midjourneyはこれを「マイナーなテキスト描画能力」と表現している。”テキストを “引用符 “で書く必要があり、–style rawまたは低い–stylize値が役立つかもしれない。”

TCNはこのモデルをテストし、テキスト生成の正確さで知られるDall-E 3と比較することができた。MidJourneyはスタイルと美学を優先し、時にはテキストの正確さを犠牲にすることもあるようだ。ほとんどの場合、テキストは不正確か、まったく生成されなかった。しかし、テキストが生成された場合、その画像はChatGPTやMicrosoft Bingに搭載されているテキストから画像へのAIモデルであるDall-E 3が生成したものと同等か、それよりも優れていた



MidJourney、Dall-E 3、SDXL with Harrlogos、Ideogram AIによるテキスト生成を比較すると、美学を優先するならMidJourneyを、使いやすさとカートゥーンデジタルアートの美学を重視するならDall-E 3を、A1111の高度な知識を持つ人ならSDXLを、美学よりもテキストを重視する結果ならIdeogram AIを使うのが、単純化しすぎた推奨の1つかもしれない。

MidJourneyとDalle-3 with ChatGPTは現在有料で、SDXLとIdeogram AIは無料です。BingのDall-E 3のバージョンは無料で使えますが、正方形の画像しか生成できず、OpenAIが取る自然な会話アプローチではなく、人々はプロンプトを修正することしかできません。

MidJourney V6もv5より少し遅く、高価だが、チームは時間の経過とともにモデルのスピードアップに重点を置いていることを強調している。V6モデルはまた、”subtle “モードと “creative “モードのアップスケーラーを改良し、画像の解像度を2倍向上させた。

これらの機能は、–ar(解像度を変更する)、–chaos(世代間のばらつきを変更する)、–stylize(モデルの創造性を変更する)のような多様なサポートされている引数と相まって、ユーザーに創造的な可能性の広いスペクトルを提供します。しかし、インペインティング、アウトペインティング、画像説明などの他の機能はまだ利用できない。MidJourneyによれば、これらは来月のアップデートで提供される予定だという。

発表では、MidJourneyのモットーである「喜び、驚き、責任感、そして尊敬の念をもって」これらの「信じられないような力」を使うようユーザーに呼びかけている。しかし、検閲が厳しくなるため、興奮しすぎないように。

「嫌な奴になったり、ドラマを引き起こすような画像を作ったりしないでください」とアナウンスされている。デジタル・ウェイファスや政治的なディープフェイクを作ろうとする試みはブロックされる可能性がある。

Related Posts

Leave a Comment