Midjourneyより凄い?
さらに凄いと評判のAI画家、Stable Diffusionに「ヘッドホンを着けたネコ耳美少女」を描いてもらったらヤバかった
英スタートアップ企業Stability AIが開発した高性能な画像生成AI「Stable Diffusion」が、現地時間8月22日にオープンソース化された。無料で公開されており、生成した画像は商用利用も可能となっている。
ローカル環境にソースを落としてPCなどで利用することもできるが、デモサイトも公開されており、すぐにその性能を確かめることができる。
またStability AI社は、Stable Diffusionを使用し、画像生成時の細かな調整なども行えるサービス「DreamStudio」のβ版も公開している。DreamStudioの利用にはクレジットが必要だが、登録すると200クレジットが付与されるので、課金しなくてもかなり遊べる印象だ。
Stable Diffusionは、8月上旬に記事化したMidjourneyと同様、入力した言葉に対応した画像を生成して出力するAIだ。Midjourneyもかなりクオリティが高かったが、ネット上の著名人のnoteなどで、Stable Diffusionはそのクオリティをさらに上回っているという記事を読み、期待を高めていた。少し出遅れてしまったが、今回実際に使ってみたので、かんたんなレポートをお届けしよう。
描いてもらう画像のお題は、Midjourneyのときと同じ、「ヘッドホンを着けたネコ耳美少女」だ。Midjourneyでは、最終的に(主観では)かなり良い感じのイラストが生成できたが、話題のStable Diffusionではどうなのだろう。
ここで少し解説を挟むと、Midjourneyの使いこなしが進む中で、イメージ通りの画像を生成するには、入力する言葉をかなり細かく書き連ねることが重要ということがわかってきた。
だが、今回のテストで、いきなり細かな指示をしてしまっては、Midjourneyの実験との公平さを欠く。そこで、最初はまったく同じ言葉、「Beautiful girl with cat ears wearing headphones」を入力し、画像を生成した。
その結果、出てきたのがこれだ。
…意表を突かれた。たしかにイラストと指定してはいないが、ここまで堂々と写真画像を加工してくるとは思わなかった。特に右下の画像、これって画像ダウンロードサービスのサンプル画像じゃないの?「商用利用も可能」とか謳うのはいいけど、それ以前に、AIが学習に使った画像の著作権とか肖像権とか、そのあたり大丈夫なの?
色々と疑問は湧いてくるものの、クオリティそのものは高い。特に下の2つは、ヘッドホンの装着位置も申し分ないし、ネコ耳という条件もしっかりと違和感なくクリア。そして美少女であることも(好き嫌いはあるにせよ一般的には)確かだろう。上の二つはちょっと妙で、左側はヘッドホンが謎の形状をしているし、右側はネコ耳と言うより藤子・F・不二雄先生の「チンプイ」みたいになっている。
ともかくも、何も指定しなければ写真をベースに画像を生成しがちということがわかった。ではイラストを描いてもらおうと、次は「Beautiful girl with cat ears wearing headphones,illust」と入力し、イラストを指定してみた。
そして出てきたのがこちらだ。
…ヤバいよこれ。見てはいけないものを見てしまった感がハンパない。全部の画像に突っ込みどころが満載なのだが、特に左下がヤバすぎる。目、誰かに殴られちゃったかな? 右の手はどこから生えてるの? あと鍵状の指、長過ぎだよね。
左上の画像も、ヘッドホンはそうやって装着するもんじゃないよ、と突っ込みたくなるし、ほかの絵も、全体的にケーブルの生え方がヤバい。想像するに、猫の尻尾とヘッドホンのケーブルを無理矢理一つにまとめようとしてしまっているのかもしれない。
なかなか厳しいクオリティーだと感じたので、Midjourneyと同じ土俵で戦わせてみてはどうだろうと考えた。Midjourneyはアメコミや洋ゲー風のタッチになることが多かったので、それに合わせて「Beautiful girl with cat ears wearing headphones,illust,American comics style」と入れてみた。すると、またしてもヤバいのが出てきた。
ヘッドホンがデカすぎたり、変なかたちになっていたり、謎のところに手が出現していたり、右手が2本あったり…。これを商業利用するのは、むしろ蛮勇というべきだろう。
少し思案した結果、「そうか、もっとリアルなタッチのイラストを描いてもらったら良いのでは?」と思いついた。「Beautiful girl with cat ears wearing headphones,oli paint,illust,photo real」と入れ、油絵風の、フォトリアルなイラストをオーダーしてみた。
出てきたのがこちらだ。
いろいろ突っ込みたいところはあるかもしれない。だが、個人的にはかなり良い出来ではないかと思った。目や口など、顔のパーツに大きな破綻はないし、ヘッドホンを着けている、ネコ耳であるということもクリアしている。
そして個人的に大発明だと思ったのが、ヘッドホンの形状だ。なんと、人間の耳がある位置にイヤーカップがある一方、イヤーカップから音導管のようなものが伸びており、ネコ耳部分にも音を出力する構造になっている(はず)なのだ!
前回のMidjourneyのイラストもそうだったのだが、これまでは読者からTwitterなどで「いや、ネコ耳だったらヘッドホンの位置がちげーだろ」と突っ込まれるのが常だった。ところが今回、Stable Diffusionはなんと「ネコ耳美少女用ヘッドホンはかくあるべし」というものを創り上げてしまった。これには心底驚いた。
Stable Diffusionは、正直に言って、かなり低レベルなイラストを生成することもある。だが、うまくハマったときのポテンシャルは凄まじい。
そして、Midjourneyも早速Stable Diffusionのソースを学習したのか、ジャパニーズアニメ風のイラストが上手くなってきているという情報がある。皆さんもぜひ使って、遊んでみて欲しい。
ローカル環境にソースを落としてPCなどで利用することもできるが、デモサイトも公開されており、すぐにその性能を確かめることができる。
またStability AI社は、Stable Diffusionを使用し、画像生成時の細かな調整なども行えるサービス「DreamStudio」のβ版も公開している。DreamStudioの利用にはクレジットが必要だが、登録すると200クレジットが付与されるので、課金しなくてもかなり遊べる印象だ。
Stable Diffusionは、8月上旬に記事化したMidjourneyと同様、入力した言葉に対応した画像を生成して出力するAIだ。Midjourneyもかなりクオリティが高かったが、ネット上の著名人のnoteなどで、Stable Diffusionはそのクオリティをさらに上回っているという記事を読み、期待を高めていた。少し出遅れてしまったが、今回実際に使ってみたので、かんたんなレポートをお届けしよう。
描いてもらう画像のお題は、Midjourneyのときと同じ、「ヘッドホンを着けたネコ耳美少女」だ。Midjourneyでは、最終的に(主観では)かなり良い感じのイラストが生成できたが、話題のStable Diffusionではどうなのだろう。
ここで少し解説を挟むと、Midjourneyの使いこなしが進む中で、イメージ通りの画像を生成するには、入力する言葉をかなり細かく書き連ねることが重要ということがわかってきた。
だが、今回のテストで、いきなり細かな指示をしてしまっては、Midjourneyの実験との公平さを欠く。そこで、最初はまったく同じ言葉、「Beautiful girl with cat ears wearing headphones」を入力し、画像を生成した。
その結果、出てきたのがこれだ。
…意表を突かれた。たしかにイラストと指定してはいないが、ここまで堂々と写真画像を加工してくるとは思わなかった。特に右下の画像、これって画像ダウンロードサービスのサンプル画像じゃないの?「商用利用も可能」とか謳うのはいいけど、それ以前に、AIが学習に使った画像の著作権とか肖像権とか、そのあたり大丈夫なの?
色々と疑問は湧いてくるものの、クオリティそのものは高い。特に下の2つは、ヘッドホンの装着位置も申し分ないし、ネコ耳という条件もしっかりと違和感なくクリア。そして美少女であることも(好き嫌いはあるにせよ一般的には)確かだろう。上の二つはちょっと妙で、左側はヘッドホンが謎の形状をしているし、右側はネコ耳と言うより藤子・F・不二雄先生の「チンプイ」みたいになっている。
ともかくも、何も指定しなければ写真をベースに画像を生成しがちということがわかった。ではイラストを描いてもらおうと、次は「Beautiful girl with cat ears wearing headphones,illust」と入力し、イラストを指定してみた。
そして出てきたのがこちらだ。
…ヤバいよこれ。見てはいけないものを見てしまった感がハンパない。全部の画像に突っ込みどころが満載なのだが、特に左下がヤバすぎる。目、誰かに殴られちゃったかな? 右の手はどこから生えてるの? あと鍵状の指、長過ぎだよね。
左上の画像も、ヘッドホンはそうやって装着するもんじゃないよ、と突っ込みたくなるし、ほかの絵も、全体的にケーブルの生え方がヤバい。想像するに、猫の尻尾とヘッドホンのケーブルを無理矢理一つにまとめようとしてしまっているのかもしれない。
なかなか厳しいクオリティーだと感じたので、Midjourneyと同じ土俵で戦わせてみてはどうだろうと考えた。Midjourneyはアメコミや洋ゲー風のタッチになることが多かったので、それに合わせて「Beautiful girl with cat ears wearing headphones,illust,American comics style」と入れてみた。すると、またしてもヤバいのが出てきた。
ヘッドホンがデカすぎたり、変なかたちになっていたり、謎のところに手が出現していたり、右手が2本あったり…。これを商業利用するのは、むしろ蛮勇というべきだろう。
少し思案した結果、「そうか、もっとリアルなタッチのイラストを描いてもらったら良いのでは?」と思いついた。「Beautiful girl with cat ears wearing headphones,oli paint,illust,photo real」と入れ、油絵風の、フォトリアルなイラストをオーダーしてみた。
出てきたのがこちらだ。
いろいろ突っ込みたいところはあるかもしれない。だが、個人的にはかなり良い出来ではないかと思った。目や口など、顔のパーツに大きな破綻はないし、ヘッドホンを着けている、ネコ耳であるということもクリアしている。
そして個人的に大発明だと思ったのが、ヘッドホンの形状だ。なんと、人間の耳がある位置にイヤーカップがある一方、イヤーカップから音導管のようなものが伸びており、ネコ耳部分にも音を出力する構造になっている(はず)なのだ!
前回のMidjourneyのイラストもそうだったのだが、これまでは読者からTwitterなどで「いや、ネコ耳だったらヘッドホンの位置がちげーだろ」と突っ込まれるのが常だった。ところが今回、Stable Diffusionはなんと「ネコ耳美少女用ヘッドホンはかくあるべし」というものを創り上げてしまった。これには心底驚いた。
Stable Diffusionは、正直に言って、かなり低レベルなイラストを生成することもある。だが、うまくハマったときのポテンシャルは凄まじい。
そして、Midjourneyも早速Stable Diffusionのソースを学習したのか、ジャパニーズアニメ風のイラストが上手くなってきているという情報がある。皆さんもぜひ使って、遊んでみて欲しい。