2023/10/25

AIとのお戯れ

「仕事に通じることで、業務時間外に何かしてることある?」というひと言から、実はあんなことやこんなことをやってますというスタッフがいたので、二人で対談してもらうことにしました。ちょっとマニアックな要素が強めの内容ですが、ぜひご一読ください。

どんなAIサービスを使ってる?

H:最近調べていることとか、気になることとかある?
N:僕としては、画像生成AIの「Stable Diffusion(ステーブルディフュージョン)」、そこから派生した画像復元の「DiffBIR(ディフビーアイアール)」、文字起こしAIの「Whisper(ウィスパー)」の3つですね。
いま特におもしろいのが「Whisper」で、これはAIを使って音声から文字を出力してくれるものです。従来だと音声ファイルをオンラインで飛ばして、サーバー上で処理して持ってくるっていうのが多かったんですが、これはローカル環境で組めるんです。
H:公開してるのは「ChatGPT(チャットジーピーティー)」でお馴染みのOpenAIだけど「ChatGPT」とは違うんだよね?
N:違いますね。「ChatGPT」はチャットで、できることも多岐に渡ります。例えば「この画像には何が写っていますか?」と聞いて、返答がもらえたり。
「Whisper」はただ文字起こしをしてくれるだけですが、おもしろいのは何の言語かの判断をしてくれるところです。もちろん、言語を指定してあげた方が精度は上がりますが、言語モデルを指定しなくても、ある程度自動的にやってくれるんです。それに、日本語で話している内容を文字起こしすると同時に、英語へ翻訳することもできるんですよ。英語から日本語は、まだできないですが。

「Stable Diffusion」で生成

Pixel art style
Pixel art style
sketch style
sketch style
Anime style
Anime style
元の写真
元の写真

遊びにもゴールがあるとおもしろい

N:Hさんが最近やっていることは?
H:まだやってないけど、Googleが公開したテキストから音楽を自動生成するAIモデルの「MusicLM(ミュージックエルエム)」をやってみようかなと思ってるよ。AIだ何だっていわれる1年ぐらい前に調べたときに「SOUNDRAW(サウンドロウ)」っていうサイトがあって、当時は無料でお試し版があってね。曲調を選ぶと、毎回ちょっとずつ違うものを作ってくれて、それを自分で手直しできるってやつで遊んでたんだ。「MusicLM」は登録してからじゃないと使えないから、これからのお楽しみ。
N:音楽系もおもしろそうですね。僕もやってみたいです。Hさんが得意な画像系はどうですか?
H:もともと「Photoshop(フォトショップ)」を使ってるから、最近は「生成塗りつぶし」ツールを実務でも結構使ってるよ。あとは、それと別に毎年プライベートで展覧会に出す絵を3Dで作ってて、今年も間もなく完成させないといけないんだけど……こんなのをゼロから作ってる〔作品を見せている〕。
N:おお! すごいですね。
H:いろいろなものを見て参考にしてて、基本的にはシンプルで単純な形状ばっかり集めてるけど、それをちょいちょいやってレンダリング(データを処理して画像を表示)するのが楽しい。
N:いいですね。遊ぶにしても何をするにしても、ゴールがあった方がおもしろいですよね。

Hさんの過去の展覧会作品
Hさんの過去の展覧会作品

AIのせいで仕事がなくなる?

H:今日、話題になったのはほとんどAI絡みだったね。AIがこれだけ世間を賑わせてきて、仕事がなくなる・なくならないっていうことも言われてるけど、どう思ってる?
N:そんなに悲観的ではないですね。ニュースは不安をあおりすぎてるし、それによって危機感を感じすぎたり、悲観的になりすぎたりしてるんじゃないかなって思います。
新しいものが出てくることによって、なくなることがあるのは自然の摂理ですし、逆にそこからまた新しいものが出てくることも当然あるだろうという考えなので。AIが出てきてなくなる仕事もあるし、増える仕事もたくさんあると思ってます。
H:AIも触ってみるとおもしろいしね。原稿を書かせて、セリフをしゃべらせて、音楽を作らせて、画像を作らせて、組み合わせたら動画が作れる。今まで何人もでやってたことを、一人でできるようになっちゃう。
反対に、新しい仕事っていうところでは AIに指示を出す「AIプロンプター」があるよね。AIの代行言語モデルの学習元を作る人が絶対に必要だから。学習元を作る人とそれを使ってAIを作る人がいて、そういう人たちを育成していくことも大事。
N:どこまで行っても、それは永遠にあり続ける話だと思います。

対談中に出てきたAI関連モデルなど

Stable Diffusion(ステーブルディフュージョン)
DiffBIR(ディフビーアイアール)
Whisper(ウィスパー)
ChatGPT(チャットジーピーティー)
MusicLM(ミュージックエルエム)
SOUNDRAW(サウンドロウ)
Photoshop(フォトショップ)

 

「Photoshop」で写真周りを生成

弊社玄関の生成前
弊社玄関の生成前
弊社玄関の生成後実際とは異なります(笑)
弊社玄関の生成後
実際とは異なります(笑)

ホームへ先頭へ前へ戻る