今話題のAIダンス動画をRTX3060で生成してみた
最近、AIの進化が凄まじいですね。目についたのが「Champ」というGitHubのリポジトリー。
https://github.com/fudan-generative-vision/champ
Champ: Controllable and Consistent Human Image Animation with 3D Parametric Guidance
Champ: 3Dパラメーターのガイドによる制御可能で一貫性のある人間のイメージ・アニメーション
表題はよくわかりませんが映像をみてもらうと凄さがわかります。
https://github.com/fudan-generative-vision/champ
ということで「Champ」を試して、鬼太鼓のイラストを動かしてみます!
今回は環境構築の方法を省略しますが、需要が高そうであれば今後に記事をまとめます。
1. 試す環境
- Windows 11
- CPU:Ryzen 5 PRO 4650G
- メモリ:DDR4-3600 32G
- グラボ:RTX 3060 (メモリ 16G)
- Anaconda
- Python 3.10
- Cuda 12.1
かなり環境がシビアで、特にWindowsでは難しいようです。UbuntuなどのLinuxが推奨環境ですが今回はWindowsで試してみました。
2. 試してみた
まず、サンプルにある動画で試してみます。
結構うまく行っています。生成で圧倒的なグラボのメモリ不足だったので、生成動画の解像度を392×696、入力動画の長さを5秒にしました。やはりRTX3060では生成AIに対して非力だなと実感しました。
3. 鬼太鼓の踊りをイラストに踊らせてみる
本題の鬼太鼓の踊りを踊らせてみます。参考にしたのは以下の動画です。
この動画の一部をサンプルとして抽出しました。
生成してみます。
一応うまくいっているところもありますが、横を向くと認識がうまくできていませんね。
うーん。入力素材の動画が鬼の服を着ていることも相まって認識が難しいようです。
もう少し改善が必要ですね。
4. まとめ
ChampをRTX3060で動画生成してみました。入力素材が人間で、正面を向いているとかなりうまくいくようです。ただRTX3060ではメモリが足りず、解像度をかなり下げ、動画秒数を短くするという成約があります。これだと高品質な動画は難しいと思います。
また、今回のイラストが鬼ということで、人間の顔のモデルから生成すると鬼の顔が崩れてしまうという問題もありました。
今回の記事で、RTX3060でも生成できるということをお伝えできたと思います。
本気で生成するならやはりGoogle Colabを使うべきなのでしょうね。
コメント