――以前の手法とは何が違うのでしょうか。

柳原 今回使った手法は、ある意味で汎用性を捨てています。「モノクロ映像のカラー化」という目的に必要な機能は何かをNHKアートさんと議論して試行錯誤しながら「映像の各シーンの彩色に特化したAI」を開発し、従来よりも高い精度で人や物を認識して塗り分けられるようになりました。その中で「この部分はこの色が正しい」といった人の知見をAIによる彩色に反映するための仕組みを用意したことが最も工夫した点です。

AIによってカラー化された映像の一部(左がオリジナルのモノクロ画像)
(C)Ridge-i、NHKアート

映像の質を高めながら、工程を3割圧縮

――AIによって自動化したことで、カラー化の作業はどのように効率化されましたか。

伊佐早 初めに大相撲の映像をカラー化した際は半ば実験的な試みであり、AIがうまくはまった部分もあれば、どうしてもうまくいかない部分もありました。そこで、制作終了後に一度ブラッシュアップしていただき、次に『戦後ゼロ年 東京ブラックホール 1945-1946』でカラー化した際には、全てを人手でやるのと比べて3割程度早く出来上がりの状態まで持っていくことができました。彩色の難しいカットでは、以前は10日近くかかっていたものが、1日~2日でできるようになるカットもありました。従来よりも少ないスタッフでの作業も可能になりました。

――3割の効率化は、人によっては期待ほどではないと感じるかもしれません。これは従来あまり時間を割けなかった作業に多くの時間を費やしたうえでの3割削減と理解すればよいでしょうか。

伊佐早 そのとおりです。これまでは短期間で彩色するのに精一杯でしたが、AIによる自動化で時間に余裕ができた分、色の考証により多くの時間を割いたり、AIに学習させる少数の静止画の彩色により多くの時間を割いて精度を高めたり、これまで手が回らなかったカットも手掛けたりしてカラー化の質と幅を広げ、我々としても満足のいく仕事をしたうえでの3割削減です。

――素晴らしい成果ですね。もう昔の作業スタイルには戻れませんか?

伊佐早 正直、もう戻れません。以前は「根性で塗り上げる」みたいなところがありましたので(笑)。 人が培った技術とAIがうまく融合し、よりよいものを制作できるようになったことには凄く可能性を感じています。

――ここまでのカラー化の番組を見た視聴者からの反響はいかがでしたか。

伊佐早 とても大きな反響をいただきました。若い世代の方々からは「戦争は大昔の話だと思っていたけど、カラー化された映像を見て、当時の人たちも自分たちと変わらない生活を送っていたとわかった」という感想をいただいた一方、当時を経験した方々からは「懐かしい」という声のほか、「当時のいろいろな映像をもっと見たい」というご要望をいただきました。歌舞伎や宝塚などの古い映像もカラー化したところ、「昔はモノクロで見ていたのに、今の時代にカラーで見られるなんて」という反響をたくさんいただきました。

――今後、そうした反響にどう応えられるでしょうか。

伊佐早 NHKはモノクロ映像の膨大なライブラリを持っており、それをカラー化したいという要望は以前より各所からいただいています。一番古い映像は明治時代の物からありますが、量があまりに膨大なため、たとえAIの助けを借りたとしても、番組制作と同じ精度でカラー化するのは人手や期間、コストの面で難しいのが実情です。そこで、AIをフルに活用して最小限の手間でカラー化することにより、誰もが気軽に閲覧し、彩色された映像によって「当時の記憶が鮮やかに蘇った」「当時の人々の暮らしをリアルに感じることができた」といった感想をお持ちいただけるような企画を実現できたらよいなと思っています。

柳原 夢のある素敵な話ですね。私たちは明治時代の色はわかりませんが、彩色した静止画を1枚いただければ、仕組みはすぐに用意します(笑)。

――モノクロ映像のカラー化のほかに、映像制作の中でAIを活用できる場面はありますか。

伊佐早 ドラマの制作などでVFXというビジュアル・エフェクトを扱うことが多いのですが、その中で時代劇の場面を作るために、撮影した風景から電柱など現代の建造物を消すためのマスキング作業を行います。この作業にAIによる画像認識を適用し、映像から消したいもののかたちを学習させて自動的にマスキングできれば、大きな需要があります。4K映像の時代になり、時代劇の制作では、俳優さんの頭部に残るカツラの跡を消したいというニーズも高まっています。AIによって実写映像から不要なものを自動的に消せるようになったら、現在は人手によって多くの手間と期間、コストをかけて行っている作業を置き換えられる可能性があります。

柳原 それは実現できそうです。テクノロジーの観点では、対象が「電柱」や「カツラ」と具体的に絞れているのがいいですね。これが「肌」など漠然としたものだと難しいのですが、「カツラの周辺」というかたちで対象領域を絞れるのなら作れそうな気がします。