ジェネレーティブAIとは何か

 ジェネレーティブAIにはすでに、多くのことが可能だ。ブログ投稿、プログラムコード、詩、アート作品など、さまざまな形の文章と画像を生成できる(絵画コンテストで優勝し、物議をかもすことさえある)。ソフトウェアは複雑な機械学習モデルを用いて、前の語彙列に基づいて次の語彙を予測したり、前の画像を説明する語句に基づいて次の画像を予測したりする。

 LLMは2017年にグーグル・ブレインで始まり、当初は文脈を保持しながら語句を翻訳するために使われていた。

 その後、大規模な言語モデルとテキスト画像(text-to-image:文字列から画像を生成する)モデルが、大手テック企業の間で増えていく。グーグルのBERT(バート)とLaMDA(ラムダ)、フェイスブックのOPT-175BとBlenderBot(ブレンダーボット)、そしてマイクロソフトを最大の出資者に持つ非営利組織のオープンAIが提供するGPT-3(テキスト生成用)、DALL-E 2(ダリ・ツー:画像生成用)、Whisper(ウィスパー:音声生成用)などがある。

 オンラインコミュニティのMidjourney(ミッドジャーニー:絵画コンテスト優勝に貢献)や、オープンソース提供企業のHugging Face(ハギングフェイス)などもジェネレーティブモデルを開発した。

 このようなモデルを訓練するには膨大な量のデータと演算能力を要するため、開発できるのは総じて大手テック企業に限られていた。たとえばGPT-3はその初期、予測を行うために45テラバイトのデータと1750億個のパラメータや係数を使って訓練され、1回の訓練を実行するのに1200万ドルかかった。中国のAIモデルのWu Dao(悟道)2.0は、1兆7500億個のパラメータを持つ。

 ほとんどの企業は、この種のモデルを独自にゼロから訓練するための、データセンターの機能やクラウドコンピューティングの予算を持っていない。

 しかし、ジェネレーティブモデルがひとたび訓練された後ならば、はるかに少ないデータで、特定のコンテンツ分野に合わせて「ファインチューニング」(細かな調整)をすることが可能だ。これにより、専門分野に特化したBERTのモデルが開発されている。生物医学コンテンツ用のBioBERT、法律コンテンツ用のLegal-BERT、フランス語文書用のCamemBERT(カマンベール)などだ。そしてGPT-3も、さまざまな目的に特化したモデルがある。

 エヌビディアのBioNeMo(バイオニモ)は、生成化学(AIによる創薬)、プロテオミクス(タンパク質料学を系統的・包括的にとらえようとする研究領域)、DNA・RNAの分野向けに、大規模言語モデルの訓練、開発と実装をスーパーコンピュータの規模で行うためのフレームワークだ。

 オープンAIは、分野特化型のデータとしてわずか100個でも具体例があれば、GPT-3のアウトプットの精度と有効性を大幅に高めることができることを発見した。

 ただし、ジェネレーティブAIを効果的に使うには、プロセスの始めと終わりの両方で、人間の関与がまだ必要だ。

 ジェネレーティブモデルにコンテンツを作成させるには、まず人間がプロンプトを入力しなくてはならない。一般的にいえば、クリエイティブなアウトプットは、クリエイティブなプロンプトから生まれる。少なくとも次世代のさらに賢いAIが登場するまでの間は、「プロンプトエンジニア」が職業として確立される可能性が高い。

 この分野ではすでに、DALL-E 2の画像プロンプトを集めた82ページの本や、ほかのユーザーのプロンプトを少額で購入できるプロンプト・マーケットプレイスが生まれている。これらのシステムを使う人々の大半が、思い通りの結果を得るためには、複数の異なるプロンプトを試す必要があるだろう。

 モデルがコンテンツを生成した後は、人間による入念な検証と編集が必要となる。異なるプロンプトからの生成物を、一つの文書に統合してもよい。画像の生成には、大量の処理が必要となるかもしれない。

 Midjourneyの助けを借りて、コロラドの「デジタル処理写真」コンテストで優勝したジェイソン・アレンが記者に語ったところによれば、彼は80時間以上を費やして作品を900バージョン以上作成し、プロンプトを何度も繰り返しファインチューニングしたという。その後、アドビのフォトショップで生成物に磨きをかけ、別のAIツールで画質を高め鮮明にして、3枚をキャンバスに印刷した。

 ジェネレーティブAIのモデルは極めて多様だ。画像、長文テキスト形式、メール、ソーシャルメディアのコンテンツ、音声記録、プログラムコード、構造化データなどを取り込むことができる。出力できるのは、新たなコンテンツ、翻訳、質問への答え、感情分析、要約、動画などだ。あらゆるコンテンツに対応するこれらのモデルは、ビジネスで多くの潜在用途がある。以下でその一部を説明しよう。