-
Xでシェア
-
Facebookでシェア
-
LINEでシェア
-
LinkedInでシェア
-
記事をクリップ
-
記事を印刷
ディープラーニング(深層学習)を活用した自動翻訳技術の精度は、多くの読者の想像を超える領域に達している。情報通信研究機構(NICT)が開発した無料の多言語音声翻訳アプリ「VoiceTra(ボイストラ)」をダウンロードすることで、その一端を体験することができる。30年以上にわたり自動翻訳の研究に携わってきた隅田英一郎氏に、これまでの歩みや、東京五輪をターゲットとする「グローバルコミュニケーション計画」の進捗などについて聞いた。
ディープラーニングの活用で翻訳精度が向上
――30年以上一貫して、「亀のように」じっくりと自動翻訳の研究開発に取り組んでこられたとのことですが、2018年4月現在、どこまで進んだのでしょうか。

音声翻訳は音声認識、自動翻訳、音声合成という3つの技術を組み合わせた新しい挑戦的な課題として、1986年に研究がスタートしました。
要素技術の一つである自動翻訳は現在第3世代です。第1世代は、文法規則と辞書を使って翻訳を行っていました(ルールベース翻訳)。たとえば、日本語と英語とでは語順が違いますが、それを調整する規則を書いて、システムをつくるというものです。この手法はわかりやすい半面、性能には限界がありました。ルールから外れる事例が出てくるとこの例外を扱う規則を登録しないといけないのですが、ルールから外れる事例が多すぎて例外規定ばかりの法律のようになってしまうのです。この問題を解決するために、過去に翻訳された原文と翻訳文のペアからなるデータを基盤として、翻訳に必要な知識をデータから学習するという考え方に代わったのが、第2世代の統計翻訳です。
日英の翻訳システムをつくるために、原文と翻訳文のペア、すなわち、日英の対訳ペアを集めて、そこから対訳辞書をつくります。対訳ペアがたくさんあると、日本語のある単語が英語のどの単語に相当するかが確率つきでわかるようになります。ある単語は60%の確率でAという訳語、30%の確率でBという訳語、10%でCという訳語になると計算できます。これに語順変換の確率と、英語らしさの確率という3つの確率を乗じた確率が最大となるような訳文を選ぶのが統計翻訳の基本の仕組みであり、これによってルールベース翻訳の欠点を乗り越えることができ、精度は大きく向上しました。
AIの時代の第3世代の自動翻訳では、統計翻訳と同様に日英の対訳ペアからシステムをつくるのですが、そのためにディープラーニング(深層学習)を用います。日英翻訳で、結果としてさまざまな実験で統計翻訳よりも20%前後も精度が上がったので、新しい方法に移るのが妥当と判断したのが2017年初めでした。AIの活用は、2014年以降、ずっと取り組んできましたが、なかなか本格導入に踏み切れないでいました。大きな理由はコストです。AIに必要な膨大な計算を現実的時間で実行可能にするために不可欠なGPGPU(General-purpose computing on graphics processing units:汎用計算用GPU(画像処理ユニット))と呼ばれるハードウエアが非常に高価で、これに依存したシステムは広く普及しないという懸念から躊躇していたのです。しかしながら、グーグル、マイクロソフト、百度(バイドゥ)がその方向に舵を切ったので、我々もAIに基づく翻訳に踏み出しました。
多言語音声翻訳アプリ「VoiceTra」では、ディープラーニングを採用しているのは、現在、日英翻訳の双方向のみですが、順次、日中、日韓をはじめ多言語へも広げていく予定です。
――「VoiceTra」を私もダウンロードしましたが、けっこう使えますね。音声で入出力できるので、音声認識技術の高さも実感します。
開発した側が言うのもなんですが、「結構いいじゃん」と思います(笑)。翻訳は31言語に対応し、このうち音声で入力できるのは23言語、音声が出力されるのは17言語となっています。スマホでは、キーボード入力は大変面倒なので音声入力が重要になります。最近の音声認識の精度がひと昔前に比べて飛躍的に向上していて、音声入力は快適で便利です。