ディープラーニングで人工知能の認識精度は人間を超えた
――人工知能は現時点でどの程度のことができるようになっているのですか。
現状の自然言語処理では、言葉の意味理解はほとんどできません。いかにも会話をしているように振る舞っている人工知能でも、「コーヒー」と聞いて、その映像をイメージできているわけではなく、コーヒーという4文字の文字列としか認識していません。ただ、砂糖やカフェといった言葉の文字列と一緒になっていることが多いことはわかるので、コーヒーという言葉に対して「カフェに行きますか」「砂糖はいりませんか」と、わかったような返答をしてくれます。しかし実際は、文字列の予測問題を解いているにすぎないのです。
――では今、企業のビジネスなどで人工知能が注目されているのはなぜでしょう。
理由の一つは、ITインフラが整備され、ビッグデータを収集、保存できるようになったことです。データがあれば、それを分析し、反応を予測したうえで、より効果的な広告を個別配信するとこともできます。また、データ処理に留まらず、行動をアウトプットとして出せるようになると、生物らしく見えるようになり、人工知能と呼びやすくなったという面もあるでしょう。
もう一つの理由は、ディープラーニング技術の向上が非常に大きいと思います。ディープラーニングでこれまでできなかったことができるようになっています。これまで手の届かなかった意味理解も、ディープラーニングによって解決に向けた光明が見え始めています。特に画像認識精度の向上は目覚ましいものがあります。これまでのコンピューターの画像認識能力は人間にまったくかなわなかったのですが、2012年にカナダのトロント大学が開発した「Super Vision」以降、ディープラーニング技術による画像認識精度は急速に向上し、人間を超えるまでになっています。
――ディープラーニングの画像認識精度向上は、どのように人工知能を発達させるのでしょう。
子どもの発達過程を考えてもらうとわかりやすいかもしれませんが、見てわかることが第一歩で、そこにはディープラーニングによる認識精度向上が寄与しています。
その次に、行動を伴って理解する段階があります。本という言葉の意味を理解するには、本に触って、紙状の素材の感触をつかみ、本を開くという動作をして、開けるとはどういうことか理解が必要です。紙状で、開くことができ、文字や絵が印刷されている、そうした概念の塊をお母さんが「本」と呼ぶのを聞いて、本という言葉の意味を理解できるようになるのです。
昆虫のように単純な処理しかできない知能でも、身体があり、外界と相互作用することで、賢く見える振る舞いをすることができるという指摘もあります。人工知能にも、ロボットという身体性を持たせて、外界と相互作用させることが、世界を正確に理解するためには不可欠です。