僕はロボットのための認識器をつくりたい

彌冨研 Advent Calendar 2019 7日目の記事です。
最初はエッジAI推論の話を書こうと思ったんだけど、まずはその前になんでそういうことやっているかを話そうと思います。
別に時間がなくてとかそういう理由ではないです。うん。

簡単な自己紹介

彌冨研は卒業してから3年くらい経ちます。
あの頃、僕が先生に「ディープラーニングっていうすごい技術があるんでこれで人間みたいな画像認識作りたいです」って言い出したんですが、
当時僕が思っていたよりもディープラーニングが盛り上がり、本当にたくさんのことができるようになりました。
とはいえいつも真面目に研究していたわけでなく、勝手に研究室のマシン名前つけたり、朝までSlack bot作ったり、研究と関係ないもの作ったりしてました。

システムが物理的に作用する世界

インターネットのような通信技術が進歩して、情報のや記号のやりとりで済んでいたもの(決済や認証など)はすっかりIT技術で取って代わられてしまいました。
とはいえ、物理世界に直接作用できているのは本当に少なくて、まだまだ人間が運転する乗り物に乗ったり人間が運んだ荷物をやり取りしたりしているわけです。
そう考えたときに、やっぱりシステムがアクチュエータを介して直接作用できるようになるのって夢があるなって思うわけです。
とはいえ、例えばロボットであれば、環境の認識–>行動計画–>制御 というサイクルを回しつづけるんですが、全部一人でやるのはちょっと大変です。
僕は、まずは環境をちゃんと理解しましょうということで認識部分に興味があって研究したりしています。

ということで、今日は実世界で我々と一緒に生活できるシステムを作るために、どんな認識技術が必要なのか考えてみたいと思います。

Edge AI: リアルタイムに認識する

まずは、その場で即座に環境の情報を制御システムに渡してやる必要を考えないといけません。
そのためには、軽量で、できれば低消費電力で動く認識器がほしいわけです。

最近ではスマホ上で認識器を動かしたいというモチベーションもあり、軽量ディープラーニングアーキテクチャの研究がだいぶ出ています。

それと、推論時用にニューラルネットワークのグラフ構造を最適化する技術もだいぶ使われています。
せっかく軽いネットワークにしたわけだから、プロセッサにとって無駄のない処理に仕上げる必要があります。
たとえば、Batch NormalizationとConvolutionは実行時には一つのレイヤーにまとめることができます。

Multi/Cross Modal: 各感覚器入力を統合してグラウンディングする

聴覚・触覚・視覚・味覚・嗅覚を使い分けている私たちが暮らす世界でわかり合うためには、
やっぱりカメラだけとかマイクだけでは十分ではない気がします。
もちろん、すでに市場にでているロボットは様々なモーダルを駆使して動いていますが、各モーダルをうまく統合して認識結果として処理する必要があります。

画像と音と言語の各モーダルで共通する意味空間をつくったり、互いのモーダル情報をマッピングしたりする技術が少しずつ出てきています。

SLAM: 自分がどこにいるのか知る

SLAMというのは、加速度センサの情報や視覚的特徴量から自分が部屋のどこにいるかを推定する技術です。
これがないと、ロボットがもとの場所に帰ることすらままならないくらい大切な技術です。
Oculus Questのような外部センサを不要とするVRシステムやARシステムでも必須です。
最近は、CNNを使ったVisual SLAMが盛んに研究されています。

Lifelong ML: 状況に応じて学習し続ける

最近、一番注目している分野です。
従来の機械学習の枠組みでは、一度学習したあとに異なるタスクを追加的に学習していくことはほぼ不可能でした。
その問題にチャレンジしようというのがLifelong MLです。
実際問題、ロボットのいる環境は刻一刻と変わりますし、ラボから出た時点で到底完成された認識器を作れるとは思えないのです。

HAI: 人間とロボットがコミュニケーションできるようにするために

そもそも、それっぽく動くロボットができたところで私達人間はそれを受け入れられるのでしょうか。
その疑問に答えてくれるのが、Human-Agent Interactionです。
人格があるように見えるロボットの電源を切る行為を人間はどう思うのか、
とかロボットがコミュニケーションするためにどんな要因に配慮すべきかを研究する領域です。
人間と一緒に生きるなら人間のことをよく理解して認識器を設計する必要があるんじゃないかとも思っています。

さいごに

完全に読み物になってしまったので、若干物足りなさがありますね。
12/22にリベンジするチャンスがあるので、次は認識器のエッジ推論系の話で手を動かしてみたことを書こうと思います。