Deep Learningによるハンドサイン画像認識デモ 解説 (第一回)

Deep Learningによるハンドサイン画像認識デモ 解説 (第一回)

「ビッグデータEXPO東京 2015春」に展示しました「Deep Learningを利用したハンドサイン画像認識のデモ」について、全三回に分けて解説します。
今回は第一回です。シリーズ概要とデモ全体の概要について解説します。

by NagasawaKazuki 2015/04/20

はじめに

ISPは、2015年3月12日(木)、13日(金)にザ・プリンスパークタワー東京で開催された「ビッグデータEXPO 東京」に出展しました。
ブースでは「Deep Learningを利用したハンドサイン画像認識のデモ」と「Deep Learningスターターキット」を展示し、多くの方に来訪していただきました。

当日の様子とブース
demo_01
demo_02

本連載では、ブースで展示していました「Deep Learningを利用したハンドサイン画像認識のデモ」について、技術的な内容を含めて全三回に分けて解説します。

シリーズ構成

本連載の構成です。
[第一回]Deep Learningとは、デモ概要、ハードウェア構成 (本記事)
[第二回]デモアプリケーション
[第三回]ハンドサイン画像の学習、当日の様子

Deep Learningとは

Deep Learningとは、多層ニューラルネットワークを利用した、機械学習の一手法です。大量のデータから規則や判断基準を自動的に抽出することができます。
一般物体認識や手書き文字認識、音声認識など、様々な分野のコンテストで成果を出しています。画像や音声、時系列等、ベクトル形式となるデータならどんなものでも与えることができるため、多くの分野への応用が期待されています。

今回のデモの画像認識だけで見ても、

  • 「一般人/怪しい人」の画像を学習させて、防犯に利用する。
  • 車載カメラを用いて道路状況を学習し、危険予測に役立てる。
  • 今回のデモの応用で、更に複雑なハンドサインを学習させることで、機器の(複雑な)操作をハンドサインで行えるようにする。

等、様々な分野への応用が考えられます。

Deep Learningについて、詳しくは当社にて開催されたセミナー資料をご覧ください。
https://wazalabo.com/deep-learning-seminar-report-001.html

デモ概要

今回の展示では、Deep Learningを用いて事前にハンドサイン画像を学習させた結果を利用して、Webカメラからの映像をリアルタイムで認識し、キャラクタを動かすデモを行いました。
認識できるハンドサインは指を立てた本数によるもので、「0本から5本」の6パターンとなっています。
(実際には、6パターンに加え、「NGパターン (6パターン以外)」と「背景」を加えた8パターンを学習させました。)

学習させた画像の例。左から 0本、1本、…、5本、NGの一例、背景
sample_0
sample_1
sample_2
sample_3
sample_4
sample_5
sample_ng
sample_bg

ハードウェア構成

今回のデモは、ブースで同時に展示していました「Deep Learningスターターキット」を用いてDeep Learningの学習から当日の画像認識まで行いました。
以下が今回使用したDeep Learningスターターキットの構成です。

CPU XeonE5-1620V3 4Core 3.5GHz
GPU Tesla K8 1536 Core 8GB 単精度 2.13TFlops
チップセット X99 Express Chipset
メモリ 16GB (4GB x 4) DDR4-2133 Quad-Channel
HDD 1TB
OS CentOS 7
その他 CUDA 6.5、cuDNN、Caffe インストール済み、Webカメラ接続

Deep Learningの学習では大量の積和演算を行う必要があり、その演算にGPUを使用することで高速に処理を行うことができます。また、Deep Learningの認識に関しては演算の必要が無いため、コンパクトで安価なハードウェアでも実行は可能です。

dl_starter_kit
tesla-k20-series

まとめ

本記事では、ビッグデータEXPOにて展示したデモについての概要をDeep Learningの紹介と合わせて説明しました。

次回は、デモアプリケーションの内容を解説します。

Deep Learningによるハンドサイン画像認識デモ 解説 (第二回)



今回のデモアプリケーションでは、キャラクターとして「ユニティちゃん」を使用しています。

このコンテンツは、『ユニティちゃんライセンス』で提供されています。