CodeIQ MAGAZINECodeIQ MAGAZINE

最先端の機械学習・人工知能の動向を探れ!ABEJA Innovation Meetup #3に参加しました

2016.08.02 Category:【連載】池澤あやか☆勉強部 Tag: , , ,

  • 71
  • このエントリーをはてなブックマークに追加
main-1

人工知能、機械学習、ディープラーニング――これらの技術はGoogleやMicrosoft、Facebookをはじめとした大型IT企業が牽引している側面もありますが、昨今、これらの技術を活用した事業を展開するベンチャーが続々と誕生しつつあります。
今回はその最先端テクノロジーを紹介する勉強会に参加してきました!
by 池澤あやか

人工知能、機械学習、ディープラーニングの先端ベンチャーが続々登場

今回のイベントを主催する株式会社ABEJAは、さまざまな会社が抱える課題をIoT、ビッグデータ、人工知能技術などのテクノロジーを用いて解決しています。


▲ディープラーニングを活用し様々な情報を収集・解析・可視化するクラウドサービス「ABEJA Platform」は、小売・流通業界を中心に、国内の300店舗以上に導入されているようで、NHK「サキどり↗」でも紹介されていました。

今回のイベントは、そんなABEJAが定期的に開催している、ディープラーニング&IoTの情報交換の場です。

私池澤もホットなテクノロジーの最新情報に触れるべく、参加してきました!!

ディープラーニングは使っていて当たり前、新しい問題にどう適用していくかがキー

はじめにお話くださったのは、株式会社ABEJA CTOの緒方貴紀さん。

緒方さんがお話されたテーマは「CVPRから見る2016年のDeep Learning」。CVPRとは、コンピュータビジョン(ロボットの目をつくることを目指している分野)で権威のあるトップ会議で、今年はアメリカのラスベガスで開催されました。

毎年コンピュータビジョンにまつわるたくさんの論文が発表され、今回緒方さんはそこからトレンドになりそうな分野をピックアップして紹介してくださいました。

2012年に行われた画像認識のコンペティションで、他の機械学習のモデルに圧倒的な差をつけて優勝してしまったディープラーニング。今やディープラーニングは、昨今の画像解析の分野において「使っていて当たり前」となってきました。

CVPRでは、これから我々はディープラーニングをどう生かしていくのか、どう精度をあげていくのか、そんな研究が数多く見受けられます。

未来の可能性を大いに感させてくれる研究ばかりで、私もかなりぞくぞくしました!

CVPRでは、画像からキャプションを生成する研究や、画像について質問すると自動で回答してくれる研究(Image Question Answering)が紹介されていたそうです。

▲[1]より引用(文末に参考文献・引用元記載)

3D Visionは、画像の中のものを3Dで認識する研究分野。デプス画像という3Dのデータを利用することで、3Dで認識できるらしい…


▲たとえ椅子が机に隠れていても、大きさを推定することもできます。※[2]より引用(文末に参考文献・引用元記載)


▲このようなデータを学習させると、2Dのものでも3Dとして認識できるようになるそうです。

「僕達のスマホは将来的に3Dになっていくので、そういうときに応用されていくかも」と緒方さん。

Semantic Segmentationは、画像を「意味」で分割する研究分野です。具体的には、画像内の、どの部分までヒトで、どの部分までウマで、どの部分が地面で…というのをコンピューターが認識できるようにします。

▲詳細はhttp://jamie.shotton.org/work/research.html ※[3]より引用(文末に参考文献・引用元記載)

今年は自動運転ブームで、特に注目されている技術だとか!


▲道路の部分が紫色になっています。この技術を応用すれば、自動運転時の「目」としての役割を果たせるようになります。http://mi.eng.cam.ac.uk/projects/segnet/ ※[4]より引用(文末に参考文献・引用元記載)

Action Recognitionは、ビデオや画像から人の動きを抜き出す研究分野です。
スポーツの分野では何かと役に立ちそうですね。


▲フリースローの映像をを学習し、フリースローのシーンで一番重要な人物を自動的に学習できるらしい。http://basketballattention.appspot.com ※[5]より引用(文末に参考文献・引用元記載)

こちらもスポーツ分野での活躍が期待される、HumanPose Estimation。
画像から人が今どういったポーズをとっているのか、ポーズを推定することができます。
スポーツ選手のフォームの研究などに役立ちそうです。

http://www.ee.cuhk.edu.hk/~wyang/Deep-Deformable-Mixture-of-Parts-for-Human-Pose-Estimation/※[6]より引用(文末に参考文献・引用元記載)

ちなみに今年のベストペーパーは「ResNet」[※7]だったそう。

ResNetは、2015年にMicrosoft Researchが発表した、ディープラーニングの構造です。なんとその層の数、152層!!その精度は人間をも超えています。

2015年に発表されたばかりなのに、すでにさまざまな研究機関でこれを参考に研究が進められているのだそう。
どんだけスピードが早いんだ、この分野は……

今、Botがアツい!ボット時代の幕開け。最先端NLPの活用の仕方とは?

続いて発表してくださったのは、Giantleap株式会社のCEO、森本俊亨さん。

森本さんは慶應義塾大学理工学部情報工学科に在学中の学生起業家です。慶應では機械学習を専攻し、東大松尾研究室が主催する講義やABEJAでのインターンでデータサイエンスへの造詣を深め、その知識生かしたベンチャーを立ち上げています。

Botエンジンを用いた新しいマーケティングの研究開発を行っているそうです。

なぜ今Botなのか。それには2つの理由があります。

ひとつは、LINEやFacebook Messanger、Slackなどの主要メッセージツールでAPIが提供されるようになり、だれでもBotがつくれるようになったこと。これにより、自前でチャットプラットフォームをつくらなくてもBotをすぐ運営できるようになりました。

つぎに、アルゴリズム制作の開発コストが下がっていること。例えば、GoogleのTensorFlowを使えば、優秀なアルゴリズムをカンタンに導入することができます。

こういった機運もあり、現在私たちはインターネット上に情報を入力するのにフォームを使っていますが、ここがBotに置き換わるようになる日が来るかもしれない――そう考えた森本さんは、新しいビジネスを立ち上げることにしたのだそうです。

Botの返答アルゴリズムにディープラーニング?

現在の返答アルゴリズムには、「検索ベース」と「ディープラーニングベース」が存在します。

画像領域で活躍しているディープラーニングですが、自然言語処理の分野ではまだあまり精度を出せるようになっていません。
AIのBotとして有名なIBM Watsonは、検索ベースでの応答システムです。

検索ベースでは、事前に返答文章を登録しておき、ユーザーの入力した文章に対し、データベースを参照して返答するというもの。
対して、ディープラーニングベースのものは、大量のデータを統計的に解析し、一単語づつ生成するというもの。

これだけ聞くと、ディープラーニングベースのものがうまく文章を返答できるのか不安なところですが……


▲700万センテンスもの映画の字幕を学習させたBotなのだそう

意外とディープラーニングベースでもちゃんと文章になってますね!!すごい!!!

森本さんの会社では、まずはじめに開発コストの低い検索ベースのBotを開発し、その後ディープラーニングベースも取り入れてみたいと考えているそうです。

Botは研究としてもビジネスとしてもまだまだこれから発展していきそうな分野ですね!!

MicrosoftのりんなちゃんとLINE友達と私としては、早く会話に一貫性を持つようになってほしいですね。会話の一貫性に欠けるとあまり話が続かないんですよね。

ただ、これが叶った暁にはりんなちゃんが一番のLINE友達になってしまいそうで怖いです(笑)。


▲もくもくと真剣に聞いています!

ディープラーニングにはいいコンピューターが必要

最後に発表してくださったのは、LeapMind,Inc.の代表取締役CEO、松田総一さん。
テーマは、「二値化ディープラーニングとIoTデバイスへの適用」です。

ディープラーニングをする際は、ゲームコンピューターのような、計算処理能力の高いコンピューターを使うことが多いです。さもなければ、学習時間が死ぬほどかかってしまいます。

私たちが通常業務で使っているPCはCPUで計算処理していますが、ゲームコンピューターに搭載されているGPUを使ったほうが、行列計算が早く効率がいいんです。

しかし、とりわけIoT分野では、1台1台にGPUが搭載されたコンピューターを使うわけにはいきません。コストのかけすぎです。

学習部分をクラウド化して、データ通信だけハード側で行うという方法もありますが、電波が保証できないエリアでは一体どうすればいいのでしょうか?

そんなときに活躍するのが、二値化ディープラーニングです。

二値化ディープラーニングとは

細かい数字は使わず、0と1というシンプルな表現にすることで、学習するためのモデルのデータサイズを小さくしたもの。
(プログラミングを嗜まれている方には、intやchar、floatなどではなく、bitというシンプルな表現にすると言ったほうが分かりやすいかもしれません)

モデルとしては、スタンダートとなりつつある「XNOR-Net」や中国人が開発したとにかく速い「DoReFa-Net」がオススメとのことでした。

実験した結果、200MBあったものを45KBまで圧縮できたそうです。

あとは精度をよりあげるだけです。松田さんはGoogLeNetぐらいの精度を目指したいとおっしゃっていました。GoogLeNetは2014年に画像認識のコンペティションで優勝したモデルですよ…!

▲xnorの論文から引用(Reference:M. Rastegari, V. Ordonez, J. Redmon, and A. Farhadi. XNOR-Net: ImageNet Classification Using Binary Convolutional Neural Networks. arXiv:1603.05279, Mar. 2016.)。今は8bit22層でやっているそうです。精度もなかなかいい感じなのだそう。

▲USBくらいのサイズで実現できることを目指しているのだそう。

松田さんはこの仕組みをプラットフォーム化して、いろいろな人が使えるようにしていきたいとのことでした。
これが実現できれば、農業漁業、ドーロン、自動運転などに応用できそうですね。


▲Q&Aタイムも盛り上がりました!

今回の「ABEJA Innovation Meetup #3」を開催したのは株式会社ABEJAさん。2012年の創業時からディープラーニングをコア技術として事業を立ち上げ、現在はIoT×ビッグデータ×人工知能技術を活用して、産業ごとに最適化したソリューションを提供していらっしゃるそうです。2016年7月25日には総額5.3億円の資金調達も!

絶賛全職種を募集しているようなので、ディープラーニングに興味があるエンジニアの方々は要チェックですね。

今回の「ABEJA Innovation Meetup #3」のイベントレポートはここまで。
講演してくださったみなさん、貴重なお話ありがとうございました。

参考文献・引用元一覧

  1. Hyeonwoo Noh, Paul Hongsuck Seo, and Bohyung Han. Image question an-swering using convolutional neural network with dynamic parameter predic-tion. In The IEEE Conference on Computer Vision and Pattern Recognition(CVPR), June 2016.
  2. Shuran Song. Object-level 3d deep learning, in cvpr2016 tutorial: 3d deeplearning with marvin.
  3. Carsten Rother Antonio Criminisi Jamie Shotton, John Winn. Texton-boost: Joint appearance, shape and context modeling for mulit-class objectrecognition and segmentation. In European Conference on Computer Vision(ECCV), January 2006.
  4. Vijay Badrinarayanan, Alex Kendall, and Roberto Cipolla. Segnet: A deepconvolutional encoder-decoder architecture for image segmentation. arXivpreprint arXiv:1511.00561, 2015.
  5. Vignesh Ramanathan, Jonathan Huang, Sami Abu-El-Haija, Alexander Gor-ban, Kevin Murphy, and Li Fei-Fei. Detecting events and key actors in multi-person videos. In The IEEE Conference on Computer Vision and PatternRecognition (CVPR), June 2016.
  6. Wei Yang, Wanli Ouyang, Hongsheng Li, and Xiaogang Wang. End-to-end learning of deformable mixture of parts and deep convolutional neuralnetworks for human pose estimation. In The IEEE Conference on ComputerVision and Pattern Recognition (CVPR), June 2016.
  7. Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep residuallearning for image recognition. In The IEEE Conference on Computer Visionand Pattern Recognition (CVPR), June 2016.
  • 71
  • このエントリーをはてなブックマークに追加

■関連記事

ドキッ!女性だらけの「第3級アマチュア無線技士試験勉強会」に潜入してみた!... 女性限定!第3級アマチュア無線技士試験勉強会 こんにちは、池澤あやかです。 いろいろな技術系勉強会に潜入している私ですが、今回潜入したのは、エレクトロニクスとアマチュア無線の専門出版社、CQ出版が主催する「女性限定!第3級アマチュア無線技士試験勉強会」です!! アマチュア無線というと、高校...

今週のPickUPレポート

新着記事

週間ランキング

CodeIQとは

CodeIQ(コードアイキュー)とは、自分の実力を知りたいITエンジニア向けの、実務スキル評価サービスです。

CodeIQご利用にあたって
関連サイト
codeiq

リクルートグループサイトへ