高速＆高精度、Laboro.AI顔検出エンジンを開発！

株式会社Laboro.AI
2019年06月04日

株式会社Laboro.AI
Laboro.AI CTO藤原・エンジニアQuangによる研究開発、国際会議IEEE FG2019にて成果発表

オーダーメイドのAI・人工知能ソリューション『カスタムAI』の開発・コンサルティングを行う株式会社Laboro.AIは、この度、精度と処理速度を高めた顔検出エンジンを開発しましたことを発表いたします。なおこの研究開発は、当社CTO藤原弘将とエンジニアQuangによるもので、研究論文の投稿時点では世界第2位※の精度を誇っており、先般5月16日、フランスで開催された顔・ジェスチャー検出の国際会議、IEEEが主催するFG2019 でその内容を報告いたしました。（※当論文を投稿した時点で、国際会議・論文誌で発表済みの査読有り論文との比較の結果。）

概要

AI・人工知能のオーダーメイド開発「カスタムAI」の提供および導入コンサルティングを企業向けに展開する株式会社Laboro.AI（ラボロエーアイ、東京都中央区代表取締役CEO椎橋徹夫・代表取締役CTO藤原弘将。以下、当社）は、アカデミア（学術研究分野）から最先端のAI・人工知能技術をキャッチアップし、国内産業につなぎ届けることをミッションに掲げています。

この度、当社CTO藤原弘将とエンジニアNguyen Van Quangにより、これまでと比較しても極めて高い精度と高速性を持った顔検出エンジンの開発に成功いたしました。当エンジン（以下、「Laboro.AI顔検出エンジン」）は、処理速度を重視したSingle-Stageというアルゴリズムをベースに精度を高める改善を施したものであり、研究論文の投稿時点で世界第2位※の精度を実現しております。
（※当論文を投稿した時点で、国際会議・論文誌で発表済みの査読有り論文との比較の結果。）

また、研究論文『Revisiting a single-stage method for face detection（顔検出におけるシングルステージ法の再考）』を、IEEEが開催する顔・ジェスチャー検出の国際会議FG 2019（IEEE International Conference on Automatic Face and Gesture Recognition）に投稿、本年2月に採録が決定し、先般5月16日、フランスリールで開催された国際会議の場でその内容を報告いたしました。

当社では、多業界で活用が見込まれるAI顔検出の分野において、Laboro.AI顔検出エンジンを活用したオーダーメイド型ソリューション「カスタムAI」のご提供に引き続き尽力してまいります。

顔検出AIで一般的に用いられるアルゴリズム、そのメリット・デメリット

スマートフォンの顔認証システムや、デジタルサイネージでの顔検出、小売店での動向調査など、AIが人の顔を検出する「顔検出AI」は、ディープラーニングの技術進化により、多くのシーンで活用されるようになってきました。

「顔検出」は、人が映った画像の中から顔部分をAIが見つけ出すテクノロジーであり、特定の人物を推定する「顔認識」のベースとなる技術です。顔検出は、様々な物を検出することを目指す「物体検出」のひとつの分野で、用いられるアルゴリズムは基本的に同様のものであり、現在は、ディープラーニングのアルゴリズムのひとつCNN（畳み込みニューラルネットワーク）を用いたものが主流となっています。

これらのアルゴリズムは、Two-Stage法とSingle-Stage法の2つに大別されます。Two-Stage法は、その名の通り2段階の処理で構成されたアルゴリズムで、1.入力された画像の中からチェックすべき領域の候補をピックアップするネットワークと、2.ピックアップされた候補の領域をスクリーニングして顔だと特定するネットワークから成っています。Two-Stage法は、複数のネットワークが働くことから検出する精度の高さが特徴である一方、その分、検出時間がかかることがデメリットとされています。そのため、リアルタイムさが求められる自動運転などの分野では用いられにくいと考えられています。

一方、Single-stage法とは、一つのネットワーク内で上記両方の処理を行おうとするもので、検出精度ではTwo-Stage法に劣るものの、処理スピードが早いというメリットがあります。現在、顔検出の分野で代表的なアルゴリズムとして知られる、YOLO（You Look Only Once）やSSD（Single Shot Multibox Detector）は、Single-Stage法の弱点である精度面の改善が重ねられたものして、注目を集めています。

今般開発したLaboro.AI顔検出エンジンの特徴

今般、当社が開発したLaboro.AI顔検出エンジンは、処理速度を強みとするSingle-Stage法を用い、その高速性を維持したまま高精度な顔検出を実現したものです。精度のみ、あるいは処理速度のみが突出して高い水準にあるモデルは多く存在しますが、ビジネス現場への実装を前提にした場合には、精度と速度の双方が高いレベルであり、かつそのバランスが取れていることが重要になります。

たとえば、顔検出エンジンの実際の活用シーンとして自動運転車への搭載を想定した場合、走行中の車が道路上に通行人を検出したら、正確かつスピーディーにそれを認識してブレーキを作動させる必要があります。また、街頭の防犯カメラに搭載する場合には、より早く、正確に特定の人物を検出し、犯罪防止につなげることが重要でしょう。さらに、介護施設など建物からの無断外出などに役立てる場合も同様に、精度高く施設内の方を検出し、一刻も早く状況を把握することが安心安全の面でもキーとなります。

Laboro.AI顔検出エンジン開発のポイントは、Single-Stage法で検出精度が上がりにくい原因となっていた2つの点に改善を施したことです。まず、Single-Stage法では、画像から顔を検出する場合、小さい顔を検出するレイヤーから大きい顔を検出するレイヤーへと徐々にその検出範囲を拡げていく階層構造になっています。言い換えれば、細かい画素範囲から広い画素範囲へとその検出範囲を変えて処理が実行されます。（図1）
図1　一般的なSingle-Stage法による顔検出の流れ（Single-Stage法では細かいレイヤーから粗いレイヤーへと段階的に検出を行う）

この際、とくに小さな顔を検出する段階では顔単体で判別することが難しく、顔周辺の情報（たとえば、体や背景など）も参考にする必要があり、結果として精度に影響をもたらしていました。（図2）

図2　顔検出のイメージ（小さい顔を検出するには周辺情報が必要になる）（出典：WIDER FACE）
そこで、Laboro.AI顔検出エンジンでは、1レイヤー上の広い範囲の情報を統合することにより、周辺情報を把握しやすくし、小さい顔も検出しやすい構造を取ることで精度の向上を実現しました。（図3）

図3　Laboro.AI顔検出エンジン1.（1つ上の粗いレイヤーの情報を統合し、小さい顔を検出しやすくする）
もう一点Single-Stage法の精度を下げる要因となっていた点として、特徴量の問題があります。Single-Stage法では、画像中の顔の有無を判断し（識別）、顔のサイズを検出する（回帰）という2つの処理が行われますが、この際、双方で同じデータ情報（特徴量）を使用することが精度に影響をもたらしていました。そこで、当モデルでは、元となるデータ情報を識別用と回帰用の2つに分岐させるレイヤーを挟み込むことにより、精度向上を図りました。（図4）

図4　Laboro.AI顔検出エンジン2.（識別・回帰の段階で分岐させるレイヤーを挿入）

Laboro.AI顔検出エンジンの精度とスピード

顔検出エンジンの評価にあたっては、当研究分野で評価用データのスタンダードであるWIDER FACEを使い、各モデルとの比較を実施しました。WIDER FACEは約3万枚の画像に、40万人分の顔画像がアノテーション（ラベル付け）されており、検出の難易度に応じてEasy、Normal、Hardの3段階に分かれた評価データです。比較対象としたのは、当研究論文を投稿した時点で国際会議・論文誌で発表済みの査読有り論文で報告された顔検出モデルです。

テストの結果、今回開発の顔検出エンジン（表1のOurs）は、Easy、Normal、Hardのいずれのレベルでも第2位となる精度を誇ることが実証されました。
表1 その他顔検出モデルとの精度比較
また、処理速度について、精度1位であったDetectorと比較した結果が表2です。表の横軸が処理時間、縦軸が検出の精度を示しており、Detectorは、時間を追うに従って徐々に精度が向上していることがわかります。それに対してLaboro.AI顔検出エンジンは、処理開始の立ち上がりから高精度の水準に達し、それを維持する特徴があります。つまり、精度単体で見ればDetectorが勝るものの、ビジネスや社会現場での実用時に必要になる速度と精度の双方が、高い水準でバランスが取れているという点では、Laboro.AI顔検出エンジンは、その他モデル以上に力を発揮するものと考えております。

表2　Detectorとの速度比較

Laboro.AI顔検出エンジンの活用シーン

Single-Stageの特徴である処理スピードの高速性に加え、精度を兼ね備えたLaboro.AI顔検出エンジンは、今後様々なシーンで導入が期待されている顔検出や顔認識テクノロジーでの利用が見込まれます。立ち上がり直後から高い精度を保つという特徴から、特にリアルタイムな検出を求められるシーンでの利用が期待され、たとえば、駅や街中に設置されたカメラ動画からの顔検出、視聴率調査での視線判定、工場や製造現場などでの状況判断などが、その典型例として考えられます。

当社Laboro.AIは、オーダーメイドのAIモデル「カスタムAI」の開発・コンサルティング・導入支援を事業としており、業種・業界に隔たりなくソリューションを提供しております。今般のLaboro.AI顔検出エンジンのほか、各現場特有の課題にジャストフィットするAIソリューションを、多くの企業・業界の皆様にご提供できるよう、今後も尽力してまいります。

ご参考

・研究論文『Revisiting a single-stage method for face detection』
https://arxiv.org/abs/1902.01559

・FG 2019（IEEE International Conference on Automatic Face and Gesture Recognition）
http://fg2019.org

・当社ホームページ
https://laboro.ai

・研究者（代表取締役CTO 藤原弘将）プロフィール
京都大学大学院情報学研究科博士課程修了。博士（情報学）。
大学院修士課程修了後、2007年に独立行政法人（現国立研究開発法人）産業技術総合研究所情報技術研究部門にパーマネント型（任期無し）研究員として入所。機械学習を用いた音声/音楽の自動理解の研究に従事。機械学習・音響信号処理・自然言語処理を専門とする。技術の実用化にも積極的に関わり、開発した特許技術を様々な企業にライセンス提供し、ライセンス先企業の技術顧問も務める。
在職中の2008年に京都大学大学院博士課程に社会人学生として入学し、2009年に博士(情報学) を取得。2011年～2012年の間、在外研究員としてQueen Mary University of London客員研究員を兼任。
2012年にボストンコンサルティンググループに入社し、ビッグデータ関連を中心に様々な業界・テーマのプロジェクトに従事する。特にデータ分析に基づく経営戦略/マーケティング戦略立案を得意とする。また、社内のビッグデータ活用チームに所属し、社内のデータアナリティクスに関する研修の講師も務める。
その後、AI系のスタートアップ企業を経て、2016年に株式会社Laboro.AIを創業。代表取締役CTOとして技術開発全般をリードする。
情報処理学会山下記念研究賞、船井情報科学振興財団FFIT研究奨励賞、各受賞。IEEE、情報処理学会、人工知能学会、日本音響学会、各会員。

当社Laboro.AIについて

株式会社Laboro.AIは、「効く、AIを。」をテーマに、オーダーメイドのAIソリューション「カスタムAI」の開発・提供を事業とし、アカデミア（学術分野）で研究される最先端の人工知能/機械学習技術のビジネスへの実用化をミッションに掲げています。業界に隔たりなく、様々な企業のコアビジネスの改革を支援しており、その専門性から評価を得る国内有数のAIスペシャリスト集団です。

＜会社概要＞
社　名：株式会社Laboro.AI（ラボロエーアイ）
事　業：機械学習を活用したカスタムメイドのアルゴリズム開発、およびその導入のためのコンサルティング
所在地：〒104-0061 東京都中央区銀座8丁目11-1GINZA GS BLD.2 3F
代表者：椎橋徹夫（代表取締役CEO）、藤原弘将（代表取締役CTO）
設　立：2016年4月1日
U R L : https://laboro.ai/