12月6日、EMCジャパンは「第2回 データサイエンティスト・ワークショップ 2012」を開催した。国内でビッグデータ第一人者とも呼べる登壇者のセミナーの後、リクルートテクノロジーズのシニアアナリストが、ユーザーの立場として自社のデータサイエンスの活用について説明した。
今もっともセクシーな職業“データサイエンティスト”
「データサイエンティスト・ワークショップ」は企業のデータ分析に関わるユーザーやCIO、データサイエンティストを目指す人などを対象とした専門的なイベント。好評だった第1回に引き続き行なわれた第2回では、統計数理研究所、プリファードインフラストラクチャー、ブレインパッド、アクセンチュア、リクルートテクノロジーズなど国内ビッグデータをリードする企業の第一人者が集まり、さまざまな角度でデータサイエンスやデータ分析について講演した。
セミナー前半では、データサイエンティストという職業やその役割が取り上げられた。グーグルのチーフエコノミストであるハル・バルカン氏やバブソン大学のトマス・H・ダベンポート氏、D.J. パティル氏などの第一人者は、ビジネス誌においてデータサイエンティストが今後非常に注目を集める“セクシー”な職業であると言及している。そして、企業からの需要が多く見込まれ、将来的には圧倒的な不足が見込まれていると説明された。
一方で、データサイエンティストには明確な定義やスキルセットがないのが課題。ダベンポート氏によると、データサイエンティストはデータハッカー、分析者、コミュニケーター、信頼できる相談役の複合体と考えられる。これを実現するためには、統計学や情報処理に関する高い知識と経験だけではなく、コミュニケーション能力や経済学、ビジネス知識も必要になるが、現状は学ぶ場所や必要なスキルセットも明確に定義されていない状況だ。このままだと需要と供給のミスマッチが発生するため、今後は認定制度を含めた人材育成の仕組みが必要になるという。
経済効果を理解してもらうのに5年かかった
セミナーの後半では、リクルートテクノロジーズ ビッグデータグループのシニアアナリストである西郷彰氏が、ユーザーの立場としてリクルートグループ内でのデータサイエンス活用について解説した。
リクルートは進学、就職、結婚、出産などの「ライフイベント」、旅行、稽古、美容、飲食などの「ライフスタイル」という2つの領域で、カスタマーとクライアントのマッチングビジネスを手がけている。カスタマーだけではなく、クライアントからの広告出校も増えており、両輪で収益を得ているのが特徴的だという。2012年10月には7つの事業会社、3つの機能会社を統括するホールディング制に移行。このうちリクルートテクノロジーズは、全社を横断する機能会社として、ITとマーケティングテクノロジーを担っているという。
サイトだけでも100を超え、膨大なPV・セッション数をたたき出すリクルートグループ内のデータを扱う西郷氏は、自社のデータについて「大きいだけではなく、多様で複雑なデータを持っている。非構造化データも増えている」と現状分析。こうしたデータに対峙するアナリストを、西郷氏は事業現場に近いところで課題設定や具体的な施策を示す「コンサル型」と、データマイニングや機械学習の結果を基にサービス品質の向上を目指す「エンジニア型」に分類した。性質の異なる2種類のアナリスト、そして事業担当のマーケターの三位一体で、最適なデータ活用を日々検討しているという。
また、インフラに関しては、2008年の3~4台のマシンからリサーチをスタート。余ったハードウェアを実験や検証で使いつつ、2011年からは商用利用可能な設計なインフラを構築し、第2世代の現在では40台のサーバーをベースにしたプライベートクラウドを構築しているという。
こうした人材とインフラを活用した、ビッグデータの分析はさまざまなサイトで行なわれている。たとえば、就職・転職支援サイトの「フロムA」では、従来クライアント枠に挿入しているリコメンデーションにクライアントの競合となるアルバイトの募集が表示されていた。同社ではデータ分析により、エンジンを改良し、アルバイトの応募完了後のページに掲出するよう改良したという。
また、不動産・住宅サイトの「SUUMO(スーモ)」においては、エリアとエリアの関係を分析することで、レコメンドエリアを掲出。グルメサイトの「ホットペッパーグルメ」ではシステムの制約上、従来2万人だったリコメンデーションメールを、Hadoopの導入によって、10倍の20万人まで拡大。コンバージョンを1.6倍に高めた。とはいえ、こうした経済効果は必ずしもすぐに認知されるわけではないという。西郷氏は、「最初は少ない体制でやっていたが、経済効果を理解してもらうのに5年かかった」と語る。
データサイエンティストへの道は厳しい
実際のデータ分析システムの構築においても、さまざまな課題があった。ある人材派遣系のサイトにおいて、レジュメを元に募集側のクライアントと応募側のカスタマーのマッチングさせるというアルゴリズムを実装するにあたっては、「そもそもテキスト情報でマッチングは可能なのか?」「システムとして実装可能なのか?」といった課題が大きかった。そこで、データ定義やクラスタリング手法の選定、クラスター間の表現手法、評価指標などのフェーズで、トライ&エラーを繰り返してきたとのこと。とはいえ、苦労して作り出したアルゴリズムに近いものが、すでにオープンソースで公開されていたりして、一筋縄ではいかなかったようだ。
最後、西郷氏はデータ分析者へのメッセージとして、資質やスキルについて説明した。西郷氏は、Facebookのデータサイエンティストの募集要項によると、データ分析の豊富な経験や多様なデータソースへの理解、分析ツールやスクリプト言語、データベースなどの技術的知識や経験などが求められると紹介。さらに著名なビッグデータの書籍ではコミュニケーション能力や企業家精神、好奇心なども必要な資質として書かれているという。データサイエンティストへの道は、「けっこう厳しいです」(西郷氏)というのが実態だ。
その上で、自身の肩書きがデータサイエンティストではなく、シニアサイエンティストであることを引き合いに出し、「私も自分がこの条件を満たしているとは思わない。5年前はビッグデータの論議なんて誰もしてなかった。そう考えると、データサイエンティストになるのに、5年くらいかけていいかもしれない」と持論を展開。長い時間をかけて、分析、ビジネス、テクノロジーなど必要な能力をまんべんなく高め、「能力の面積を拡げていく」ことが重要だと、データ分析に携わる聴衆にエールを送った。

この連載の記事
- 第14回 “シリコンバレーの技術者集団”ではトレジャーデータを見誤る
- 第13回 富士通のキュレーターに聞いたビッグデータの新しい活用論
- 第12回 ビッグデータに一番近いダイレクトマーケターが考える価値
- 第11回 「データ」をビジネスにしないとIT業界では生き残れない
- 第10回 富士通のキュレーターが挑む「ビッグデータからものづくり」
- 第9回 ビッグデータを使うWeb事業者が外食産業に進出したら?
- 第7回 “データが語る時代の端緒”統計のプロが考えるビッグデータ
- 第6回 “ビジネスでの価値は事例が語る”IBMが考えるビッグデータ
- 第5回 “非構造化データは宝の山”オートノミーが考えるビッグデータ
- 第4回 “常識を覆す迅速な仮説検証へ”JR東WBが考えるビッグデータ
- この連載の一覧へ