数十万件のカードローン顧客データから「貸倒れ確率」予測モデルを開発、ユニークな着眼点も
新生銀行の大規模リアルデータを使った学生ハッカソンを見てきた
2019年04月15日 08時00分更新
2019年2月28日、新生銀行本店で「2019年 新生ハッカソン」の最終成果発表会が行われた。新生銀行グループが3年前から開催するこのハッカソンは、最新技術を取り入れた革新的な金融サービスの創造と、金融業界におけるデータサイエンス人材の育成を目的としており、大学生/大学院生を参加対象として実施されている。
新生ハッカソンの特徴は、新生銀行グループが保有するリアルデータを使って、リアルなビジネステーマに取り組む点にある。具体的には、匿名化された数十万件の個人向けカードローン顧客データを用いて、「カードローン商品に申し込んだ顧客が1年後に貸倒れする確率」を予測するモデルを開発し、予測精度や発想の新規性、発展性を競う。最優秀賞の参加者には賞金30万円が授与される。
第3回目となった今回、100名を超える応募者の中から選出されたのは12名の学生。2月18日から土日を除く9日間、データ分析環境が用意された秋葉原の新生フィナンシャル本社に通い、それぞれ独自の予測モデルを開発すべく、コーディングや機械学習の精度向上にいそしんだ。「限られた時間とリソースの中で課題を解決する」というのもまた、現実のビジネスに近いと言えるだろう。
期間中は毎日、新生銀行グループのデータサイエンティストに現状報告を行う個別面談が実施された。ここではリソースやアルゴリズム頼みにならず、きちんと分析対象データの特徴などを捉えてモデル開発が進められるよう、さまざまなヒントが“先輩”データサイエンティストから与えられたという。さらに5日目には「中間発表会」が開催され、参加者それぞれがどんなアルゴリズムを採用し、どんな方向性で開発に取り組んでいるのか、どんな課題を抱えているのかなどを共有した。
新生銀行 グループデータ戦略室 セクションヘッドの樋口雄飛氏は「他の参加者の中間発表を聞いて、差別化を図るために採用アルゴリズムを再検討、軌道修正する参加者もいた」と明かす。樋口氏は、3年前の第1回開催時から新生ハッカソンに携わってきた人物だ。
「今では、Webを少し検索すれば機械学習の初歩的な知識やツールが多数見つかりますし、ちょっとしたものであれば簡単に作成できるようになっています。3年前よりも応募のハードルは下がっているでしょうね。応募者数が年々増えており、より多くの学生がデータサイエンスに関心を持ってくれることがうれしいです」
ただし、新生ハッカソンは「実務でも応用可能なレベル」のモデル開発への挑戦だ。参加する学生には初学者以上の経験や知識が求められる。そこで、選考では書類審査後に担当者が個々の応募者に電話をかけ、「Python」や「R」を使ったデータ分析の経験や知識レベルなどを確認。参加者が互いに刺激し合って切磋琢磨できるよう、スキルレベルをある程度統一するよう工夫しているという。