数十万件のカードローン顧客データから「貸倒れ確率」予測モデルを開発、ユニークな着眼点も
新生銀行の大規模リアルデータを使った学生ハッカソンを見てきた
2019年04月15日 08時00分更新
「ハッカソン後も使える実務性の高いモデル」に最優秀賞
最終成果発表会では、各参加者が6分間の持ち時間を使って、自己紹介/採用したモデル/モデルのアピールポイント/詳細の解説/自己評価についてプレゼンテーションを行った。審査員は、データサイエンティスト協会 理事 宮腰卓志氏、日経BP 日経FinTech編集長の原隆氏、セカンドサイト 取締役兼CTOの深谷直紀氏、新生銀行グループ 本社チーフオフィサー兼専務執行役員 平沢晃氏、新生フィナンシャル 代表取締役社長兼CEO 鳥越宏行氏。リアルデータと真正面から対峙し、明確な指針のもとでユニークかつ高レベルなモデル開発に取り組んだ12名の発表は、いずれも審査員から高い評価を得た。最終結果は次のとおりだ。
最優秀賞:小林滉河さん(筑波大学情報学群知識情報・図書館学類 学部4年)
優秀賞:古田陸太さん(東京大学工学部電子情報工学科 学部3年)
データサイエンティスト協会賞 宗政友洋(筑波大学情報学群情報科学類 学部4年)
日経FinTech賞:五十嵐康太さん(信州大学経法学部応用経済学科リスク分析コース 学部3年)
特別賞:大矢康介さん(横浜国立大学大学院環境情報学府情報メディア環境学専攻 修士1年)、
宮澤一矢さん(筑波大学理工学群社会工学類 学部4年)
最優秀賞に輝いた小林さんは、「データをじっくり読んだところ、貸倒れには『破産』と『延滞』の2種類の要因があることが見えてきました」と語る。そこでそれぞれの貸倒れ予測モデルと両方を合わせた予測モデルの計3種類を、LightGBMのアルゴリズムを採用して作成。さらにイテレーション回数(学習回数)とシード(初期重みをエンコード)を、イテレーション450とシード1、イテレーション400とシード2の2グループに分けて平均を取得。その結果を最終予測確率として提出したと説明する。
また小林さんは「特徴量の作成にも特に工夫を凝らしました」と語る。具体的には、与えられた説明変数以外にも過去の実績(目的変数)をベースに生成する「Target Encoding」を採用しつつ、直近6カ月間の実績から特徴量を生成するという、時系列を考慮した生成アプローチを考案した。
本来Target Encodingは全体平均をとって特徴量を生成するが、それでは今回のハッカソンで提供されたデータ期間に対する予測には当てはまっても、他の期間には使えない可能性がある。時系列を加味することで、未来の予測にも応用できるモデルが作成できるだけでなく、性別や業種・職種といった他の質的変数と組み合わせる柔軟性も確保できると、その理由を説明する。審査では、こうした工夫を「データを単なるデータとして捉えるのではなく、属性を観察してうまく取り込んだ」ものと高く評価している。
小林さんが新生ハッカソンに申し込んだのは、以前同ハッカソンに参加した研究室の後輩に勧められたことがきっかけだったという。アプリ開発系ハッカソンには何回か参加したことはあるが、データハッカソンは今回が初めてで、「長期間データ漬けになり、中間発表でスコア計測時に気を揉んだりと大変なことも多かったですが、楽しめました」と振り返った。
「今まで銀行というと(小説やドラマの)『半沢直樹』のような、上下関係が厳しくて堅く、プログラミングに詳しくない人が多いというイメージでした。しかし、実際は良い意味で“ゆるい”というか自由の効く環境で、データサイエンスに強い方も多く、印象ががらっと変わりました」(小林さん)。これまでは就職先としてベンチャー企業にしか興味がなかったが、「銀行もいいな、と選択肢が広がりました」と笑った。
