中国版ウーバー(Uber)のディディ(滴滴)は、乗客にドライバーを割り振る新しいアルゴリズムの検証を一部の都市で実施している。
新たな配車システムでは、強化学習のサブセットである強化学習(RL)を利用している。強化学習は罰と報酬に基づき、「エージェント」に明確な目標を達成させようとする手法だ。この場合、エージェントはドライバーで、報酬はサービスが完了してドライバーが受け取る報酬である。
ディディが現在使っている配車アルゴリズムには、2つのシステムがある。乗客の需要が時間とともにどのように変化するかを予測するシステムと、その予測に基づいてドライバーに仕事を割り当てるマッチング・システムだ。
いまのところ、この配車アルゴリズムはうまく機能しているものの、効率の悪い面もある。ドライバーの供給パターンや乗客の需要パターンが変化すると、正確な予測を続けるために予測モデルを再訓練する必要があるのだ。
強化学習アプローチへの移行は、予測システムとマッチング・システムを1つにまとめることで問題を解決する。新たなアルゴリズムは次々に得られるデータをすべて利用し、ドライバーをより効率的に割り当てることを学習する。つまり、再訓練する必要なく、変化する供給と需要によってアルゴリズムが進化し続けることになる。いくつかの都市で新旧アルゴリズム間でA/Bテストを実施したが、新しいアルゴリズムのほうが実際により効率的であることが確認された。