アップリフトモデリングにおいては、他の機械学習タスクで一般的に使用される従来のパフォーマンス指標では不十分な場合があります。
標準的な機械学習アルゴリズム/ビジネスケースでは、学習データで学習し、テストデータでターゲットを予測し、それを正解データと比較します。
しかし、アップリフトモデリングでは、個人に対して処置を施した場合と施さなかった場合の影響を同時に観察することができないため、正解データの概念が曖昧になります。
アップリフトモデルの学習とテストのためのデータ選択は、利用可能な情報と特定のコンテキストに依存します。
アップリフトモデルはマーケティングキャンペーンで一般的に使用されます。この観点から検証データがどのように選択されるかを説明しましょう。
単一のキャンペーンがある場合、そのキャンペーン内の顧客を学習セットと検証セットに分割できます。
ただし、複数のキャンペーンが利用可能な場合は、一部のキャンペーンをモデルの学習に利用し、他のキャンペーンを検証用に確保できます。この戦略により、モデルはより広範なシナリオから学習し、汎化能力を向上させる可能性があります。
これらの重要な要素がなければ、アップリフトを正確に捉えることは困難になります。
アップリフトモデルのパフォーマンスを評価する主な方法は2つあります:累積ゲインとQiniです。それぞれを見ていきましょう:
累積ゲインは、母集団の特定の割合をターゲットにすることで達成される増分的な反応率または結果を示します。
累積ゲインを計算するには、個人をアップリフトスコアに基づいてランク付けし、ソートされたリストを一連の等サイズの十分位数またはパーセンタイルグループに分割します。その後、各グループ内の個人の結果または反応を合計することで累積ゲインが計算されます。
N : 最初のp%の顧客に対する対照群(C)と処置群(T)の顧客数
Y : 最初のp%の顧客に対する対照群(C)と処置群(T)で選択した指標におけるアップリフトの合計
例えば、母集団の20%をターゲットにした場合のCGは、上位20%の最高スコアを持つインスタンスのみを処置した場合の総増分ゲインに相当します。
以下の例では、最高スコアを持つ上位20%の顧客をターゲットにすると、0.019の累積ゲインが得られることがわかります。
より急な曲線はより良いモデルを示します。これは、予測アップリフトが最も高い個人のより高い割合がターゲットにされていることを示すためです。
Qini係数は累積ゲインと同じアイデアで機能しますが、1つの重要な違いがあります。
計算式:
それは素晴らしいですが、異なるモデル間でどのように選択するのでしょうか?これらの曲線だけに依存して異なるモデル間で選択することは、最もデータ駆動型のアプローチではないかもしれません。
私たちを助けることができる最も有用な3つの指標があり、それらはすべてQiniと累積ゲインの両方のアプローチに適用可能です。
従来の分類におけるROC曲線下面積(AUC-ROC)と同様に、AUC-Uはアップリフトモデルの全体的なパフォーマンスを測定します。これは、アップリフトモデルの予測によってソートされた個人に沿った累積アップリフトを表すアップリフト/Qini曲線下の面積を計算します。
Uplift@Kは、予測アップリフトが最も高い母集団の上位K%を識別することに焦点を当てています。これは、選択されたグループ内の真に反応する個人の割合を測定します。uplift@K値が高いほど、適切な個人をターゲットにする能力が高いモデルを示します。
以下の例では、最初のモデルのUplift@0.2はおよそ0.16で、2番目のモデルは0.19であり、最良のモデルの選択は明らかです。
この指標はいつ役立つでしょうか?
Uplift maxは、モデルによって達成された最大アップリフトを指します。これは、最高のアップリフトスコアを持つ処置群と対照群の間の差を表します。
従来の分類および回帰指標では、アップリフトモデルの有効性を適切に測定できない可能性があることがわかりました。
これを克服するために、CGとQiniという2つの主要なアプローチが評価のための貴重な指標を提供します。
さまざまなバリエーションを継続的に試し、目標に最も適合する指標を見つけることが重要です。アプローチを探求し、改善することで、アップリフトモデルの影響を効果的に測定し、そのパフォーマンスを最適化できます。
\n
\


