Als het gaat om uplift modeling, kunnen traditionele prestatiemetrieken die gewoonlijk worden gebruikt voor andere machine learning-taken tekortschieten.
De standaard machine learning-algoritmen / businesscases leren op de trainingsdata, voorspellen het doel op de testdata en vergelijken dit met de ground truth.
Bij uplift modeling wordt het concept van ground truth echter ongrijpbaar, omdat we niet tegelijkertijd het effect van behandeling en niet-behandeling op een individu kunnen waarnemen.
De keuze van data voor het trainen en testen van een uplift-model hangt af van de beschikbare informatie en de specifieke context.
Uplift-modellen worden vaak gebruikt voor marketingcampagnes. Laten we illustreren hoe validatiedata vanuit dit perspectief wordt gekozen.
Als we een enkele campagne hebben, kunnen we de klanten binnen die campagne verdelen in trainings- en validatiesets.
Als er echter meerdere campagnes beschikbaar zijn, kunnen we sommige campagnes gebruiken voor het trainen van het model en andere reserveren voor validatie. Deze strategie stelt het model in staat om te leren van een breder scala aan scenario's en verbetert mogelijk de generaliseringscapaciteiten.
Zonder deze essentiële componenten wordt het nauwkeurig vastleggen van uplift uitdagend.
Er zijn twee belangrijkste manieren om de prestaties van een uplift-model te beoordelen: Cumulative Gain en Qini. Laten we ze verkennen:
De cumulatieve winst illustreert de incrementele responspercentage of uitkomst die wordt bereikt door een specifiek percentage van de populatie te targeten.
Om de cumulatieve winst te berekenen, worden de individuen gerangschikt op basis van hun uplift-scores, en de gesorteerde lijst wordt verdeeld in een reeks gelijke decielen of percentielgroepen. De cumulatieve winst wordt vervolgens berekend door de uitkomsten of reacties van individuen binnen elke groep op te tellen.
N : aantal klanten voor controle (C) en behandeling (T) groepen voor de eerste p% van de klanten
Y : Som van onze uplift in een door ons gekozen metriek voor controle (C) en behandeling (T) groepen voor de eerste p% van de klanten
CG bij 20% van de getargete populatie komt bijvoorbeeld overeen met de totale incrementele winst als we alleen de instanties met de top 20% hoogste scores behandelen.
In het onderstaande voorbeeld zien we dat het targeten van de top 20% klanten met de hoogste scores een cumulatieve winst van 0,019 oplevert.
Een steilere curve duidt op een beter model, omdat het aantoont dat een hoger percentage individuen met de hoogst voorspelde uplift worden getarget.
De Qini-coëfficiënt werkt volgens hetzelfde idee als de Cumulative Gain, met één belangrijk onderscheid.
De formule om het te berekenen:
Dat is geweldig, maar hoe gaan we kiezen tussen verschillende modellen? Uitsluitend vertrouwen op deze curven om tussen verschillende modellen te kiezen, is misschien niet de meest datagestuurde benadering.
Er zijn drie van de meest nuttige metrieken die ons kunnen helpen en allemaal zijn ze toepasbaar op zowel Qini- als Cumulative Gain-benaderingen.
Vergelijkbaar met het gebied onder de ROC-curve (AUC-ROC) in traditionele classificatie, meet de AUC-U de algehele prestaties van een uplift-model. Het berekent het gebied onder de uplift / Qini-curve, die de cumulatieve uplift vertegenwoordigt langs individuen gesorteerd op uplift-modelvoorspellingen.
Uplift@K richt zich op het identificeren van de top K% van de populatie met de hoogst voorspelde uplift. Het meet het aandeel echt responsieve individuen binnen deze geselecteerde groep. Een hogere uplift@K-waarde duidt op een beter model bij het targeten van de juiste individuen.
In het onderstaande voorbeeld is Uplift@0,2 voor het eerste model ongeveer 0,16 en voor het tweede model 0,19, en de keuze van het beste model is duidelijk.
Wanneer kan deze metriek helpen?
Uplift max verwijst naar de maximale uplift die door het model wordt bereikt. Het vertegenwoordigt het verschil tussen de behandelde en controlegroepen met de hoogste uplift-scores.
We hebben gezien dat traditionele classificatie- en regressiemetrieken de effectiviteit van uplift-modellen mogelijk niet adequaat meten.
Om dit te overwinnen, bieden twee primaire benaderingen, CG en Qini, waardevolle metrieken voor evaluatie.
Het is cruciaal om continu te experimenteren met verschillende variaties en de metrieken te vinden die het beste aansluiten bij je doelstellingen. Door je aanpak te verkennen en te verfijnen, kun je de impact van uplift-modellen effectief meten en hun prestaties optimaliseren.
\n
\


