Quando se trata de modelagem de uplift, as métricas de desempenho tradicionais comumente utilizadas para outras tarefas de aprendizagem automática podem não ser suficientes.Quando se trata de modelagem de uplift, as métricas de desempenho tradicionais comumente utilizadas para outras tarefas de aprendizagem automática podem não ser suficientes.

Porquê a "Precisão" Falha em Modelos de Uplift (e o Que Usar em Vez Disso)

2026/01/11 04:00
Leu 4 min
Para enviar feedbacks ou expressar preocupações a respeito deste conteúdo, contate-nos em crypto.news@mexc.com

Quando se trata de modelação de uplift, as métricas de desempenho tradicionais comummente utilizadas para outras tarefas de aprendizagem automática podem ser insuficientes.

Os algoritmos de aprendizagem automática / casos de negócio padrão aprendem com os dados de treino, preveem o alvo nos dados de teste e comparam-no com a realidade.

No entanto, na modelação de uplift, o conceito de realidade torna-se evasivo, uma vez que não podemos observar simultaneamente o impacto de ser tratado e não tratado num indivíduo.

Como escolher o conjunto de dados de validação?

A escolha de dados para treinar e testar um modelo de uplift depende da informação disponível e do contexto específico.

Os modelos de uplift são comummente utilizados para campanhas de marketing. Vamos ilustrar como os dados de validação são escolhidos a partir desta perspetiva.

Se tivermos uma única campanha, podemos dividir os clientes dentro dessa campanha em conjuntos de treino e validação.

No entanto, se houver múltiplas campanhas disponíveis, podemos utilizar algumas campanhas para treinar o modelo e reservar outras para validação. Esta estratégia permite que o modelo aprenda a partir de uma gama mais ampla de cenários e potencialmente melhore as suas capacidades de generalização.

Sem estes componentes essenciais, capturar com precisão o uplift torna-se desafiante.

As principais abordagens

Existem duas formas principais de avaliar o desempenho de um modelo de uplift: Ganho Cumulativo e Qini. Vamos explorá-las:

Ganho Cumulativo:

O ganho cumulativo ilustra a taxa de resposta incremental ou resultado alcançado ao direcionar uma percentagem específica da população.

Para calcular o ganho cumulativo, os indivíduos são classificados com base nas suas pontuações de uplift, e a lista ordenada é dividida numa série de grupos de decis ou percentis de tamanho igual. O ganho cumulativo é então calculado somando os resultados ou respostas dos indivíduos dentro de cada grupo.

N : número de clientes para grupos de controlo (C) e tratamento (T) para os primeiros p% dos clientes

Y : Soma do nosso uplift numa métrica que escolhemos para grupos de controlo (C) e tratamento (T) para os primeiros p% dos clientes

Por exemplo, o CG em 20% da população alvo corresponde ao ganho incremental total se tratarmos apenas as instâncias com os 20% principais pontuações mais altas.

No exemplo fornecido abaixo, observamos que direcionar os 20% principais de clientes com as pontuações mais altas produz um ganho cumulativo de 0,019.

Uma curva mais acentuada indica um modelo melhor, pois mostra que uma proporção maior de indivíduos com o uplift previsto mais alto está a ser direcionada.

Coeficiente Qini:

O coeficiente Qini funciona com a mesma ideia que o Ganho Cumulativo, com uma distinção fundamental.

A fórmula para calculá-lo:


Isso é ótimo, mas como vamos escolher entre diferentes modelos? Confiar apenas nestas curvas para escolher entre diferentes modelos pode não ser a abordagem mais orientada por dados.

As métricas de qualidade

Existem três métricas mais úteis que nos podem ajudar e todas elas são aplicáveis tanto às abordagens Qini como de Ganho Cumulativo.

Área sob Uplift (AUC-U):

Semelhante à área sob a curva ROC (AUC-ROC) na classificação tradicional, a AUC-U mede o desempenho geral de um modelo de uplift. Calcula a área sob a curva de uplift / Qini, que representa o uplift cumulativo ao longo dos indivíduos ordenados pelas previsões do modelo de uplift.

Uplift@K:

O Uplift@K concentra-se em identificar os K% principais da população com o uplift previsto mais alto. Mede a proporção de indivíduos verdadeiramente responsivos dentro deste grupo selecionado. Um valor de uplift@K mais alto indica um modelo melhor em direcionar os indivíduos certos.

No exemplo abaixo, o Uplift@0.2 para o primeiro modelo é aproximadamente 0,16 e para o segundo modelo é 0,19, e a escolha do melhor modelo é óbvia.

Quando é que esta métrica pode ajudar?

Uplift máximo:

O Uplift máximo refere-se ao uplift máximo alcançado pelo modelo. Representa a diferença entre os grupos tratados e de controlo com as pontuações de uplift mais altas.

Conclusão

Testemunhámos que as métricas tradicionais de classificação e regressão podem não medir adequadamente a eficácia dos modelos de uplift.

Para superar isto, duas abordagens principais, CG e Qini, oferecem métricas valiosas para avaliação.

É crucial experimentar continuamente com diferentes variações e encontrar as métricas que melhor se alinham com os seus objetivos. Ao explorar e refinar a sua abordagem, pode medir eficazmente o impacto dos modelos de uplift e otimizar o seu desempenho.

\n

\

Isenção de responsabilidade: Os artigos republicados neste site são provenientes de plataformas públicas e são fornecidos apenas para fins informativos. Eles não refletem necessariamente a opinião da MEXC. Todos os direitos permanecem com os autores originais. Se você acredita que algum conteúdo infringe direitos de terceiros, entre em contato pelo e-mail crypto.news@mexc.com para solicitar a remoção. A MEXC não oferece garantias quanto à precisão, integridade ou atualidade das informações e não se responsabiliza por quaisquer ações tomadas com base no conteúdo fornecido. O conteúdo não constitui aconselhamento financeiro, jurídico ou profissional, nem deve ser considerado uma recomendação ou endosso por parte da MEXC.

Role os dados e ganhe até 1 BTC

Role os dados e ganhe até 1 BTCRole os dados e ganhe até 1 BTC

Convide amigos e divida 500,000 USDT!