當涉及到提升模型時，其他機器學習任務中常用的傳統效能指標可能會不足。當涉及到提升模型時，其他機器學習任務中常用的傳統效能指標可能會不足。

為什麼「準確率」無法適用於提升模型(以及應該使用什麼替代方案)

來源：Hackernoon

2026/01/11 04:00

閱讀時長 6 分鐘

如需對本內容提供反饋或相關疑問，請通過郵箱 crypto.news@mexc.com 聯絡我們。

當涉及到提升模型時,傳統上用於其他機器學習任務的性能指標可能會不夠用。

標準的機器學習演算法/商業案例會在訓練資料上學習,在測試資料上預測目標,並將其與真實標籤進行比較。

然而,在提升模型中,真實標籤的概念變得難以捉摸,因為我們無法同時觀察到對個體進行處理和不進行處理的影響。

如何選擇驗證資料集?

訓練和測試提升模型的資料選擇取決於可用的資訊和具體情況。

提升模型通常用於行銷活動。讓我們從這個角度來說明如何選擇驗證資料。

如果我們只有一個活動,我們可以將該活動中的客戶劃分為訓練集和驗證集。

但是,如果有多個活動可用,我們可以利用一些活動來訓練模型,並保留其他活動用於驗證。這種策略允許模型從更廣泛的場景中學習,並有可能提高其泛化能力。

沒有這些必要組成部分,準確捕捉提升效果就會變得困難。

主要方法

有兩種主要方法來評估提升模型的性能:累積增益和Qini。讓我們來探討它們:

累積增益:

累積增益展示了透過針對特定百分比的人群所達到的增量響應率或結果。

為了計算累積增益,個體根據其提升分數進行排名,排序列表被劃分為一系列大小相等的十分位數或百分位數組。然後透過將每組內個體的結果或響應相加來計算累積增益。

N : 前p%客戶的對照組(C)和處理組(T)的客戶數量

Y : 前p%客戶的對照組(C)和處理組(T)在我們選擇的指標中的提升總和

例如,針對20%人群的CG對應於如果我們只處理前20% 最高分數 的實例時的總增量增益。

在下面提供的例子中,我們觀察到針對得分最高的前20%客戶會產生0.019的累積增益。

更陡峭的曲線表示模型更好,因為它顯示了更高比例的預測提升最高的個體被針對。

Qini係數:

Qini係數的工作原理與累積增益相同,但有一個關鍵區別。

計算公式:

這很好,但我們要如何在不同模型之間進行選擇?僅依靠這些曲線來選擇不同的模型可能不是最資料驅動的方法。

品質指標

有三個最有用的指標可以幫助我們,而且它們都 適用於Qini和累積增益方法。

提升曲線下面積(AUC-U):

類似於傳統分類中ROC曲線下面積(AUC-ROC),AUC-U衡量提升模型的整體性能。它計算提升/Qini曲線下的面積,該面積代表按提升模型預測排序的個體的累積提升。

Uplift@K:

Uplift@K專注於識別預測提升最高的前K%人群。它衡量在這個選定群體中真正有響應的個體的比例。更高的uplift@K值表示模型在針對正確個體方面表現更好。

在下面的例子中,第一個模型的Uplift@0.2大約是0.16,第二個模型是0.19,最佳模型的選擇是顯而易見的。

這個指標何時能幫助?

最大提升:

最大提升是指模型達到的最大提升。它代表具有最高提升分數的處理組和對照組之間的差異。

結論

我們已經看到傳統的分類和迴歸指標可能無法充分衡量提升模型的有效性。

為了克服這個問題,兩種主要方法,CG和Qini,為評估提供了有價值的指標。

持續實驗不同的變化並找到最符合您目標的指標至關重要。透過探索和改進您的方法,您可以有效地衡量提升模型的影響並優化其性能。

只要一分鐘，20 USDT 免費拿！

充值 $100，多拿 $300 GOLD 倉位！

免責聲明: 本網站轉載的文章均來源於公開平台，僅供參考。這些文章不代表 MEXC 的觀點或意見。所有版權歸原作者所有。如果您認為任何轉載文章侵犯了第三方權利，請聯絡 crypto.news@mexc.com 以便將其刪除。MEXC 不對轉載文章的及時性、準確性或完整性作出任何陳述或保證，並且不對基於此類內容所採取的任何行動或決定承擔責任。轉載材料僅供參考，不構成任何商業、金融、法律和/或稅務決策的建議、認可或依據。