Чому "наївний" target encoding може спричинити data leakage, і яка практика є коректною для offline-оцінки?

Question

Answer

Бо кодування залежить від random seed; необхідно зафіксувати seed, і можливо уникнути витоку без зміни процедури валідації.

Answer

Бо кодування не використовує таргет-статистики; достатньо порахувати середні по категоріях на всьому dataset до split.

Answer

Бо leakage виникає лише в online; можна використовувати target encoding в training, а в production замінити його на one-hot.

Answer

Бо кодування використовує таргет-статистики; треба робити out-of-fold/cross-fitting encoding всередині CV/pipeline, не "підглядаючи" у валідацію.

Crowdly