Add to Chrome
✅ The verified answer to this question is available below. Our community-reviewed solutions help you understand the material better.
Чому "наївний" target encoding може спричинити data leakage, і яка практика є коректною для offline-оцінки?
Бо кодування залежить від random seed; необхідно зафіксувати seed, і можливо уникнути витоку без зміни процедури валідації.
Бо кодування не використовує таргет-статистики; достатньо порахувати середні по категоріях на всьому dataset до split.
Бо leakage виникає лише в online; можна використовувати target encoding в training, а в production замінити його на one-hot.
Бо кодування використовує таргет-статистики; треба робити out-of-fold/cross-fitting encoding всередині CV/pipeline, не "підглядаючи" у валідацію.
Get Unlimited Answers To Exam Questions - Install Crowdly Extension Now!