Modellek összehasonlítása
1. Adatbetöltés és minta létrehozása
Töltsd le az adatbázist, majd helyezd el a munkakönyvtáradba.
Ezután az alábbi kóddal generálj egy véletlen mintát:
set.seed(123)parcialis %>% group_by(Class) %>% sample_frac(size = 0.85) %>% ungroup()
Fontos: a set.seed(123) értéket módosítsd a saját születési hónapod és napod kombinációjára (pl. március 5 → 305).
2. Adatfelosztás
- 70% tanuló adatbázis
- 30% teszt adatbázis
3. Adattisztítás
- Hiányzó értékek kezelése
- Kiugró értékek kezelése
4. Adatok kiegyensúlyozása
Készíts kiegyensúlyozott adatbázist felülmintavételezéssel.
5. Modellek felépítése
- 1. modell: döntési fa veszteségmátrixszal: a rossz ügyfél hibás besorolása 2-szer nagyobb költségű.
- 2. modell: véletlen erdő.
6. Modellek értékelése
- klasszifikációs mátrix
- pontosság
- jó ügyfelek helyes besorolása
- rossz ügyfelek helyes besorolása
- AUC
alapján.
7. Összehasonlítás
- Melyik modell teljesít jobban?
- Melyik kezeli jobban a rossz ügyfeleket?
- Melyiket választanád és miért?
Fontos információk
- A feladat megoldására 80 perc áll rendelkezésre
- A korábbi szemináriumokon használt kódok felhasználhatók
- A feladat új adatbázison alapul
Fontos: Nem a kód másolása, hanem az eredmények értelmezése számít.
Változók leírása
- Class: célváltozó (Good = jó ügyfél, Bad = rossz ügyfél)
- Duration: hitel futamideje hónapban (hosszabb futamidő általában magasabb kockázat)
- Amount: hitel összege (nagyobb összeg → magasabb kockázat)
- InstallmentRatePercentage: törlesztőrészlet aránya a jövedelemhez képest (%)
- Age: ügyfél életkora
- NumberExistingCredits: meglévő hitelek száma
- CheckingAccountStatus.lt.0: dummy változó (1 = negatív számlaegyenleg, 0 = nem)
- CreditHistory.Critical: dummy változó (1 = problémás hitelmúlt, 0 = nem)
- SavingsAccountBonds.lt.100: dummy változó (1 = alacsony megtakarítás, 0 = nem)