Hier is mijn dataset pd
en ik heb het opgesplitst in trainings- en testgegevens als pd_train1
en pd_train2
sku national_inv lead_time in_transit_qty forecast_3_month forecast_6_month
1 3921548 8 12 0 0 0
2 3191009 83 2 33 157 377
3 2935810 8 4 0 0 0
4 2205847 31 4 63 70 160
5 4953497 3 12 0 0 0
6 2286884 0 8 0 0 0
forecast_9_month sales_1_month sales_3_month sales_6_month sales_9_month min_bank
1 0 1 1 2 5 2
2 603 44 98 148 156 53
3 0 0 0 1 1 0
4 223 27 90 164 219 0
5 0 0 0 0 0 0
6 0 0 0 0 0 0
potential_issue pieces_past_due perf_6_month_avg perf_12_month_avg local_bo_qty
1 0 0 0.63 0.75 0
2 0 0 0.68 0.66 0
3 0 0 0.73 0.78 0
4 0 0 0.73 0.78 0
5 0 0 0.81 0.74 0
6 0 0 0.91 0.96 0
deck_risk oe_constraint ppap_risk stop_auto_buy rev_stop went_on_backorder data
1 0 0 0 1 0 No train
2 0 0 0 1 0 No train
3 0 0 0 1 0 No train
4 0 0 1 1 0 No train
5 0 0 0 1 0 No train
6 0 0 0 1 0 No train
Ik wilde een lm-model maken voor mijn trainingsgegevens pd_train1
Maar ik krijg deze foutmelding zoals hieronder:
> fit=lm(went_on_backorder~.,data=pd_train1)
Error in lm.fit(x, y, offset = offset, singular.ok = singular.ok, ...) :
NA/NaN/Inf in 'y'
In addition: Warning message:
In storage.mode(v) <- "double" : NAs introduced by coercion
Ik heb geprobeerd naar oneindige waarden te zoeken:
sapply(pd_train1, function(x) sum(is.infinite(x)))
sku national_inv lead_time in_transit_qty forecast_3_month
0 0 0 0 0
forecast_6_month forecast_9_month sales_1_month sales_3_month sales_6_month
0 0 0 0 0
sales_9_month min_bank potential_issue pieces_past_due perf_6_month_avg
0 0 0 0 0
perf_12_month_avg local_bo_qty deck_risk oe_constraint ppap_risk
0 0 0 0 0
stop_auto_buy rev_stop went_on_backorder data
0 0 0 0
En ook voor NA/NaN-waarden in mijn trainingsgegevens waarop ik een lineair model wil maken
sku national_inv lead_time in_transit_qty forecast_3_month
0 0 0 0 0
forecast_6_month forecast_9_month sales_1_month sales_3_month sales_6_month
0 0 0 0 0
sales_9_month min_bank potential_issue pieces_past_due perf_6_month_avg
0 0 0 0 0
perf_12_month_avg local_bo_qty deck_risk oe_constraint ppap_risk
0 0 0 0 0
stop_auto_buy rev_stop went_on_backorder
0 0 0
Inf %in% pd_train1$went_on_backorder
1] FALSE
NaN %in% pd_test$went_on_backorder
1] FALSE
Voortaan kan ik de NA/NaN/Inf-waarden niet in mijn dataset krijgen
Kan iemand me helpen begrijpen waarom dit een fout geeft, alstublieft?
Hier is went_on_backorder
mijn doelvariabele.
Antwoord 1, autoriteit 100%
De kolom went_on_backorder
is een factor. Lineaire regressie vereist een numerieke responsvariabele.
Als u logistische regressie wilt gebruiken, gebruikt u glm
in basis R of een pakket zoals vgam
. Hier is een kort voorbeeld:
pd_train1 <- data.frame('went_on_backorder' = c('No','Yes','Yes'), 'lead_time' = 1:3)
model <- glm(went_on_backorder ~ ., data = pd_train1, family = 'binomial')
En je kunt je lessen voorspellen:
predict(model, newdata = data.frame('lead_time' = c(0,1,2.5,3.5)), type = "response")
Antwoord 2
went_on_backorder
is geen numerieke variabele. lm
kan niet omgaan met niet-numerieke afhankelijke variabelen. Bekijk logistieke regressie.