Fout in lm.fit(x, y, offset = offset, singular.ok = singular.ok, …) : NA/NaN/Inf in ‘y’, op alle mogelijke manieren geprobeerd

January 25, 2022

Hier is mijn dataset pden ik heb het opgesplitst in trainings- en testgegevens als pd_train1en pd_train2

   sku national_inv lead_time in_transit_qty forecast_3_month forecast_6_month
1 3921548            8        12              0                0                0
2 3191009           83         2             33              157              377
3 2935810            8         4              0                0                0
4 2205847           31         4             63               70              160
5 4953497            3        12              0                0                0
6 2286884            0         8              0                0                0
  forecast_9_month sales_1_month sales_3_month sales_6_month sales_9_month min_bank
1                0             1             1             2             5        2
2              603            44            98           148           156       53
3                0             0             0             1             1        0
4              223            27            90           164           219        0
5                0             0             0             0             0        0
6                0             0             0             0             0        0
  potential_issue pieces_past_due perf_6_month_avg perf_12_month_avg local_bo_qty
1               0               0             0.63              0.75            0
2               0               0             0.68              0.66            0
3               0               0             0.73              0.78            0
4               0               0             0.73              0.78            0
5               0               0             0.81              0.74            0
6               0               0             0.91              0.96            0
  deck_risk oe_constraint ppap_risk stop_auto_buy rev_stop went_on_backorder  data
1         0             0         0             1        0                No train
2         0             0         0             1        0                No train
3         0             0         0             1        0                No train
4         0             0         1             1        0                No train
5         0             0         0             1        0                No train
6         0             0         0             1        0                No train

Ik wilde een lm-model maken voor mijn trainingsgegevens pd_train1
Maar ik krijg deze foutmelding zoals hieronder:

> fit=lm(went_on_backorder~.,data=pd_train1)
Error in lm.fit(x, y, offset = offset, singular.ok = singular.ok, ...) : 
  NA/NaN/Inf in 'y'
In addition: Warning message:
In storage.mode(v) <- "double" : NAs introduced by coercion

Ik heb geprobeerd naar oneindige waarden te zoeken:

sapply(pd_train1, function(x) sum(is.infinite(x)))
             sku      national_inv         lead_time    in_transit_qty  forecast_3_month 
                0                 0                 0                 0                 0 
 forecast_6_month  forecast_9_month     sales_1_month     sales_3_month     sales_6_month 
                0                 0                 0                 0                 0 
    sales_9_month          min_bank   potential_issue   pieces_past_due  perf_6_month_avg 
                0                 0                 0                 0                 0 
perf_12_month_avg      local_bo_qty         deck_risk     oe_constraint         ppap_risk 
                0                 0                 0                 0                 0 
    stop_auto_buy          rev_stop went_on_backorder              data 
                0                 0                 0                 0

En ook voor NA/NaN-waarden in mijn trainingsgegevens waarop ik een lineair model wil maken

    sku      national_inv         lead_time    in_transit_qty  forecast_3_month 
                0                 0                 0                 0                 0 
 forecast_6_month  forecast_9_month     sales_1_month     sales_3_month     sales_6_month 
                0                 0                 0                 0                 0 
    sales_9_month          min_bank   potential_issue   pieces_past_due  perf_6_month_avg 
                0                 0                 0                 0                 0 
perf_12_month_avg      local_bo_qty         deck_risk     oe_constraint         ppap_risk 
                0                 0                 0                 0                 0 
    stop_auto_buy          rev_stop went_on_backorder 
                0                 0                 0 
Inf %in% pd_train1$went_on_backorder
1] FALSE
NaN %in% pd_test$went_on_backorder
1] FALSE

Voortaan kan ik de NA/NaN/Inf-waarden niet in mijn dataset krijgen
Kan iemand me helpen begrijpen waarom dit een fout geeft, alstublieft?
Hier is went_on_backordermijn doelvariabele.

Antwoord 1, autoriteit 100%

De kolom went_on_backorderis een factor. Lineaire regressie vereist een numerieke responsvariabele.

Als u logistische regressie wilt gebruiken, gebruikt u glmin basis R of een pakket zoals vgam. Hier is een kort voorbeeld:

pd_train1 <- data.frame('went_on_backorder' = c('No','Yes','Yes'), 'lead_time' = 1:3)
model <- glm(went_on_backorder ~ ., data = pd_train1, family = 'binomial')

En je kunt je lessen voorspellen:

predict(model, newdata = data.frame('lead_time' = c(0,1,2.5,3.5)), type = "response")

Antwoord 2

went_on_backorderis geen numerieke variabele. lmkan niet omgaan met niet-numerieke afhankelijke variabelen. Bekijk logistieke regressie.

Previous articleIs het mogelijk om APK-bestand naar het IPA-bestand te converteren?

Next articleWat is de betekenis van het logboek “Geen nieuwe regel aan het einde van bestand”?

Fout in lm.fit(x, y, offset = offset, singular.ok = singular.ok, …) : NA/NaN/Inf in ‘y’, op alle mogelijke manieren geprobeerd

Antwoord 1, autoriteit 100%

Antwoord 2

Other episodes

R: wat zijn slots?

Wat is R’s multidimensionale equivalent van rbind en cbind?

Waar kan ik leren hoe ik C-code moet schrijven om langzame R-functies te versnellen?

Nieuwe regels afdrukken met print() in R

Verander de klasse van factor in numeriek van veel kolommen in een dataframe

Hoe vind je gemeenschappelijke elementen uit meerdere vectoren?

Hoe kan ik het resultaat van de vorige uitdrukking aan een variabele toewijzen?