r - Ongeldige modelformule in ExtractVars krijgen bij het gebruik van RPART-functie in R

De dataset kan worden gedownload van http: // archief .ics.uci.edu / ml / machine-learning-databases / wijnkwaliteit /

De volgende fout krijgen:

formula(formula, data = data) : 
  invalid model formula in ExtractVars

De volgende code gebruiken:

install.packages("rpart")
library("rpart")
# you'll need to change the following from windows to work on a linux box:
mydata <- read.csv(file="c:/Users/md7968/downloads/winequality-red.csv")
# grow tree 
fit <- rpart(YouSweetBoy ~ "residual sugar" + "citric acid", method = "class", data = mydata

Mind u dat ik heb gewijzigd van de scheidingstekens in het CSV-bestand naar komma’s.

Misschien is het de gegevens niet correct aan het lezen. Vergeef me, ik ben nieuw voor r en geen zeer goede programmeur.

Antwoord 1, Autoriteit 100%

Kijk naar names(mydata). Wanneer u een gegevens maakt. Frame, read.table()zal de “slechte” kolomnamen in goede worden. Je kunt (nou ja, niet) een ruimte in een kolomnaam hebben, zodat r-spaties in perioden wijzigt. Bovendien had u nooit snaren in een formule hebben genoteerd. Probeer

fit <- rpart(quality ~ residual.sugar + citric.acid, method = "class", data = mydata)

(Ik heb geen idee wat “YouSweetboy” zou moeten zijn, want dat was niet in de dataset, dus ik heb het veranderd op “kwaliteit”).

Antwoord 2, Autoriteit 25%

Verwijderen van de ruimte in onafhankelijke variabele namen en het uittrekken van de offertes maakte het aan het werk.

Gebruik in plaats van “restsuiker”, residuele_suiker

Antwoord 3

U kunt ook uw variabelenamen omwikkelen met “

Dus

`residual sugar`

Dit zou moeten werken:

fit <- rpart(quality ~ `residual sugar` + `citric acid`, method = "class", data = mydata)

Ongeldige modelformule in ExtractVars krijgen bij het gebruik van RPART-functie in R

Antwoord 1, Autoriteit 100%

Antwoord 2, Autoriteit 25%

Antwoord 3

Other episodes

R: wat zijn slots?

Wat is R’s multidimensionale equivalent van rbind en cbind?

Waar kan ik leren hoe ik C-code moet schrijven om langzame R-functies te versnellen?

Nieuwe regels afdrukken met print() in R

Verander de klasse van factor in numeriek van veel kolommen in een dataframe

Hoe vind je gemeenschappelijke elementen uit meerdere vectoren?

Hoe kan ik het resultaat van de vorige uitdrukking aan een variabele toewijzen?