Factor

Faktoren sind Kategorien, die uns helfen Datenmengen, zu sortieren, in zum Beispiel Geschlecht, Herkunftsland oder Elektro-/Verbrennermotoren usw. Die Möglichkeiten sind endlos, da wir unsere komplett eigenen Faktoren erstellen können.

Einen Faktor erstellt man aus einem Vektor mithilfe der factor Funktion:

# Erstelle einen Vektor mit 10 `yes` und 15 `no`
data <- c(rep("yes", 10),
          rep("no", 15))

data_factor <- factor(data)

data_factor ist nur ein Faktor mit 2 Kategorien, in R auch Levels genannt, aber wir können uns die Levels auch einmal anschauen:

levels(data_factor)  # Console: [1] "no"  "yes"

Wir können aber auch beim erstellen des Faktors die Levels bestimmen:

data_factor <- factor(data,
                      levels=c("yes", "no", "maybe"))
                      
levels(data_factor)  # Console: [1] "yes" "no" "maybe"

Falls wir im nachhinein unzufrieden sein sollten, können wir auch die Levels überschreiben:

levels(data_factor) <- c("yes", "no", "unknown")

levels(data_factor)  # Console: [1] "yes" "no" "unknown"

Oder einen neuen Level hinzufügen:

levels(data_factor) <- c("yes", "no", "unknown", "maybe")

levels(data_factor)  # Console: [1] "yes" "no" "unknown" "maybe"

Mit Faktoren können wir dann ganz einfach erkennen, wie viele yes und no wir in unserer data haben. Die summary Funktion gibt uns allerlei Informationen zu verschiedenen Daten und bei Faktoren bekommen wir wie oft ein Level (eine Kategorie) vorhanden ist.

summary(data_factor)

yes   no  unknown   maybe 
 10   15        0       0

Wenn wir nicht benutzte Level automatisch entfernen wollen, dann können wir die droplevels Funktion benutzen:

data_factor <- droplevels(data_factor)

levels(data_factor)  # Console: [1] "yes" "no"

Praktischer Einstieg in Textanalyse mit R für Anfänger

Factor