Caso di studio: classificazione di immagini

Descrizione del problema

Verrà effettuato un confronto di modelli utilizzando il dataset MNIST, una raccolta di immagini rappresentanti cifre scritte a mano.

Lo scopo è classificare la cifra rappresentata (classificazione multinomiale a 10 classi).
L’insieme di stima è composto da \(21 000\) osservazioni (immagini).
Verrà calcolata l’accuratezza nell’insieme di verifica, composto da \(10 500\) osservazioni.

Esempio di immagini del dataset

Per maggiori dettagli riguardo i dati, consultare questo link.

In questo report verrà riportato solamente il codice riguardante le reti neurali, e non quello di tutti gli altri modelli statistici, in quanto non sono argomento di interesse. Nelle conclusioni potrete trovare, tuttavia, il confronto dei risultati.

Caricamento della libreria Keras

devtools::install_github("rstudio/keras")
library(keras)
install_keras()

Eseguite il codice qui in seguito, se desiderate impostare in seed ed ottenere risultati riproducibili.

library(reticulate)
py_run_string("import numpy as np;
import tensorflow as tf;
import random as python_random;
np.random.seed(123);
python_random.seed(123);
tf.random.set_seed(123);")

Caricamento dei dati

I dati verranno scaricati automaticamente con i seguenti comandi, disponibili grazie alla libreria keras.

mnist <- dataset_mnist()
train_images <- mnist$train$x
train_labels <- mnist$train$y
test_images <- mnist$test$x
test_labels <- mnist$test$y

Preparazione dei dati

Normalizzare i dati di input, riscalandoli tra 0 e 1.

train_images <- train_images / 255
test_images <- test_images / 255

Trasformare la variabile risposta in variabile categoriale (usando il one-hot encoding).

train_labels <- to_categorical(train_labels)
test_labels <- to_categorical(test_labels)

Deep Neural Network

Specificare l’architettura della rete neurale:

le immagini hanno una dimensione di \(28\times28\times1\), ma la feed-forward neural neutwork prende in input solamente vettori unidimensionali; i pixel dell’immagine di input vengono quindi concatenati in un unico vettore di dimensione \(784\);
vengono utilizzati 3 strati latenti di dimensione \(256\), \(128\), \(64\) rispettivamente;
viene utilizzata la funzione ReLU come funzione di attivazione negli strati latenti, e la funzione softmax nello strato di output.

model <- keras_model_sequential() %>%
layer_dense(units = 256, activation = "relu", input_shape = c(28 * 28)) %>%
layer_dense(units = 128, activation = "relu", input_shape = c(28 * 28)) %>%
layer_dense(units = 64, activation = "relu", input_shape = c(28 * 28)) %>%
layer_dense(units = 10, activation = "softmax")

model

## Model
## Model: "sequential"
## ________________________________________________________________________________
## Layer (type)                        Output Shape                    Param #     
## ================================================================================
## dense (Dense)                       (None, 256)                     200960      
## ________________________________________________________________________________
## dense_1 (Dense)                     (None, 128)                     32896       
## ________________________________________________________________________________
## dense_2 (Dense)                     (None, 64)                      8256        
## ________________________________________________________________________________
## dense_3 (Dense)                     (None, 10)                      650         
## ================================================================================
## Total params: 242,762
## Trainable params: 242,762
## Non-trainable params: 0
## ________________________________________________________________________________

Compilare il modello:

l’ottimizzatore utilizzato è adam, con un learning rate pari a \(0.001\);
viene utilizzata la cross-entropia come funzione di perdita, e l’accuratezza come metrica di valutazione.

model %>% compile(
  optimizer = optimizer_adam(lr = 0.001),
  loss = "categorical_crossentropy",
  metrics = c("accuracy")
)

Training della rete neurale.

history <- model %>% fit(
  x = array_reshape(train_images, c(60000, 28 * 28)), 
  y = train_labels, 
  epochs = 10, 
  batch_size = 32,
  validation_split = 0.2,
  verbose = 1
)

In seguito viene rappresentato il grafico della funzione di perdita e dell’accuratezza in funzione del numero di epoche.

plot(history)

Valutazione del modello sui dati di test.

results <- model %>% evaluate(
  x = array_reshape(test_images, c(10000, 28 * 28)), 
  y = test_labels,
  verbose = 0
)

print(paste("Loss on test data:", results["loss"]))

## [1] "Loss on test data: 0.0877719819545746"

print(paste("Accuracy on test data:", results["accuracy"]))

## [1] "Accuracy on test data: 0.979099988937378"

Convolutional neural network