# Άσκηση

Μέχρι στιγμής έχουμε δει συσταδοποίηση μόνο πάνω σε δισδιάστατα δεδομένα, τα οποία μπορούμε να οπτικοποιήσουμε εύκολα και να κρίνουμε το αποτέλεσμα και με το μάτι. Τώρα όμως θα βάλουμε στην είσοδο του αλγορίθμου δεδομένα πολλών διαστάσεων με θόρυβο. Για τη σωστή επιλογή του $k$, θα πρέπει αναγκαστικά να βασιστούμε στις μετρικές που αναφέραμε προηγουμένως. Ας φτιάξουμε αρχικά τα δεδομένα μας.

In [None]:
import numpy as np

np.random.seed(13)

# Χρήσιμα features
f1 = np.random.rand(50,4) * 10
f2 = np.random.rand(50,4) * 10 + 15
f3 = np.random.rand(50,4) * 10 + 30
f4 = np.random.rand(50,4) * 10 + 45
useful = np.concatenate([f1, f2, f3, f4])
print('useful features: ', useful.shape)

# Θόρυβος
noise = np.random.rand(len(useful),useful.shape[1]**2) + np.random.rand(useful.shape[1]**2,) * useful.max()
print('noise:           ', noise.shape)

# Προσθέτουμε τις στήλες θορύβου
data = np.hstack([useful, noise])
print('features + noise:', data.shape)

# Shuffle
np.random.shuffle(data.T)

## Ερώτημα 1

Χρησιμοποιήστε το εμπειρικό κριτήριο "elbow", για να υπολογίσετε μέσω της αδράνειας  το βέλτιστο $k$, χρησιμοποιώντας ως δεδομένα **μόνο** τα χρήσιμα χαρακτηριστικά (μεταβλητή **useful**). Δοκιμάστε όλες τις τιμές για $k \in \left[ 1, 50 \right]$ και χρονομετρήστε το διάστημα που παίρνει να εκπαιδευτεί ο κάθε $k$-means. Ο σκελετός σάς δίνεται παρακάτω.

- Ποιο είναι το βέλτιστο $k$;
- Τι παρατηρείτε για τον χρόνο εκπαίδευσης όσο μεγαλώνει το $k$;

Συμπληρώνουμε στον παρακάτω κώδικα τις εντολές που λείπουν εκεί όπου υπάρχουν σχόλια και συμπληρώνουμε τα ορίσματα εκεί όπου υπάρχουν `???`.
Έπειτα απαντάμε τις παραπάνω ερωτήσεις.

Τις τιμές του $k$ θα τις αποθηκεύσουμε σε μία λίστα που θα ονομάσουμε `k_range`. Τις τιμές της αδράνειας θα τις αποθηκεύσουμε σε μια λίστα που θα ονομάσουμε `useful_inertia`.

In [None]:
from sklearn.cluster import KMeans
import time

start_time = time.time()
k_range = range(1,50)

useful_inertia = []
for k in k_range: # ορίζουμε το εύρος του k
    ep_time = time.time()
    
    km = KMeans(k)
    km.fit(useful)
    useful_inertia.append(km.inertia_)
    
    if k%5==0:
        print('k={:<2}, time={:.2f} sec'.format(k, float(time.time()-ep_time)))
print('training time: {} sec'.format(time.time()-start_time))

# Έλεγχος αν συμβαδίζουν οι διαστάσεις
assert(len(k_range) == len(useful_inertia)), "Πρέπει οι λίστες k_range και useful_inertia να έχουν τον ίδιο αριθμό στοιχείων!"

In [None]:
import matplotlib.pyplot as plt
%matplotlib inline

plt.plot(k_range, useful_inertia)
plt.ylabel('inertia')
plt.xlabel('k')
plt.title('Inertia over values of k')
plt.xlim([1,10])

elbow = 4
plt.scatter(elbow,useful_inertia[elbow-1], c='r', lw=0, s=50)
plt.annotate("elbow", xy=(elbow,useful_inertia[elbow-1]), xytext=(20, 100000), arrowprops=dict(arrowstyle="->"))
plt.xlim([k_range[0], k_range[-1]])
plt.ylim([0,useful_inertia[0]])

## Ερώτημα 2

Εφαρμόστε την ίδια διαδικασία για τα δεδομένα **μαζί με το θόρυβο** (μεταβλητή **data**). Χρησιμοποιήστε τις ίδιες τιμές του $k$ με πριν. Χρονομετρήστε όπως και πριν τη διαδικασία.

- Αλλάζει το βέλτιστο $k$ σε σχέση με πριν;
- Ανταποκρίνεται ο αλγόριθμος ικανοποιητικά στο θόρυβο που προσθέσαμε;
- Τι παρατηρείτε για το χρόνο εκπαίδευσης σε σχέση με πριν που είχαμε μόνο τα χρήσιμα χαρακτηριστικά;

Τις τιμές του inertia θα τις αποθηκεύσουμε σε μια λίστα που θα ονομάσουμε `data_inertia`.

In [None]:
from sklearn.cluster import KMeans
import time

start_time = time.time()
k_range = range(1,50)

useful_inertia = []
for k in k_range: # ορίζουμε το εύρος του k
    ep_time = time.time()
    
    km = KMeans(k)
    km.fit(data)
    useful_inertia.append(km.inertia_)
    
    if k%5==0:
        print('k={:<2}, time={:.2f} sec'.format(k, float(time.time()-ep_time)))
print('training time: {} sec'.format(time.time()-start_time))

# Έλεγχος αν συμβαδίζουν οι διαστάσεις
assert(len(k_range) == len(useful_inertia)), "Πρέπει οι λίστες k_range και useful_inertia να έχουν τον ίδιο αριθμό στοιχείων!"

In [None]:
import matplotlib.pyplot as plt
%matplotlib inline

plt.plot(k_range, useful_inertia)
plt.ylabel('inertia')
plt.xlabel('k')
plt.title('Inertia over values of k')
plt.xlim([1,10])

elbow = 4
plt.scatter(elbow,useful_inertia[elbow-1], c='r', lw=0, s=50)
plt.annotate("elbow", xy=(elbow,useful_inertia[elbow-1]), xytext=(20, 100000), arrowprops=dict(arrowstyle="->"))
plt.xlim([k_range[0], k_range[-1]])
plt.ylim([0,useful_inertia[0]])

## Ερώτημα 3

Χρησιμοποιήστε το κριτήριο **silhouette** για τον υπολογισμό του βέλτιστου **k**. Αυτή τη φορά ελέγξτε για όλες τις τιμές του $k \in \left[ 2, 100 \right]$.

- Ποιο **k** βρήκατε; Ήταν διαφορετικό από πριν;

Τις τιμές του **k** θα τις αποθηκεύσουμε σε μία λίστα που θα ονομάσουμε `k_range`. Τις τιμές των silhouette score θα τις αποθηκεύσουμε σε μια λίστα που θα ονομάσουμε `silhouette_scores`.

In [None]:
from sklearn.metrics import silhouette_score

k_range = range(2,100)

silhouette_scores = []
for k in k_range:
    km = KMeans(k)
    km.fit(data)
    preds = km.predict(data)
    silhouette_scores.append(silhouette_score(data, preds))


assert len(k_range) == len(silhouette_scores), 'Πρέπει οι λίστες k_range και silhouette_scores να έχουν τον ίδιο αριθμό στοιχείων!'    

plt.plot(k_range, silhouette_scores)
best_k = np.argmax(silhouette_scores) + 2 # +2 γιατί ξεκινάμε το range() από k=2 και όχι από 0 που ξεκινάει η αρίθμηση της λίστας
plt.scatter(best_k, silhouette_scores[best_k-2], color='r') # για τον ίδιο λόγο το καλύτερο k είναι αυτό 2 θέσεις παρακάτω από το index της λίστας
plt.annotate("best k", xy=(best_k, silhouette_scores[best_k-2]), xytext=(50, 0.39),arrowprops=dict(arrowstyle="->")) # annotation
print('Maximum average silhouette score for k =', best_k)