# DBSCAN - Algorithme non-supervisé
 DBSCAN est un algorithme de clustering non-supervisé, c'est à dire qu'il ne prend pas en entrée de données déjà libellelées, il n'y a pas besoin de "l'entrainer".</br>
 DBSCAN repose sur un principe de densité, il crée des clusters s'il y a suffisament de points regroupés dans une zone, et rajoute tous les voisins qui sont suffisament proches.
 
## Chargement des données


In [0]:
import numpy as np
import matplotlib.pyplot as plt

# Les paramètres importants
nbr_clusters=4
nbr_points=1000


# Les listes
points=[]
labels=[]

donnees_initialisation=[[] for i in range(nbr_clusters)]  #Tableau avec les données que l'on donnera pour l'initialisation de l'algorithme
val=0.7
barycentres=[np.array([val,val]),np.array([val,-val]),np.array([-val,-val]),np.array([-val,val])] 

# Création des données d'initialisation
for i in range(nbr_points):
  indice=np.random.randint(0,nbr_clusters)
  point=barycentres[indice]+np.random.normal(scale=0.2,size=2) # Répartition normale autour d'un barycentre
  points.append(point)
  labels.append(indice)
  donnees_initialisation[indice].append(point)

  
print('Les données ont été générées !')
print('Nombre de clusters: {}'.format(nbr_clusters))
print('Nombre de points: {}'.format(nbr_points))

## Création de l'algorithme

Nous allons donc créer cet algorithme en 3 étapes, en suivant le pseudo-code suivant (vous pouvez le retrouver sur Wikipédia) :</br>

```
DBSCAN(D, eps, MinPts)
   C = 0
   pour chaque point P non visité des données D
      marquer P comme visité
      PtsVoisins = epsilonVoisinage(D, P, eps)
      si tailleDe(PtsVoisins) < MinPts
         marquer P comme BRUIT
      sinon
         C++
         etendreCluster(D, P, PtsVoisins, C, eps, MinPts)
          
etendreCluster(D, P, PtsVoisins, C, eps, MinPts)
   ajouter P au cluster C
   pour chaque point P' de PtsVoisins 
      si P' n'a pas été visité
         marquer P' comme visité
         PtsVoisins' = epsilonVoisinage(D, P', eps)
         si tailleDe(PtsVoisins') >= MinPts
            PtsVoisins = PtsVoisins U PtsVoisins'
      si P' n'est membre d'aucun cluster
         ajouter P' au cluster C
          
epsilonVoisinage(D, P, eps)
   retourner tous les points de D qui sont à une distance inférieure à epsilon de P
```

### La fonction principale de DBSCAN
 Nous allons coder la fonction principale de DBSCAN, elle sera appelée au début et retournera les clusters créés.
</br>

```
DBSCAN(D, eps, MinPts)
   C = 0
   pour chaque point P non visité des données D
      marquer P comme visité
      PtsVoisins = epsilonVoisinage(D, P, eps)
      si tailleDe(PtsVoisins) < MinPts
         marquer P comme BRUIT
      sinon
         C++
         etendreCluster(D, P, PtsVoisins, C, eps, MinPts)

```



In [0]:
def dbscan(points,eps,minPts,distance):
  """
  Fonction DBCSAN qui génére des clusters
  Il prend les points en entrée et donne en sortie les clusters
  sous forme de listes de listes des indices des points
  """
  
  for i in range(len(points)):
      if visites[i]==False:
        
          point=points[i]
          ptsVoisins=epsilonVoisinage(points,i,eps)    ### CETTE LIGNE SERA A COMPLETER
          
          if len(ptsVoisins)<minPts: 
          # Il n'a pas assez de points voisins, on considère le point comme du bruit
              bruit.append(i)
          else:
          # On peut créé un cluster car il y a assez de points
              clusters.append([])
              etendreCluster(points,i,clusters,ptsVoisins,eps,minPts)
              
  return clusters

### epsilon_voisinage()


```
epsilonVoisinage(D, P, eps)
   retourner tous les points de D qui sont à une distance inférieure à epsilon de P
```



In [0]:
def epsilonVoisinage(points,i,eps):
  """
  Fonction qui crée la liste des points à une distance inférieure à eps (epsilon)
  du point i
  """
  
  liste=[]
  point=points[i]
  for j in range(len(points)):
    
      if i==j: continue # Pour éviter que cela corresponde au même point
      d=distance(points[j],point)    ### CETTE LIGNE SERA A COMPLETER
      if d<eps: 
          liste.append(j)
  return liste

### etendre_cluster()


```
etendreCluster(D, P, PtsVoisins, C, eps, MinPts)
   ajouter P au cluster C
   pour chaque point P' de PtsVoisins 
      si P' n'a pas été visité
         marquer P' comme visité
         PtsVoisins' = epsilonVoisinage(D, P', eps)
         si tailleDe(PtsVoisins') >= MinPts
            PtsVoisins = PtsVoisins U PtsVoisins'
      si P' n'est membre d'aucun cluster
         ajouter P' au cluster C
```



In [0]:
def etendreCluster(points,i,clusters,ptsVoisins,eps,minPts):
  """
  Fonction qui va étendre le dernier cluster de la liste généré avec le
  point i
  """
  
  clusters[-1].append(i)
  
  for j in ptsVoisins:
    if visites[j]==False: # Si le point n'a pas été déjà visité
      
      visites[j]=True
      nouveauxPtsVoisins=epsilonVoisinage(points,j,eps)
      if len(nouveauxPtsVoisins)>=minPts: # si le point a suffisament de points,
                                          # on l'ajoute
        ptsVoisins=fusionner(ptsVoisins,nouveauxPtsVoisins)   ### CETTE LIGNE SERA A COMPLETER
      
      # On regarde si le point appartient à l'un des clusters, sinon on l'ajoute 
      inACluster = bool(sum([j in cluster for cluster in clusters]))
      if inACluster==False:
        clusters[-1].append(j)


Il nous faut encore créer une fonction **fusionner()** qui aura pour but de faire la réunion de 2 listes.</br>
On ne peut se contenter ici d'une simple concaténation, car il ne faut pas d'éléments en double dans la liste finale.

In [0]:
def fusionner(L1,L2):
  """
  Fonction qui réalise l'union de 2 listes
  """
  L3=L1[:]
  for x in L2:
    if not (x in L2):
      L3.append(x)
  return L3


## Test de l'algorithme
Nous allons pouvoir tester notre algorithme DBSCAN sur les données que nous avons chargé plus haut.</br>


In [0]:
# On définit les limites du graphique
lim=1.5
plt.xlim([-lim,lim])
plt.ylim([-lim,lim])
plt.axis('equal')

# Définition des couleurs des clusters et des barycentres
couleurs=['r','g','b','y']

for i, point in enumerate(points):
  label=labels[i]
  plt.plot(point[0],point[1],color=couleurs[label],marker="+") # On affiche chaque point avec la couleur de son cluster

plt.show()

In [0]:
# Paramètres
epsilon = 1
min_pts = 3
def distance(pt1,pt2):
  return sum((pt1-pt2)**2)**(1/2)

eval_labels = []

clusters=[]
bruit=[]
visites=[False for i in range(len(points))]

resultat = dbscan(points, epsilon, min_pts, distance)

# On crée juste une liste de liste de points correspondants, cela sera pratique dans la suite
donnees_dbscan = []
for i in range(len(resultat)):
  donnees_dbscan.append([])
  for j in range(len(resultat[i])):
    donnees_dbscan[i].append(points[resultat[i][j]])

    
print('=== Résultats avec DBSCAN ===')
print('Nombre de clusters: {} pour {} points'.format(len(clusters),len(points)))
for i in range(len(clusters)):
  print('  Cluster {} : {} points'.format(i+1,len(resultat[i])))

D'après ce que l'on vont, cela semble bien fonctionner avec les données que nous avons, mais il est plus simple d'afficher le résultat final sous forme de graphique.


In [0]:
coloriage=['#990000','#009900','#000099','#000000','#666666']

plt.figure(figsize=(20,10))
plt.xlim([-lim,lim])
plt.ylim([-lim,lim])


for i,cluster in enumerate(resultat):
  for indice in cluster:
    point=points[indice]
    plt.plot(point[0],point[1],color=couleurs[i],marker='+')
    

### Une fonction d'évaluation

Nous allons essayer d'avoir une estimation de l'efficacité de l'algorithme. D'après les graphiques ci dessus, cela semble être correct et bien correspondre à ce que l'on espère.</br>
Mais nous allons essayer de faire correspondre à chaque cluster généré par DBSCAN un des 4 clusters de départ.</br>
Le nombre résultant n'est pas forcément très pertinent, car si l'algorithme forme énormément de clusters, cela nous donnera une efficacité proche de 100%. Mais cela permet de donner un indicateur de l'efficacité de l'algorithme.</br>
Mais cela traduit ce que nous pouvons voir ci-dessus, c'est à dire à quel point cela peut correspondre à ce qui était "attendu".

In [0]:
def evaluerEfficaciteAlgo(clusters_dbscan,clusters_donnee): 
  """
  Fonction qui va essayer de "matcher" chaque cluster créé par DBSCAN 
  avec les clusters créés lors de la génération des points.
    clusters_dbscan : Ce sont les clusters générés par DBSCAN
    cluster_donnee  : Ce sont les clusters créés lors de la génération des points
    (les clusters sont sous la forme : liste de liste de points)
    
    
  Elle retourne un score (pourcentage) total et également la liste des labels
  des points si on faisait la correspondance entre les clusters 
  (cela peut etre utile pour faire de l'affichage).
  """
  def evaluerCluster(clusters_dbscan,cluster_donnee):
        """
        Cette sous-fonction va donner le nombre de points de cluster_evaluer
        qui sont dans cluster_donnee.
        """
        nbr=0
        for x in clusters_dbscan:
            for y in cluster_donnee:
                if distance(x,y)<10**(-10):
                    nbr+=1
        return nbr
     
  success=0
  labels=[]
  
  for cluster_dbscan in clusters_dbscan:
      # On calcule la corrélation (nombre de points communs) pour tous les clusters
      # qui ont été créés lors de la génération des points
      # Ensuite on considère que celui qui en a le plus est celui qui correspond
      # Donc on update le success (nombre de points correspondant total)
      resultat=[]
      for cluster_donnee in clusters_donnee:
          resultat.append(evaluerCluster(cluster_dbscan,cluster_donnee))
      success+=max(resultat)     ###  CETTE LIGNE SERA A COMPLETER
      
      labels.append(resultat.index(max(resultat)))
      
  return success/sum([len(x) for x in clusters_donnee])*100,labels


efficacite = evaluerEfficaciteAlgo(donnees_dbscan,donnees_initialisation)[0]


print('Efficacité de l\'algorithme : {}'.format(efficacite))