Implémentation de problème de classification en utilisant Naїve Bayes
Loading...
Date
2023
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Faculté des Sciences
Abstract
Toute expert des données a besoin d’apprendre les mathématiques du Machine Learning qui aident à sélectionner le bon algorithme. La compréhension des mathématiques nous permet donc de mieux comprendre le fonctionnement du modèle, notamment le choix du bon para- mètredumodèleetlesstratégiesdevalidation.Ilyasixdomainesmathématiquesconstituent la base du Machine Learning : l’algèbre linéaire, géométrie analytique, décomposition ma- triciel, calcul vectoriel, probabilité et distributions et optimisation. Nous nous intéressons ici à l’apprentissage supervisé en consacrant aux problèmes de classification naïve bayésienne, Dansunpremiertempsnousaborderonslesprincipauxoutilsd’unréseaubayésienpourpou- voir prendre en charge les problèmes comportant la notion d’incertitude en générale en don- nant des définitions principales de probabilité sur plusieurs variables et en illustrant avec un exemple simplifié d’un réseau bayésien. Enfin nous avons étudié une forme très simplifiée de ces réseaux est appelée réseaux bayésiens naïfs qui est basé sur le théorème de Bayes avec une forte indépendance (dite naïve) des hypothèses. Elle met en œuvre un classifieur bayé- siennaïf, ou classifieur naïf deBayes. Nousnous intéressonsensuite aumodèle deRégression Logistique, qui permet de résoudre des problèmes de classification binaires. qui consistent à prédire ou classer la valeur d’une variable discrète. Dans ce cas le modèle linéaire ne convient pas, on développe alors une nouvelle fonction, c’est la fonction logistique (sigma) qui a la particularité d’être toujours comprise entre 0 et 1. A partir de cette fonction, il est possible de définir une frontière de décision. Typiquement, on définit un seuil à 0.5. Lorsqu’on teste notre modèle sur le Dataset, celui-ci nous donne des erreurs. L’ensemble de ces erreurs, c’est ce qu’on appelle la Fonction Coût. Pour la régression linéaire, la Fonction Coût donnait une courbe convexe (qui présente un unique minima). C’est ce qui fait que l’algorithme de Gra- dient Descent fonctionne. En revanche, utiliser cette fonction pour le modèle Logistique ne donnera pas de courbe convexe (dû à la non-linéarité) et l’algorithme de Gradient Descent se bloquera au premier minima rencontré, sans trouver le minimum global. Il faut donc dé- velopper une nouvelle Fonction Coût spécialement pour la régression logistique. On utilise alors la fonction logarithme pour transformer la fonction sigma en fonction convexe . L’algo- rithmedeGradientDescents’appliqueexactementdelamêmemanièrequepourlarégression linéaire.L’idée centrale du Machine Learning, c’est de laisser la machine trouver quels sont les paramètres de notre modèle qui minimisent la Fonction Coût. Enfin, nous avons étudié l’al- gorithme de Naïve Bayes qui permet de résoudre des problèmes de classification à plusieurs classes de façon simple et très efficace. et nous avons réalisé le projet classification des mala- dies cardiaques en utilisant cet algorithme