Browsing by Author "BOUREKHOUM , Ikram"
Now showing 1 - 1 of 1
Results Per Page
Sort Options
Item Traitement des données avec Excel et Python et Implémentation de la régression logistique en utilisant Sklearn(Faculté des Sciences, 2022) LEBDIOUI , Khawla; BOUREKHOUM , Ikram; MALLEM , KhadidjaEn 2019,l’informatique et la programmation sont des domaines d’étude en pleine émergence. Avec l’informatisation des entreprises, les données récoltées sont de plus en plus nombreuses. C’est ce qui a fait naître le terme très généraliste de BigData. Et c’est à ce niveau qu’intervient le machine learning. Nous nous intéressons ici à l’apprentissage supervisé en consacrant aux problèmes de classification en utilisant la régression logistique dans un premier temps nous a borderons les principaux outils de statistique descriptive indispensables à l’exploration des données, en mettant l’accent sur la visualisation de l’information par exemple dans un histogramme la surface du barre représente la fréquence qui est une notion très importante pour le traitement des données. Nous avons réalisé deux projets: dans le premier projet nous avons appliqué un modèle du régression linéaire avec Excel et dans le deuxième projet nous avons appliqué un modèle du corrélation avec python. L’objectif est d’approfondir nos connaissances et nos outils de calculs dans le domaine de la statistique descriptive , apprendre à manier un tableur Excel et à manipuler Python. Nous nous intéressons en suite au modèle de Régression Logistique, qui permet de résoudre des problèmes de classification binaires.qui consistent à prédire ou classer la valeur d’une variable discrète. Dans ce cas le modèle linéaire ne convient pas, on développe alors une nouvelle fonction, c’est la fonction pas, on développe alors une nouvelle fonction, c’est la fonction logistique(sigma)qui la particularité d’être toujours comprise en 0et1. Apartir a de cette fonction, il est possible de définir une frontière de décision. Typiquement, on définit un seuil à0.5.Lorsqu’on teste notre modèle sur le Data set, celui-ci nous donne des erreurs. L’ensemble de ces erreurs, c’est ce qu’on appelle la Fonction Coût.Pour la régression linéaire,la Fonction Coût donnait une courbe convexe (qui présente un unique minima). C’est ce qui fait que l’algorithme de Gradient Descent fonctionne. En revanche,utiliser cette fonction pour le modèle Logistique ne donnera pas de courbe convexe(dû à la non-linéarité) et l’algorithme de Gradient Descent se bloquera au premier minima rencontré , sans trouver le minimum global. Il faut donc développer une nouvelle Fonction Coût spécialement pour la régression logistique. On utilise alors la fonction logarithme pour transformer la fonction sigma en fonction convexe. L’algorithme de Gradient Descent s’applique exactement de la même manière que pour la régression linéaire. L’idée centrale du Machine Learning, c’est de laisser la machine trouver quels sont les paramètres de notre modèle qui minimisent la Fonction Coût. Enfin, nous avons étudié l’algorithme de Nearest Neighbour ( le voisin le plus proche) qui permet de résoudre des problèmes de classification à plusieurs classes de façon simple et très efficace. et nous avons réalisé le projet de prédiction de survie du Titanic en utilisant cet algorithme.