Traitement des données avec Excel et Python et Implémentation de la régression logistique en utilisant Sklearn

dc.contributor.authorLEBDIOUI , Khawla
dc.contributor.authorBOUREKHOUM , Ikram
dc.contributor.authorMALLEM , Khadidja
dc.date.accessioned2025-10-09T07:47:46Z
dc.date.available2025-10-09T07:47:46Z
dc.date.issued2022
dc.description.abstractEn 2019,l’informatique et la programmation sont des domaines d’étude en pleine émergence. Avec l’informatisation des entreprises, les données récoltées sont de plus en plus nombreuses. C’est ce qui a fait naître le terme très généraliste de BigData. Et c’est à ce niveau qu’intervient le machine learning. Nous nous intéressons ici à l’apprentissage supervisé en consacrant aux problèmes de classification en utilisant la régression logistique dans un premier temps nous a borderons les principaux outils de statistique descriptive indispensables à l’exploration des données, en mettant l’accent sur la visualisation de l’information par exemple dans un histogramme la surface du barre représente la fréquence qui est une notion très importante pour le traitement des données. Nous avons réalisé deux projets: dans le premier projet nous avons appliqué un modèle du régression linéaire avec Excel et dans le deuxième projet nous avons appliqué un modèle du corrélation avec python. L’objectif est d’approfondir nos connaissances et nos outils de calculs dans le domaine de la statistique descriptive , apprendre à manier un tableur Excel et à manipuler Python. Nous nous intéressons en suite au modèle de Régression Logistique, qui permet de résoudre des problèmes de classification binaires.qui consistent à prédire ou classer la valeur d’une variable discrète. Dans ce cas le modèle linéaire ne convient pas, on développe alors une nouvelle fonction, c’est la fonction pas, on développe alors une nouvelle fonction, c’est la fonction logistique(sigma)qui la particularité d’être toujours comprise en 0et1. Apartir a de cette fonction, il est possible de définir une frontière de décision. Typiquement, on définit un seuil à0.5.Lorsqu’on teste notre modèle sur le Data set, celui-ci nous donne des erreurs. L’ensemble de ces erreurs, c’est ce qu’on appelle la Fonction Coût.Pour la régression linéaire,la Fonction Coût donnait une courbe convexe (qui présente un unique minima). C’est ce qui fait que l’algorithme de Gradient Descent fonctionne. En revanche,utiliser cette fonction pour le modèle Logistique ne donnera pas de courbe convexe(dû à la non-linéarité) et l’algorithme de Gradient Descent se bloquera au premier minima rencontré , sans trouver le minimum global. Il faut donc développer une nouvelle Fonction Coût spécialement pour la régression logistique. On utilise alors la fonction logarithme pour transformer la fonction sigma en fonction convexe. L’algorithme de Gradient Descent s’applique exactement de la même manière que pour la régression linéaire. L’idée centrale du Machine Learning, c’est de laisser la machine trouver quels sont les paramètres de notre modèle qui minimisent la Fonction Coût. Enfin, nous avons étudié l’algorithme de Nearest Neighbour ( le voisin le plus proche) qui permet de résoudre des problèmes de classification à plusieurs classes de façon simple et très efficace. et nous avons réalisé le projet de prédiction de survie du Titanic en utilisant cet algorithme.
dc.identifier.urihttp://dspace.univ-skikda.dz:4000/handle/123456789/5152
dc.language.isofr
dc.publisherFaculté des Sciences
dc.titleTraitement des données avec Excel et Python et Implémentation de la régression logistique en utilisant Sklearn
dc.title.alternativeAnalyse Numérique pour les Equations Différentielles Partielles
dc.typeMémoire de Master
Files
Original bundle
Now showing 1 - 1 of 1
No Thumbnail Available
Name:
M-515-00316-1.pdf
Size:
6.21 MB
Format:
Adobe Portable Document Format
License bundle
Now showing 1 - 1 of 1
No Thumbnail Available
Name:
license.txt
Size:
1.71 KB
Format:
Item-specific license agreed to upon submission
Description:
Collections