La préparation des données est l’une des phases les plus importantes dans le cycle de vie d’un projet data science. Les recherches qui se focalisent sur ce domaine nous proposent une panoplie de solutions que nous allons voir à travers cet article.
- Introduction :
Les données utilisées dans chaque projet de machine learning ne sont pas toujours structurées, complètes, bien formatées. Lors du nettoyage et la transformation des données, nous essayons de régler ces problèmes avant tout traitement. Outre le besoin d’avoir des données propres et représentatives de la réalité, la préparation des données est un prérequis de certains modèles. Par exemple, un modèle SVM nécessite une normalisation des facteurs avant de l’entraîner.
- Techniques de préparation des données.
Les techniques de préparation des données sont nombreuses, de telle façon que nous ne pouvons pas être sur de la bonne technique. En fonction de la nature du projet et des données mise à disposition, les méthodologies de préparation des données changent.
Pour la majorité des projets où les données sont structurées, dans l’exemple d’un fichier CSV, la préparation des données peut inclure les tâches suivantes :
- Préparation des lignes (Ex. Suppression des données aberrantes )
- Préparation des colonnes (Ex. Sélection des colonnes à inclure pour la création du modèle)
- Préparation des valeurs (Ex. Normalisation des données)
Dans la suite de ce paragraphe nous allons lister quelques techniques de préparation des lignes, des colonnes et des valeurs. A la fin, nous allons voir aussi des techniques qui combinent la préparation des lignes et des valeurs, ou les colonnes et les valeurs.
2.1 Préparation des données pour les lignes
Généralement, pour les lignes il y a deux types de changement que nous pouvons effectuer, suppression des exemples ou l’ajout des exemples.
Suppression des données aberrantes « outliers » : dans un dataset, on dit qu’un exemple représente une donnée aberrante quand ce dernier est loin des autres exemples de la même expérience, comme dans le cas de la figure ci-dessous.

SMOTE (Synthetic Minority Oversampling Technique) est une technique qui permet d’augmenter les données d’une population dans un dataset, pour bien clarifier, prenons l’exemple d’un dataset contenant 80% d’observations positives et 20% sont négatives. Un tel dataset est dit dataset non équilibré.
Si on se base sur un dataset non équilibré pour entraîner un model machine learning, ce dernier donnera des prédictions fausses, parce que nous n’avons pas assez d’exemples de la classe négative comparant à la positive. De ce fait on utilise SMOTE pour augmenter les exemples de la classe négative et supprimer ceux de la classe positive.
2.2 Préparation des données pour les colonnes :
Suppression des colonnes : Les colonnes sont les facteurs qui explique notre expérience. Dans certains dataset, nous nous retrouvons face à des centaines de colonnes qui sont parfois non significatives. Dans ce cas il faut les supprimer.
Sélection des facteurs « feature selection » : Plusieurs algorithmes nous permettent de sélectionner les bonnes variables, tels que Élimination des facteurs par récursivité « Recursive feature elimination » qui consiste à tester les différents combinaisons des variables et conserver celles qui ont un impact sur le résultat du modèle.
Une autre technique très utilisée pour la transformation des colonnes est One-hot encoding. Elle est adoptée pour bien représenter les variables des catégories.
2.3 Préparation des données pour les valeurs :
Les transformations les plus utilisé sont la standardisation et la normalisation des valeurs. Et qui consiste à changer l’intervalle des valeurs d’un intervalle plus grand à un autre plus petit généralement [0, 1] ou [-1, 1]
Une autre technique est l’imputation « data imputation » qui consiste à remplir les valeurs vides d’un dataset. En utilisant soit une étude statistique, soit les prédictions d’un modèle machine learning entrainé sur les autres variables.
2.4 Préparation des données pour les colonnes et les valeurs :
Ce type de transformation change à la fois le nombre des colonnes et les valeurs du dataset.
Réduction de dimension est la technique la plus commune pour ce type de préparation. Elle permet de réduire le nombre de variables du dataset ainsi que changer la distribution des valeurs. Et donc créer une projection des données d’un espace plus complexe à un nouveau moins complexe.
2.5 Préparation des données pour les lignes et les valeurs :
Nous ne trouvons pas assez de techniques pour ce type de transformation, mais nous pouvons penser aux algorithmes de clustering qui permettent de trouver un candidat, représentant d’un cluster spécifique. De cette façon, on peut éliminer des lignes et les représenté par un élément du même cluster.