La plupart des gens veulent avoir une occasion de s'impliquer dans un domaine en expansion rapide et continue comme celui du data-mining. Lors ce que l’on suit des cours sur les langages de programmation tels que python ou encore R, il n’y a aucun problème dans le processus de téléchargement et d'installation des environnements de développement de ces langages pour commencer votre travail. Cependant, quand il s’agit d’installer des librairies, les packages spécifiquement dédiés à la data-science comme Matplotlib et NumPy cela peut devenir très ardues et changer d’un système d’exploitation à un autre. Car, bien souvent il faut résoudre les problèmes de dépendances relatifs à chacun des packages.
Souvent en python cela sera fait automatiquement à l’aide de l’utilitaire pip qui de lui-même ira chercher les packages manquants sur l’internet afin d’installer toutes les dépendances manquantes. Le problème de cette solution c’est que pip ne se préoccupe pas de savoir si les packages qu’il installe sont compatible entre eux et cela peut finalement conduire à des incompatibilités entre les différents packages installés sur votre machine. C’est à ce moment qu’intervient Conda, le gestionnaire de package de la distribution anaconda, qui contrairement à pip va s’assurer que les packages qu'il installe sur votre machine sont tous compatibles les uns avec les autres et qu’ils sont tous installés dans le bon ordre. Ainsi, vous n’aurez aucune surprise comme par exemple voir TensorFlow ne plus fonctionner du jour au lendemain sans prévenir.
Anaconda Distribution Python
Anaconda est une distribution open source, disponible en python, mais aussi en R et destinés notamment à une utilisation scientifique telle que le data-mining, le machine- learning, les analyses prédictives, le traitement de gros volume de données, le calcul scientifique [1],….
L'objectif principal d'anaconda est de simplifier au mieux la gestion des paquets et le processus de déploiement. C’est d’ailleurs pour cela qu’actuellement qu’elle se veut facile à télécharger, mais aussi à installer qu’elle que soit l’environnement (Linux, macOS où encore Windows ).
De plus, Anaconda compte plus de 15 millions d'utilisateurs et est composé de plus de 1500 packages destinés au traitement scientifique des données. Nous retrouvons notamment parmi les packages les plus populaires en python tels que tels que Numpy, Matplotlib ou encore le célèbre Tensor Flow fleuron de google utilisé par tout la majorité des scientifiques du monde entier.