Depuis plusieurs années, les entreprises conservent et manipulent une grande quantité de données.
En effet, le volume des données d’une entreprise augmente constamment et cette augmentation a, de plus, tendance à s’accélérer.
Compte tenu de la diversité des métiers et donc de l’hétérogénéité des systèmes de stockage de données, il a fallu créer des outils permettant à ces métiers de communiquer entre eux : les entrepôts de données et les ETL.
D’autre part, afin de pouvoir exploiter les données et en tirer des informations intéressantes, il est indispensable de les regrouper et d’homogénéiser leurs formats.
Un entrepôt de données, ou datawarehouse, consolide l’information jugée stratégique pour l’entreprise dans une même base de données.
Les Directions Générales, comme différents services de l’Entreprise (contrôleurs de gestion, responsables d’unités opérationnelles...), utilisent ces informations pour prendre des décisions. L’exploitation de ces données s’effectue sous plusieurs formes :
Une solution ETL intervient en amont de la constitution de l’entrepôt de données, celle qui consiste à collecter l’information. Un ETL extrait les données, les transforme et les charge dans la base finale.
Les données proviennent souvent de multiples ressources : différents systèmes de gestion de bases de données, fichiers plats, feuilles de calcul... Les outils ETL sont capables de collecter des données au sein de ces systèmes d’information hétérogènes afin de les rassembler sous un même format et pouvoir les traiter ensemble et non plus séparément.
L’étape transformation correspond à un nettoyage et à la préparation de données qui seront utiles lors de leur exploitation. Le nettoyage des données assure leur intégrité en éliminant les doublons, en supprimant ou complétant les champs non renseignés... Les opérations de nettoyage peuvent également couvrir le filtrage c’est à dire la sélection des données, l’agrégation, qui consiste à regrouper des données à traiter ensemble, la vérification de relations...
Plusieurs outils ETL existent. La plupart disposent d’une interface graphique permettant l’élaboration des différents scénarii d’intégration. Le travail des développeurs en est ainsi grandement facilité, tant au niveau de la conception que de la maintenance des traitements de données. Les ETL permettent de produire des graphiques contenant des composants symbolisant les diverses opérations appliquées sur les données. Ces mêmes composants sont reliés par des arcs représentant le flux de données.
De nos jours, la demande en ETL émanant des entreprises devient de plus en plus grande. Le développement de ces outils en est d’autant plus actif.
Dans votre recherche d’un outil adapté à vos besoins, vous trouverez de nombreuses applications ETL dont des solutions open source performantes : CloverETL, Talend Open Studio, Pentaho Data Integration...
Sources :
http://www.journaldunet.com/solutions/dossiers/pratique/entrepot-donnees.shtml
http://www.atolcd.com/actualites/detail-actualite/actualite/2/comparatif-etl-open-source-1.html
http://en.wikipedia.org/wiki/Extract,_transform,_load#Challenges
Articles sur le même thème