L’historisation des données, processus clé d’un projet BI, consiste à conserver et gérer différentes versions des données pour permettre l’analyse historique, la traçabilité et le suivi des tendances.

1 – Pourquoi historiser ?

L’historisation répond à des questions clés :

  • Quelle était la valeur d’un indicateur à un moment donné ?
  • Quelles données ont changé, quand et pourquoi ?

Selon les besoins du client, l’historisation peut ne pas être nécessaire si l’analyse historique ou les tendances ne sont pas prioritaires.

2 – Pourquoi historiser mes données ?

L’historisation des données apporte de nombreux avantages, en particulier dans les domaines suivants

  1. L’analyse temporelle

Dans certains secteurs, il est nécessaire de pouvoir consulter des données anciennes. Ceci afin de permettre une meilleure lecture des tendances et d’identifier les points forts et faibles du secteur.

Identifier de façon formelle quel produit fonctionne ou lequel ne fonctionne pas permet d’orienter la stratégie de l’entreprise en fonction.

  • La traçabilité

Identifier toutes les étapes de vie d’une information stockée permet, via des analyses, de comprendre son évolution. Complémentaire à l’analyse temporelle, elle n’a cependant pas les mêmes objectifs. Comprendre toutes les étapes de l’évolution d’un produit permet, par exemple, de faire un focus sur les méthodes de production afin d’en améliorer le cycle.

  • Audit

Avec la mise en place de normes sur la gestion des données, forer dans l’historique des données, c’est-à-dire à explorer en profondeur les évolutions temporelles, des informations pour en extraire des tendances. Ils permettent ainsi de prendre des décisions afin de répondre aux normes et lois en vigueur.

  • Comparaison

Comparer les données entre les années, les trimestres, les mois est un élément important de l’historisation. Complémentaire à l’analyse temporelle, suivre l’évolution et identifier les tendances est un point clé de l’historisation.

  • Fiabilisation des analyses

Une analyse basée sur des données incomplètes pourrait s’en trouver biaisée. Conduisant ainsi à de potentielles décisions immédiates dans le but de corriger un problème ou de renforcer une tendance positive.

3 – Approche et techniques d’historisation

Les stratégies d’historisation sont multiples et sont toutes basées sur des approches différentes de la gestion de vos données.

  1. L’écrasement de données

Cette méthode consiste à écraser les données existantes lors des mises à jour, sans conserver d’historique. Chaque information est remplacée en fonction de sa clé. Ce qui rend la méthode simple et peu coûteuse. En contrepartie, elle présente l’inconvénient d’empêcher toute traçabilité et toute analyse en profondeur de la donnée.

  • Historisation complète

Aucune suppression de la donnée n’est effectuée, généralement, l’information est horodatée et permet d’identifier par des requêtes plus ou moins complexe quelle est la version courante. L’avantage de cette méthode est que les analyses seront très pertinentes, cependant elles auront un coût en volume et en performances globales sur l’interrogation des donnes. Elles nécessiteront des efforts en terme d’architecture pour soutenir le volume toujours croissant d’information.

  • Historisation par journal de transaction

Cette méthode consiste à transférer la donnée qui vient d’être modifier dans une nouvelle table contenant des marqueurs temporels et un tag contenant le type d’action menée. Lors de la mise à jour ou de la suppression, l’information bascule sur une table spécifique. L’avantage est que les données sont stockées dans leur entièreté, permettent donc des forages et analyses temporelles et ne surchargent pas la table courante d’information passées. L’inconvénient est qu’il devient plus difficile de faire des comparaisons car elles nécessitent des comparaisons sur plusieurs tables.

5 – Contraintes et coûts

Comme toujours, lors d’un projet BI (et informatique en général) il est essentiel de bien structurer et cadrer en amont le processus.

Gérer l’historique a un coût en ressources, temps de traitement, stockage, performances lors des extractions de données. Par conséquent, prendre le temps d’informer le client des différents effets de bords s’avère crucial.

  • L’infrastructure et stockage : Que ce soit en Cloud, ou OnPremise, le stockage de données à un coût, le temps de process peut impacter vos processus qui s’exécutent en parallèle. La croissance de données à un impact sur la scalabilité globale de toutes les applications exploitant les données. Faire une bonne analyse pour proposer la meilleure infrastructure qui nécessitera le moins de maintenance possible pour en réduire les coûts.
  • Les performances globales : Un processus ne doit pas pâtir de l’existant. Intégrer de nouvelles données, dans une table déjà pleine, ne doit pas être ralentie tous les jours un peu plus. Les choix techniques qui en découlent sont essentiels :
    • ETL ou ELT
    • différentiel ou annule et remplace
    • écraser ou tagger l’information.

6 – Questions importantes

  • Quoi historiser : Historiser oui, mais quoi ? Certaines données n’ont aucun sens historique, d’autres doivent obligatoirement l’être. Faire une bonne analyse du métier de votre client permettra de faire les propositions les plus pertinentes sur ce sujet.
  • Granularité : Historiser chaque minute d’activité est rarement pertinent. Privilégiez une fréquence adaptée aux besoins métiers.
  • Optimiser :  Mécanismes de purge, d’archivage, quels sont les limites d’exploitation des données, quelle est l’importance d’une données vielle de 20 ans ?
  • Documentation :  Définir les règles de l’historisation et les réflexions sur la mise en place afin de pérenniser le processus.

7 – Exemples

Finance :

Dans le secteur financier, les données historisées permettent de :

  • Détection de fraude : Identification de transactions suspectes en repérant des comportements anormaux par rapport à l’historique ou des patterns suspects de traitements.
  • Analyser les risques : Évaluer la solvabilité des clients en étudiant leurs historiques de paiements et leurs comportements financiers passés.
  • Optimiser les stratégies d’investissement : Identifier des tendances boursières ou prévoir l’évolution des marchés.

Retail :

Dans le commerce de détail, l’historisation sert à :

  • Prévoir la demande : Anticiper les besoins en stock en fonction des tendances saisonnières ou des promotions passées.
  • Analyser le comportement des clients : Étudier l’historique d’achat pour personnaliser les offres et maximiser les ventes.
  • Optimiser les promotions : Identifier les périodes où les promotions ont eu le plus d’impact sur les ventes.

Ressources humaines :

Dans la gestion des talents, les données historiques peuvent :

  • Prévoir l’attrition : Identifier les collaborateurs à risque de départ en analysant des données comme les absences ou les performances.
  • Optimiser le recrutement : Repérer les profils de candidats ayant historiquement mieux performé dans des postes similaires.
  • Analyser l’évolution des compétences : Suivre les formations et performances pour anticiper les besoins futurs en compétences.

Santé :

Dans le domaine de la santé, les données historisées permettent :

  • La prévision des hospitalisations : Estimer les besoins en lits ou en personnel en fonction des données épidémiologiques passées.
  • Le suivi des patients chroniques : Identifier les tendances dans l’évolution de la santé d’un patient pour ajuster les traitements.
  • L’optimisation des ressources médicales : Prévoir les pics d’activité dans les services médicaux pour ajuster les plannings.

Conclusion :

L’IA appliquée à des données historisées constitue un levier puissant, une pierre angulaire, pour transformer de simples observations en analyses prédictives et prescriptives. En combinant Databricks, Power BI et un soupçon de Python, vous disposez d’une solution moderne et accessible pour explorer ce monde riche et passionnant qu’est l’IA.