#MD##Dans ce billet, nous verrons un rapide tour d’horizon de l’état actuel des données, et que la prochaine grande évolution sera la prolifération des données en continu.##/MD##
Le domaine de l’analyse des données est en constante évolution. L’idée que les données jouent un rôle central dans l’organisation moderne aurait semblé farfelue il y a seulement quelques années. Dans cet article, je vais faire un rapide tour d’horizon de l’état actuel des données et suggérer que la prochaine grande évolution sera la prolifération des données en continu.
Une brève histoire des données d’entreprise
Avant l’ère numérique, le terme » données d’entreprise » faisait principalement référence aux dossiers financiers. En effet, avant qu’il n’y ait des analystes de données, il y avait des comptables et des professionnels de la finance qui examinaient les comptes de résultat, créaient des prévisions et calculaient les chiffres pour produire des rapports destinés aux dirigeants, aux membres du conseil d’administration ou aux actionnaires.
La croissance explosive du World Wide Web et des systèmes numériques au tournant du dernier millénaire a créé une nouvelle richesse de données d’entreprise. Des outils logiciels étaient intégrés dans divers processus commerciaux. La gestion de la relation client (CRM), le service d’assistance, la planification des ressources de l’entreprise (ERP) et l’analyse du Web, pour n’en citer que quelques-uns. Et ces outils généraient des données, qui pouvaient ensuite être traitées et explorées afin d’extraire des informations et d’améliorer lesdits processus.
Avec la croissance des données, est apparue une large gamme d’outils, de techniques et de compétences pour l’analyse des données. Ceux-ci étaient principalement centrés sur les bases de données relationnelles – de grands magasins de données structurées qui peuvent être interrogés à l’aide de SQL. De ces technologies de base ont émergé des centaines d’outils spécialisés pour le stockage, le traitement et la visualisation des données.
Depuis une dizaine d’années, les données d’entreprise évoluent à nouveau et changent de forme. Si les sources que nous avons mentionnées ci-dessus sont devenues un élément essentiel du processus décisionnel des organisations modernes, elles ne représentent qu’une partie du tableau. Désormais, de plus en plus de ressources sont consacrées au streaming data. Examinons ce concept et expliquons sa centralité pour l’avenir des données et des analyses.
Des tableaux aux flux
Bien que la transformation numérique ait introduit un ensemble diversifié de nouvelles sources de données, chacune ayant ses propres bizarreries et défis, un thème commun les relie : dans la plupart des cas, les données d’entreprise sont tabulaires et structurées.
Qu’il s’agisse d’états financiers, de statistiques de performance des vendeurs ou de délais de résolution des tickets de support, les données d’entreprise seraient généralement générées par une poignée de sources et facilement représentées dans des feuilles de calcul et des bases de données relationnelles. Au fur et à mesure que les données s’accumulent, des lignes, des colonnes et des tableaux sont ajoutés pour représenter des informations historiques ou des processus métier supplémentaires.
Les données en continu, en revanche, suivent un ensemble de règles différentes. Comme son nom l’indique, elle est générée par un flux d’événements qui se produisent en continu. Bien que chacun de ces événements soit de petite taille, ils s’accumulent rapidement pour former une quantité massive de données, car ils sont créés en permanence. En outre – ces données ne sont pas tabulaires et non structurées, atterrissant généralement dans des milliers ou des millions de fichiers JSON.
Croissance des données en continu stimulée par le SaaS, les appareils connectés et l’apprentissage automatique
Il y a quelques années, très peu d’organisations travaillaient avec des données en continu, mais ce nombre est en hausse.
Trois tendances technologiques à grande échelle suscitent un intérêt accru pour le streaming de données:
Les logiciels
Un article a proclamé de manière célèbre que « les logiciels sont en train de manger le monde », et cette tendance ne s’est nullement inversée. Le logiciel d’aujourd’hui ne se limite plus à la Silicon Valley – les entreprises de tous les secteurs, du commerce de détail à la banque, développent des outils logiciels et des applications pour améliorer les processus internes ou fournir un meilleur service à leurs consommateurs.
Avec le logiciel viennent des données en flux continu. Journaux de serveur, flux de clics et statistiques d’utilisation granulaires. Et à une époque où chaque grande entreprise est aussi une entreprise de logiciels, elles finiront par amasser un grand volume de données en continu.
IoT et appareils connectés
alors qu’une partie du battage médiatique autour de l’internet des objets s’est calmé, la technologie elle-même a en fait atteint une adoption généralisée dans des secteurs tels que le transport, l’énergie et la fabrication. Les machines, les centrales électriques et les infrastructures modernes sont inondées de capteurs qui produisent un flux ininterrompu de données.
Les entreprises de ces secteurs verticaux commencent seulement à créer véritablement de la valeur à partir des données des machines, mais à mesure que les outils de mesure et d’analyse deviennent plus sophistiqués, cette tendance est susceptible de s’étendre considérablement.
Intelligence artificielle et apprentissage automatique
Les réseaux neuronaux, l’apprentissage profond et les algorithmes de décision prédictive reposent tous sur le traitement des flux à grande échelle, en identifiant les tendances et les valeurs aberrantes parmi des milliers ou des millions d’événements de données similaires.
Si, là aussi, il y a beaucoup de battage médiatique, peu d’experts contesteraient le fait que ces technologies vont jouer un rôle majeur dans l’industrie et la science au cours de la prochaine décennie. Alors que l’IA et le ML entrent dans le courant dominant, nous sommes susceptibles de voir une demande croissante d’outils et de personnel qualifié pour capturer, traiter et structurer les données en continu (d’où la pénurie de data scientists souvent citée).