3 minutes pour comprendre le monde de la Data.

data

Data Analyst, Data Scientist, Data Engineer… Tous ces métiers sont assez flous pour la plupart d’entre nous. Même si l’on se doute qu’ils ont un rapport avec la data, on a souvent du mal à les définir précisément et à comprendre les enjeux qui se cachent derrière. Dans quel but collecte-t-on massivement des données toujours plus riches et diversifiées ? Où sont-elles stockées et qui les analyse ? Donnez-nous 3 minutes, on vous aide à comprendre ce monde parfois “obscur”. 

A l’origine, il y a des données…

Au cours des dernières années l’expression “Big Data” s’est largement, voire trop, généralisée. On la retrouve un peu partout mais on ne sait souvent pas précisément ce qu’elle signifie. On pense spontanément à la data, aux données… Lesquelles ? Pour en faire quoi ? On parle aujourd’hui de “Big Data” (soit “données massives”) lorsque l’on regroupe de nombreuses et volumiques sources de données.

Le “Big Data” n’est pas un concept nouveau dans son essence : les premiers rassemblements de données dans des “bases de données” ou “data center” (plus grands) datent des années 1960. Si aujourd’hui on parle tous de “Big Data” c’est parce qu’avec l’avènement de Google et des réseaux sociaux, on a commencé à stocker de plus en plus de données à propos des consommateurs, des produits, etc. Ce qui les a rendues “massives”. 

Le stockage et l’exploitation de ces données est clé pour un business 

Stocker des données c’est bien, mais si c’est pour ne rien en faire alors pourquoi prendre la peine de les collecter ? Sans données, une entreprise est aveugle : impossible de savoir ce qui s’est passé sur le marché, chez ses concurrents, parmi ses consommateurs mais aussi en interne. C’est là tout le rôle du Data Analyst : aider les CEOs et les équipes à BIEN voir pour avancer droit dans la bonne direction. 

Prenons l’exemple d’un Operations Manager : sans data, il ne peut pas définir de KPIs pour aider ses équipes à progresser, ni monitorer ces progressions. De la même manière, le Marketing Manager et le Growth Hacker ne pourront pas décider des prochaines publications et publicités qu’ils feront de manière optimale car ils n’auront aucune donnée ou information sur lesquelles s’appuyer. 

C’est vrai que selon les entreprises, la data occupe une place plus ou moins centrale dans le business. Une entreprise comme Yuka qui permet à chaque utilisateur d’avoir instantanément accès à un panel d’informations sur un produit donné place la data au coeur de son business et ne pourrait pas exister sans. À l’inverse, une entreprise de service telle que Guest Ready qui propose un service de conciergerie Haut de Gamme utilise de la data pour faciliter son fonctionnement (données clients, préférences, goûts, etc.) mais ça n’est pas le coeur de sa proposition de valeur. (Note à vous-même : les startups dont la mission est d’accélérer un process grâce à la technologie utilisent souvent la data comme tremplin de développement). 

En bref, qu’elle soit au centre ou en support d’un service, tout business a aujourd’hui besoin de savoir exploiter ses données pour se développer vite et bien

Mais des données, ça ne se stocke pas n’importe où et n’importe comment. 

Tout CEO ou fondateur a donc intérêt à récupérer un maximum de données sur son business. 

Un maximum oui, mais pas toutes non plus. Pourquoi ? Tout simplement car le stockage physique (serveurs) de ces données coûte cher, prend de la place et que les serveurs sont souvent fabriqués à partir de matériaux rares et polluants. 

Il faut donc choisir une structure de stockage optimale qui correspond aux besoins de l’entreprise et permet aux équipes d’y accéder facilement : C’est le rôle du Data Engineer. 

Pour comprendre comment on accède aux données, il faut que vous soyez au clair sur les notions suivantes : 

#1 – Database (base de données, synonyme ou presque : data warehouse, entrepôt de données) : c’est tout simplement un ensemble de données. La plupart des bases de données aujourd’hui sont dites “relationnelles”, c’est-à-dire qu’elles peuvent être représentées sous la forme d’un ensemble de tableaux comme un ensemble de spreadsheets, mais ce n’est pas le cas de toutes.

#2 – SQL (Structured Query Language, langage de requête structurée) : c’est ce qu’on appelle un langage informatique. Il permet de communiquer avec les bases de données relationnelles pour les modifier ou extraire des données dans le format souhaité. On attend généralement des personnes qui travaillent dans la data de savoir coder en SQL parce qu’il correspond à l’utilisation la plus répandue des bases de données. PostgreSQL et MySQL sont des outils utilisant SQL qui permettent de gérer les bases de données, ils font partie des plus connus mais il en existe de nombreux autres.

Une fois ces données stockées, c’est la mission du Data Analyst de les transformer en informations intelligibles et directement exploitables par les équipes business et produit.

Et l’Intelligence Artificielle dans tout ça ? 

La “Big Data” va souvent de paire avec l’IA (Intelligence Artificielle). Pourquoi ? Tout simplement parce que la majorité des applications de l’Intelligence Artificielle sont du “deep learning”, une technologie qui requiert d’immenses quantités de données. Mais qu’est ce que ça signifie précisément, IA ? Et “machine learning” ou “deep learning” ?

L’Intelligence Artificielle, c’est un domaine technique dont les concepts et les technologies qui en découlent tendent à donner aux machines une intelligence proche de celle des êtres humain. 

Attention, même si cette définition est la plus répandue ce n’est pas celle que les professionnels du domaine utilisent : pour eux l’Intelligence Artificielle est un domaine de recherche. Il tend en effet à donner aux machines une forme d’intelligence mais on ne considère plus comme travaillant dans l’Intelligence Artificielle une entreprise qui ne fait pas de recherche et ne fait qu’utiliser les principes obtenus par la recherche dans ce champs.

Les exemples les plus communs aujourd’hui d’Intelligence Artificielle sont ceux de la reconnaissance d’image ou de langage comme le secrétaire intelligent de Google qui permet de prendre rendez-vous avec une machine qui parle comme un être humain.

Autres notions à bien comprendre : on confond souvent le « machine learning » et le « deep learning » (apprentissage profond). Le « deep learning » fait partie du « machine learning », c’est une technologie qui s’est inspirée du fonctionnement du cerveau humain en reproduisant un réseau de neurones à sa manière. C’est l’application de l’Intelligence Artificielle la plus répandue aujourd’hui.

Quand on parle d’Intelligence Artificielle il faut se souvenir que l’aspect artificiel est encore aujourd’hui prépondérant : on imite l’intelligence humaine, on ne crée pas aujourd’hui de véritable intelligence de la machine. Un programme entraîné à reconnaître un vélo sera bien incapable de reconnaître une voiture si son programmeur n’a pas prévu cette éventualité. Un répondeur intelligent sera incapable d’apprendre à jouer au tennis. Une machine qui indique qu’elle « comprend » ne fait que répondre aux spécifications de son programmeur, elle ne peut fondamentalement pas comprendre.

Celui qui met en application les principes de l’Intelligence Artificielle, c’est le Data Scientist. C’est avant tout un programmeur spécialisé dans des langages spécifiques (Python ou R par exemple) et qui est bon en maths, notamment en statistiques. Il crée les réseaux de neurones adaptés aux besoins de son entreprise pour reconnaître des profils particuliers de clients, des images, etc. 

Et ça ce n’est qu’une partie de l’iceberg car c’est un monde en évolution constante qui nous réserve bien des surprises. 

De votre côté n’oubliez pas, si vous êtes à la recherche d’un job qui a de l’impact et que vous avez besoin d’aide pour trouver celui qui vous correspond,  n’hésitez pas à nous contacter : chez elinoï, nous recherchons en permanence des profils entrepreneuriaux qui n’ont pas peur de se retrousser les manches pour faire avancer les choses !

Inscrivez-vous sur elinoï

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *