Qu’est-ce que la plateforme Cloudera ? : une synthèse pour vous aider à y voir clair

Qu’est-ce que la plateforme Cloudera ?

Qu’est-ce que la plateforme Cloudera ? C’est la question à laquelle nous allons essayer d’apporter le plus d’éléments possible dans cet article.

Dans le domaine de la data il n’est pas évident de bien identifier ce que chaque solution peut amener à votre architecture ou comment elle peut s’insérer dans votre processus de traitement de données, tant il y a d’acteurs du domaine positionnés sur des besoins spécifiques et éparses. Il nous fallait donc expliquer plus en détail ce qu’est Cloudera Hadoop et a quoi peut servir la solution et les services proposés par cette société Américaine qui aujourd’hui fournit un ensemble d’outils autour du traitement de la donnée. Pour y arriver il faut passer par leur plateforme CDP dans le cloud ou On Premise, accessible en self-service et sécurisée by design. La plateforme Cloudera CDP offre des avantages non négligeables pour rester agile dans l’adoption de ses usages.

Pour vous présenter tout ça, nous allons parcourir ensemble les points suivants :

  1. Cloudera c’est quoi ?
  2. L’histoire de Cloudera
  3. A quoi sert la plateforme Cloudera dans une infrastructure informatique ?
  4. Les fonctionnalités majeures de la plateforme
  5. Concrètement, à quoi peut servir Cloudera pour une entreprise ?
  6. Combien vous coûteront les services de la plateforme Cloudera ?
  7. Quelques success stories
  8. Se former sur Cloudera : un gros challenge ?
  9. Par où commencer ?

Cloudera, plateforme Big Data

I. Cloudera c’est quoi ?

Cloudera est une entreprise Américaine basée en Californie, elle se consacre au développement d’une solution Big Data basée historiquement sur le framework distribué Hadoop et qui est en train de se réorienter vers le Cloud. Cloudera développe depuis plus d’un an, sa solution dans les Cloud publiques AWS, Azure et GCP.

II. L’histoire croisée de Cloudera et Hadoop

Cloudera a été cofondée en 2008 par le mathématicien Jeff Hammerbach, un ancien de Bear Stearns puis de Facebook, où il était chargé de l’analyse de données et du développement de programmes permettant un meilleur ciblage publicitaire. Les autres cofondateurs sont Christophe Bisciglia ex-employé de Google, Amr Awadallah ex-employé de Yahoo qui travailla aussi sur Hadoop et Mike Olson, PDG de Cloudera. L’architecte en chef est Doug Cutting, à l’origine du moteur d’indexation Lucene et du framework distribué Hadoop.

En 2018 Cloudera fusionne avec son principal concurrent : Hortonworks. La firme amorce alors une réorientation d’activité pour s’ouvrir au monde du Cloud. Dernièrement Cloudera a été racheté par deux fonds d’investissement privés, KKR et Clayton Dubilier & Rice pour 5,3 milliards de dollars. Cela lui confère une solidité pour continuer son expansion de marché.

III. A quoi sert la plateforme Cloudera dans une infrastructure informatique ?

Cloudera depuis sa fusion avec Hortonworks met en avant sa plateforme de gestion de données : la Cloudera Data Plateform. Un mix plus efficace entre l’ancienne plateforme Cloudera CDH et celle d’Hortonworks, Horton Data Plateform.

La Cloudera Data Plateform permet une gestion unifiée, centralisée et hybride des infrastructures Big Data pour toutes les entreprises souhaitant traiter de la donnée. Orientée aussi bien IT que métiers, elle élargie pour ses clients les capacités d’analyse de la donnée sur tous les cas d’usage Data existant.

Synthèse des services et fonctionnalités accessibles sur la plateforme Cloudera :

Quelles sont les services et fonctionnalités de Cloudera ?

Vous pouvez également voir ici comment nous accompagnons les entreprises désireuses de passer sur CDP.

IV. Quelles sont les fonctionnalités majeures de la plateforme

 4 axes majeurs définissent cette plateforme : son orientation Cloud, l’intégration du cycle de la donnée de bout en bout, sa sécurité by design avec des capacités de gouvernance transverse et intégrable à n’importe quel outil via des connecteurs ou des ouvertures Open source.

  1. Cloud hybride et multi-cloud : opérer sur les clouds publics principaux et dans des clouds privés avec la même efficacité, simplicité et centralisation. On peut entendre par « Cloud privé », en interne dans le SI de l’entreprise.
  2. Analyses multifonctions : intègre la gestion et l’analyse du big data, partout et tout au long du cycle de vie des données.
  3. Sécurité et gouvernance : assure la sécurité, la conformité, la migration et la gestion des métadonnées dans tous les environnements.
  4. Plateforme ouverte : open source, dotée d’intégrations ouvertes, évolutive et compatible avec de nombreux data stores et architectures informatiques.

V. Concrètement, à quoi peut servir Cloudera pour une entreprise ?

Concrètement Cloudera vous apporte une étagère remplie d’outils de traitement et d’analyse de données interconnectés les uns aux autres, pour répondre à vos besoins projet.

Il est possible d’en sélectionner certains aujourd’hui et d’en ajouter de nouveaux ou modifier votre configuration initiale par la suite. Cloudera vous permet donc de modifier facilement votre infrastructure logicielle qui vous permet en réalité de comprendre les données qui sont en votre possession, sans impacter votre utilisation ou celle des autres utilisateurs.

Grâce à cette panoplie d’outils, il est facile de concevoir et de mettre à disposition de différentes typologie de métiers, de véritables Data Warehouse ou encore des Datalake , tout en garantissant un haut niveau de sécurité et traçabilité auprès des utilisateurs

Il est courant de voir graviter autour de ces environnements : Data engineer, Data analyste, Administrateur système ou Chief Data Officier (CDO, responsable des données). Pour ce qui est des secteurs, on vois les solutions Cloudera notamment dans les Telecoms, dans le retails ou encore dans les banques.

Les catégories de cas d’usage que l’on retrouve fréquemment ::

  • BI / Analytique : les technologies, applications et pratiques de collecte, d’intégration, d’analyse et de présentation de l’information
  • Data Visualisation : l’ensemble des outils permettant une restitution visuelle de la donnée
  • Machine Learning : apprentissage sur les données pour permettre de la prédiction
  • IA et DevOps : utilisation de système d’intelligence artificiel couplé au mouvement DevOps
  • Historisation et archivage des données

VI. Combien vous coûteront les services de la plateforme Cloudera ?

Malgré un modèle Open Source, Cloudera a un système de licence et de souscription pour utiliser ses produits.

Pour la version Private Cloud, on est sur un modèle de licence par serveur avec un seuil de mémoire et de processeurs qui déclenche des frais supplémentaires s’il est dépassé. L’engagement peut se faire sur un an ou plus et permet des rabais.

La version Public Cloud quant à elle se rapproche des modèles Cloud classiques, avec des crédits décomptés à la consommation (à l’heure) sur chaque machine virtuelle ou instance qui sera allumée. Un tel fonctionnement permet de mieux coller à l’usage ponctuel et fluctuant que peut être le calcul sur la donnée.

En d’autres termes et comme beaucoup de solutions IT, le modèle de licences et les besoins en ressource informatiques dont vous aurez besoin, conditionneront le coût que vous devrez supporter pour intégrer Cloudera à votre organisation.

VII. Quelques success stories

Nous avons vu émerger des cas d’usages fonctionnels dans différents domaines, tous liés à l’utilisation de la plateforme Cloudera et dans une configuration plus ou moins avancée

  1. Retail : collecte de données dans différents référentiels clients répartis dans plusieurs pays. Les données ainsi collectées étaient entreposées dans un Datalake central et utilisé de plusieurs manières :
    • Détection de fraude (multi achat)
    • Analyse comportement/tendance
    • Gestion des stocks
  2. Editeur de logiciel : collecte de données Open Data pour les associer à des données de l’entreprise au sein d’une plateforme Cloud flexible.
  3. Distribution: Mise à disposition par une DSI d’offres packagées aux filières cherchant à explorer leurs données

VIII. Se former à Cloudera : un gros challenge ?

Oui et non, la formation sur les produits Cloudera n’est pas compliqué en soit, mais elle nécessite d’y consacrer du temps. Des cours sont disponibles gratuitement et en ligne (vous pouvez les retrouver à cette adresse. Des formations certifiantes existent en France également et permettent un coup de boost à toute personne désireuse de se lancer dans l’aventure.

En réalité, les ressources ne manquent pas. Il ne tient qu’à soit de décrocher les certifications Cloudera et parmi lesquelles on retrouve :

CDP Generalist : qui englobe l’ensemble des fondamentaux pour tout type de profil CDP Certified Administrator Public Cloud : ciblant les administrateurs et architectes Cloud, elle valide le niveau nécessaire à la mise en place et l’administration de plateforme CDP Public Cloud

– (à venir) CDP Certified Data Developer : ciblant les développeurs, elle valide un niveau suffisant pour développer sur une plateforme Cloudera et permettre la mise en place de traitements sur les données

– (à venir) CDP Certified Data Analyst : Plus poussée que la certification Développeur, elle valide en plus une capacité d’architecture de développement et une garantie sur les bonnes pratiques dans un environnement Cloudera

Plus d’info

IX. Par où commencer ?

Vous êtes prêts, formés et convaincus que la plateforme Cloudera va être en mesure de vous accompagner pleinement dans vos projets d’analyse de données ?

Sachez qu’il existe des versions d’essai avant de franchir définitivement le pas. Il existe une version d’essai de la version Public Cloud, disponible pendant 2 jours dans le Cloud AWS de Cloudera.

Vous pouvez étendre votre période d’essai à 60 jours mais sur un Cloud où vous avez des accès. Plus d’élément ici.

La version Private Cloud est accessible pendant 60 jours via une licence Trial..