Spark 3 : Adaptive Query Execution, explication et optimisation
J’ai assisté à un webinar Cloudera sur le tuning des performances d’applications Spark proposé par François Reynald, un des Senior Technical Instructor de Cloudera, il a d’ailleurs écrit cet article sur comment Spark 3 améliore les performances des SQL workloads. Et dans l’un des précédents articles du blog Cyrès, j’avais évoqué les principales nouveautés de …
Continuer la lecture de « Spark 3 : Adaptive Query Execution, explication et optimisation »
Cyrès devient le 1er partenaire de GitLab en France
Cyrès vient d’annoncer son partenariat avec GitLab, l’éditeur de la plateforme opensource, et devient ainsi la première société française certifiée par le leader de la gestion de code sources.
Cas d’usage Nifi : pagination REST, Jolt et monitoring
Contexte A Cyrès, nous gérons la saisie des temps via un outil pratique et puissant : Toggl. Dans le cadre de l’amélioration du reporting, m’est venu l’idée d’intégrer les rapports CSV de cet outil, au sein de notre plateforme interne Cloudera. L’objectif de ce cas d’usage Nifi étant de pouvoir faire gagner du temps aux responsables …
Continuer la lecture de « Cas d’usage Nifi : pagination REST, Jolt et monitoring »
GitLab 13.8 – Quoi de neuf ?
Avec la fin du mois, arrive comme d’habitude la nouvelle mouture de GitLab. Et cette version 13.8 va en ravir plus d’un ! En effet, cette nouvelle version apporte plus de 50 nouvelles fonctionnalités […]
Gouvernance des données : CDP et Ranger, le Data Masking simplement
Introduction Que vos bases de données contiennent des données sensibles liées au bancaire, à la santé, aux données personnelles d’utilisateurs ou que vous ayez simplement à cœur de mettre en place une bonne gouvernance des données, vous allez sans doute devoir anonymiser vos données. Le data masking est une pratique qui peut être difficile à …
Continuer la lecture de « Gouvernance des données : CDP et Ranger, le Data Masking simplement »
GitLab 13.7 – Quoi de neuf ?
Pour finir l’année en beauté, GitLab nous fournit sa dernière mouture de notre outil préféré, la version 13.7. Celle-ci est livrée avec pas moins de 45 nouvelles fonctionnalités et améliorations.
Monitoring Nifi via streaming de bulletin dans Hive 3
Contexte Dans le cadre du suivi de production et le monitoring Nifi, je vais vous présenter un moyen que nous utilisons pour sauvegarder l’ensemble des évènements « bulletin » au sein d’un cluster Nifi. Après avoir évoqué les enjeux, je vous présenterai l’implémentation technique ainsi qu’une alternative avec Impala. Composants utilisés CDP Private Cloud 7.1.2 …
Continuer la lecture de « Monitoring Nifi via streaming de bulletin dans Hive 3 »
Architecture Druid
Apache Druid est une base de données analytique axé temps réel offrant la possibilité de persister des quantités de données immenses et d’en extraire de l’information à une vitesse hallucinante, le tout couvrant de nombreux use cases, Druid aurait donc tout pour plaire. Creusons l’architecture d’apache Druid ensemble. La dernière version stable de Druid est …
Surdimensionnement de l’infrastructure : un facteur contre-productif en Big Data et Datascience
Dans le Big Data, la tendance dans les entreprises est de se concentrer sur les aspects d’analyse de la donnée, sans beaucoup se préoccuper du « moteur ». Pourtant, l’infrastructure est un élément tout à fait essentiel pour qui entend réussir sur le long terme.
Certifié ISO 27001 et HDS, Cyrès complète sa gamme de services sécurité
Les certifications ISO 27001 et HDS concrétisent la stratégie de développement entamée depuis 3 ans au sein de Cyrès. Entre datacenter de proximité Tiers III, maîtrise historique des environnements informatiques et audits sécurité et globalisés, Cyrès garantit aux entreprises et aux établissements publics un écosystème conforme à leurs enjeux.