Benchmark de datalake, Ansible Automates et Web scrapping JS : le mix Big Data / DevOps dans tout son art

Par Hadrien Puissant - Publié le Modifié le

Le Big Data évolue très vite. Les technologies DevOps aussi. Ansible, Datalake et WebScrapper, voici une sélection de ce qui nous a marqué en février :

Ansible Automates

Nous utilisons cet outil pour déployer les infrastructures Big Data de nos clients. C’est pourquoi nous sommes allés à l’Ansible Automates Paris, à l’hôtel Pullman à Montparnasse. Et quoi de mieux que les développeurs du produit pour en parler ? Plusieurs sujets abordés : Roadmap, best practices, démo et Ansible Tower 3.

Retrouvez nos live tweets de la journée sur : https://twitter.com/Ingensi

Comparaison des formats / outils de stockage dans un datalake

Le CERN a décidé de faire concourir 4 outils :

Ces tests nous apprennent que Parquet et Kudu avec Snappy sont en tête pour l’efficacité de stockage. HBase et Kudu s’imposent pour du random access, Parquet et Kudu permettent de meilleurs analyses de données tandis que HBase et Kudu offrent la possibilité de modifier les données.

Plus de détails sur les performances des ces 4 outils de Datalake 

Extraire les données d’un site en 3 minutes avec Javascript

Le BigData est de plus en plus gourmand en « data ». Pour faciliter l’extraction des pages web, voici un article qui explique en quelques minutes comment coder en Javascript un webscrapper.

Source

On peut facilement imaginer pousser ces données dans un datalake, afin de les traiter a posteriori ou pour enrichir des traitements de données.

Intéressé ?

Si ces problématiques vous intéressent, contactez nous pour en discuter !

Soit sur Twitter via @cyresgroupe ou directement sur notre site

 

Crédit photo : Created by Freepik

 

___

Explore, enrich, make data yours !

___

Cet article vous a plus ?

Inscrivez-vous à notre newsletter pour être alerté de nos prochaines news !

Taggué avec

KEEP CALM & DataOps now

Page Linkedin Cyrès

Facebook

Twitter

07/09/2018 @ 13:04
Comment exploiter les données d’une plateforme #SharePoint depuis les applications #Office365 ? Installation d'une passerelle de données locale, gestion des tests, création d'un flux de validation. Nos explications dans cet article :
https://t.co/DFai82DqJp #PowerApps #Flow https://t.co/mkO2gmIE9g
cyresgroupe photo
07/04/2018 @ 7:19
[Infrastructures sécurisées | Offre complète de services IT | Support technique expérimenté et disponible] Vous recherchiez un programme de partenariat adapté à votre activité pour servir au mieux vos clients ? https://t.co/FY8k9c0P9c
#marqueblanche #revendeur #partenariat https://t.co/n7h5dbuUtX
cyresgroupe photo

Calendrier

juillet 2018
LMMJVSD
« Mai  
 1
2345678
9101112131415
16171819202122
23242526272829
3031