vendredi 27 septembre 2013

Les 12 mythes d’Hadoop


Hadoop est la potion magique qu’on vous sert à toutes les sauces du Big Data et de l’entreprise numérique. Mais qu’est-ce que c’est en réalité ? Et surtout, qu’est-ce que ce n’est pas ?
Hadoop, c’est quoi ?
Au départ, c’est Apache Hadoop, une bibliothèque de logiciels open source utiles à construire un environnement distribué. Elle a un créateur : Doug Cutting (ci-contre) et la petite histoire dit que le nom vient du doudou éléphant de son fils. Mais son succès s’est entouré d’un certain nombre de mythes. En voici 12.
  1. Hadoop est un produit unique
  2. Hadoop, c’est du logiciel libre
  3. Hadoop se suffit à lui-même
  4. HDFS est un  SGBD
  5. Hadoop, c'est du full SQL
  6. Hadoop et MapReduce forment un duo inséparable
  7. MapReduce est un outil d’analytique
  8. Hadoop est surtout un traitement de gros volumes
  9. Hadoop remplace un data warehouse
  10. Le Big Data ne peut pas vivre sans Hadoop
  11. Hadoop est gratuit
  12. Hadoop est surtout un produit d’analytique web
Reprenons point par point:
Résumé d’une très bonne étude de TechTarget « Hadoop Myths Busted » sponsorisée par IBM et Syncsort 
1. « Hadoop est un produit unique » : non, il s’agit d’un ensemble de nombreux produits open source. On parle souvent de Hadoop à la place de sa couche HDFS, Hadoop Distributed File System.
2. « Hadoop, c’est du logiciel libre » : au départ oui mais aujourd’hui il est intégré dans de nombreuses offres propriétaires (IBM, Cloudera, EMC, etc.) qui incluent des fonctions d’administration ou de maintenance qui n’existent pas dans la version de base.
3. « Hadoop se suffit à lui-même » : non, c’est en fait un écosystème et de nombreux produits se développent autour de lui en provenance de multiples vendeurs.
4. « HDFS est un  SGBD » : non, pour être un système de gestion de bases de données complet,  il lui manque des fonctions importantes comme l’accès aléatoire via des index de requêtes.
5. « Hadoop, c'est du full SQL » : non , Hadoop utilise Apache Hive et HiveSQL qui est un SQL-like. Même si Hive est facile à apprendre, il y a un problème de compatibilité avec SQL, qui devrait néanmoins se résoudre rapidement.
6. « Hadoop et MapReduce forment un duo inséparable » : en fait MapRecuce a été développé par Google avant la création de HDFS. Et certains vendeurs ajoutent à MapReduce des fonctions qui ne nécessitent pas HDFS. Mais le duo reste une bonne combinaison
7. « MapReduce est un outil d’analytique » : non, il traite des données en parallèle (architecture MPP Massively Parallell Processing) et rassemble les résultats mais il ne fournit pas l’analytique elle-même. Il reste néanmoins un outil incroyablement puissant.
8. « Hadoop est surtout un traitement de gros volumes » : en fait, il est aussi très adapté à des structures diverses de données (semi-structurées ou non structurées) et pas seulement à du gros volume.
9. « Hadoop remplace un data warehouse » : non, c’est plutôt un complément qui incite les data warehouse à évoluer vers du traitement distribué.
10. « Hadoop est surtout un produit d’analytique web » : en réalité, il n’est pas réservé aux géants du web et peut être utilisé par tout type d’entreprise confrontée par exemple à des objets connectés. Néanmoins sa généralisation va prendre des années.
11. « Le Big Data ne peut pas vivre sans Hadoop » : faux ! Hadoop n’est pas la seule réponse. Il existe d’autres traitements du Big Data chez Teradata, Sybase IQ (SAP) ou encore Vertica (HP). Il existe aussi des développements de traitement du Big Data bien antérieurs à Hadoop, par exemple dans les télécoms.
12. « Hadoop est gratuit » : certes le logiciel est open source mais le déploiement et la mise en œuvre sont bien sûr spécifiques. Il manque des outils d’administration, qu’il faut créer ou acheter. Il lui manque un optimiseur et il lui faut des compétences humaines rares et chères. Sans compter bien sûr les coûts hardware et énergétiques du cluster.

Aucun commentaire:

Enregistrer un commentaire