Accéder au contenu principal

Les 12 mythes d’Hadoop


Hadoop est la potion magique qu’on vous sert à toutes les sauces du Big Data et de l’entreprise numérique. Mais qu’est-ce que c’est en réalité ? Et surtout, qu’est-ce que ce n’est pas ?
Hadoop, c’est quoi ?
Au départ, c’est Apache Hadoop, une bibliothèque de logiciels open source utiles à construire un environnement distribué. Elle a un créateur : Doug Cutting (ci-contre) et la petite histoire dit que le nom vient du doudou éléphant de son fils. Mais son succès s’est entouré d’un certain nombre de mythes. En voici 12.
  1. Hadoop est un produit unique
  2. Hadoop, c’est du logiciel libre
  3. Hadoop se suffit à lui-même
  4. HDFS est un  SGBD
  5. Hadoop, c'est du full SQL
  6. Hadoop et MapReduce forment un duo inséparable
  7. MapReduce est un outil d’analytique
  8. Hadoop est surtout un traitement de gros volumes
  9. Hadoop remplace un data warehouse
  10. Le Big Data ne peut pas vivre sans Hadoop
  11. Hadoop est gratuit
  12. Hadoop est surtout un produit d’analytique web
Reprenons point par point:
Résumé d’une très bonne étude de TechTarget « Hadoop Myths Busted » sponsorisée par IBM et Syncsort 
1. « Hadoop est un produit unique » : non, il s’agit d’un ensemble de nombreux produits open source. On parle souvent de Hadoop à la place de sa couche HDFS, Hadoop Distributed File System.
2. « Hadoop, c’est du logiciel libre » : au départ oui mais aujourd’hui il est intégré dans de nombreuses offres propriétaires (IBM, Cloudera, EMC, etc.) qui incluent des fonctions d’administration ou de maintenance qui n’existent pas dans la version de base.
3. « Hadoop se suffit à lui-même » : non, c’est en fait un écosystème et de nombreux produits se développent autour de lui en provenance de multiples vendeurs.
4. « HDFS est un  SGBD » : non, pour être un système de gestion de bases de données complet,  il lui manque des fonctions importantes comme l’accès aléatoire via des index de requêtes.
5. « Hadoop, c'est du full SQL » : non , Hadoop utilise Apache Hive et HiveSQL qui est un SQL-like. Même si Hive est facile à apprendre, il y a un problème de compatibilité avec SQL, qui devrait néanmoins se résoudre rapidement.
6. « Hadoop et MapReduce forment un duo inséparable » : en fait MapRecuce a été développé par Google avant la création de HDFS. Et certains vendeurs ajoutent à MapReduce des fonctions qui ne nécessitent pas HDFS. Mais le duo reste une bonne combinaison
7. « MapReduce est un outil d’analytique » : non, il traite des données en parallèle (architecture MPP Massively Parallell Processing) et rassemble les résultats mais il ne fournit pas l’analytique elle-même. Il reste néanmoins un outil incroyablement puissant.
8. « Hadoop est surtout un traitement de gros volumes » : en fait, il est aussi très adapté à des structures diverses de données (semi-structurées ou non structurées) et pas seulement à du gros volume.
9. « Hadoop remplace un data warehouse » : non, c’est plutôt un complément qui incite les data warehouse à évoluer vers du traitement distribué.
10. « Hadoop est surtout un produit d’analytique web » : en réalité, il n’est pas réservé aux géants du web et peut être utilisé par tout type d’entreprise confrontée par exemple à des objets connectés. Néanmoins sa généralisation va prendre des années.
11. « Le Big Data ne peut pas vivre sans Hadoop » : faux ! Hadoop n’est pas la seule réponse. Il existe d’autres traitements du Big Data chez Teradata, Sybase IQ (SAP) ou encore Vertica (HP). Il existe aussi des développements de traitement du Big Data bien antérieurs à Hadoop, par exemple dans les télécoms.
12. « Hadoop est gratuit » : certes le logiciel est open source mais le déploiement et la mise en œuvre sont bien sûr spécifiques. Il manque des outils d’administration, qu’il faut créer ou acheter. Il lui manque un optimiseur et il lui faut des compétences humaines rares et chères. Sans compter bien sûr les coûts hardware et énergétiques du cluster.

Commentaires

Posts les plus consultés de ce blog

Concerné ou impliqué? La métaphore de l'oeuf au bacon

En attendant de répondre plus longuement à Baron(sur communication et information) qui me signale qu'elle est concernée voire impliquée... "Etre impliqué ou "être concerné"? : pour faire comprendre la différence à des gens, par exemple en séminaire de motivation des troupes, vous leur dites simplement: "Si vous voulez faire des oeufs au bacon, vous avez besoin, au départ, d'une poule et d'un cochon; la différence à l'arrivée, dans votre poèle, c'est que la poule est concernée mais le cochon, lui, est impliqué."

Newsletter Galerie Amavero art et poésie

Abonnez-vous à notre newsletter "Galerie Amavero art et poésie" sur Linkedin!  Vous aurez ainsi les dernières news et publications de poèmes écrits inspirés par des œuvres d'art contemporain, publiés côte à côte, œuvre et texte, sur notre galerie virtuelle. Nous en sommes à 27 artistes et 9 auteurs et le groupe grandit tous les jours! S’abonner Newsletter

Supprimer les DRM des ebooks: une solution qui marche

La plupart des soi-disant solutions qu'on vous propose pour supprimer les DRM  (Digital Rights Management), des ebooks, afin de pouvoir les lire sur le terminal/liseuse de votre choix, sont des copier-coller des mêmes remèdes. Ceux-ci ont un seul défaut: ils ne sont pas mis à jour et donc ils ne marchent plus dès que les éditeurs, comme s'ils n'avaient pas mieux à faire, par exemple élargir leur bibliothèque ridicule d'ebooks,  s'amusent à renforcer leurs DRM ces soi-disant droits de protection antipiratage qui ne sont que des abus du droit et qui devraient être interdits. Bref j'ai trouvé et testé une solution qui marche, dans ma configuration actuelle: logiciel de gestion de bibliothèque d'ebooks Calibre 1.47, sous Mac OS 10.9.4. Mais il y a aussi des solutions Windows. Cette solution est décrite sur le blog Apprentice Alf's Blog et il propose les liens suivants: "The latest tools_v6.0.8.zip can be downloaded from http://www1.datafilehost.c