Les champs du fichier log à traiter sont séparés par des tabulations et ont la forme suivante:
- date temps magasin produit coût paiement
Le but de cette activite est de déterminer le total des ventes par magasin pour cela on développe :
- un Mapper afin d'extraire les couples (magasin,coût)
- Un Reducer pour calculer le total des ventes pour chaque magasin
Le but de cette activite est de donner la liste des ventes par catégorie de produits pour cela on développe :
- un Mapper afin d'extraire les couples (produit,coût)
- Un Reducer pour calculer le total des ventes pour chaque produit
Le but de cette activite est de donner le montant de la vente le plus élevé pour chaque magasin pour cela on utilise :
- Le Mapper implémenté à l'activité 4
- Un Reducer pour déterminer le montant de la vente le plus élevé pour chaque magasin
Le but de cette activite est de déterminer le nombre total des ventes et la valeur totale des ventes de tous magasins confondus pour cela on utilise :
- Le Mapper qui aura pour résultat les couples ("Total",cout)
- Un Reducer pour calculer le nombre total des ventes et la somme des couts de tous les magasins le resultat est un couple ("Total",NombreVentes__TotalVente)
##Tester en local
-
Ajouter les jar suivants au projets : slf4j-nop httpclient jackson-core-asl jackson-mapper-asl
-
Dans l'onglet Arguments de la fenetre Run configuration spécifier les arguments (le fichier log et le repertoire du résultat) à utiliser lors de l'execution
-
Aprés l'execution du programme le resultat sera stocké dans le fichier part-r-00000 sous le répertoire du résultat
##Tester sur HDFS
-
Exporter le jar du projet JAVA
-
Créer un répertoire pour stocker le fichier des données : hadoop fs -mkdir /input
-
Mettre le fichier en entrée sous le répertoire crée sur HDFS : hadoop fs –put [fichier des données] /input
hadoop fs -put purchases.txt input/
-
Executer la commande suivante: hadoop jar [jar du projet] [Nom du point d'entrée main dans le jar] [fichier des données] [répertoire du résultat] hadoop jar Tp1-A5.jar StubDriver input/purchases.txt output
-
Visualiser le résulat dans le ficher part-r-00000 sous le répertoire du résultat hadoop fs -cat output/part-r-00000