Autheurs :
- BLAUDEAU Matthieu
- BROSSARD Victor
- HAJJI Amin
Ce projet, réalisé dans le cadre du cours Gestion des données distribuées à large échelle de Pascal Molli, a pour objectif d'évaluer les performances de l'algorithme PageRank en comparant deux implémentations :
- PySpark DataFrame
- PySpark RDD
- Comparer les performances entre DataFrame et RDD avec et sans partitionnement.
- Tester différentes configurations de clusters :
- 1 nœud
- 2 nœuds
- 4 nœuds
(en maintenant une parité matérielle : CPU/RAM par nœud constante).
- Identifier l'entité avec le plus grand score de PageRank.
Nous nous sommes inspiré du code disponible sur ce GitHub :
https://github.com/momo54/large_scale_data_management
Pour lancer les scripts bash, il faut spécifier en premier argument l'id du projet. Les résultats de temps s'affichent alors dans le terminal (entre les autres outputs)
Le temps total d'exécution du programme python pagerank_dataframe est de 99s. Pour ce qui est de l'autre algorithme, nous n'avons pas réussi à résoudre un problème qui nous a empêché d'obtenir les informations attendues.