![En tête general](https://raw.githubusercontent.com/PythonLycee/PyLyc/master/img/En_tete_general.png)


<i>© Copyright Franck CHEVRIER 2019-2021 https://www.python-lycee.com.</i><br>
<i>Les activités partagées sur <a href="https://capytale2.ac-paris.fr/web/accueil"><strong>Capytale</strong></a> sont sous licence <a href="https://creativecommons.org/licenses/by-sa/3.0/fr/">Creative Commons</a>.</i>

<span style="color: #9317B4"> Pour exécuter une saisie Python, sélectionner la cellule et valider avec </span><span style="color: #B317B4"><strong>SHIFT+Entrée</strong></span>.


# Algorithme du surfeur aléatoire <span style="color: red"> (corrigé)</span> 


Elaboré par Larry Page et Sergey Brin, <a href="https://fr.wikipedia.org/wiki/PageRank">l’algorithme de Pagerank</a> a permis à <a href="https://fr.wikipedia.org/wiki/Google">Google</a>, nouvel arrivant, de prendre en quelque mois le monopole des moteurs de recherche thématique. 

L’idée est d'attribuer à chaque page une « note » ou « score » ou « Pagerank » entre 0 et 1 qui caractérise la pertinence de cette page, en respectant les règles suivantes :
<ul>
    <li> <strong>R1:</strong> Le score attribué à une page doit être d’autant plus élevé que celle-ci est référencée dans une page faisant autorité (dont le score est élevé).</li>
    <li> <strong>R2:</strong> Le score attribué à une page doit être d’autant moins élevé que celle-ci est référencée dans une page contenant un grand nombre de références.</li>
</ul>

Le but de l'activité est de présenter une version simplifiée du PageRank : L'algorithme du surfeur aléatoire.

## 1. Modélisation à l'aide d'un graphe, introduction de l'algorithme

Pour modéliser les interconnexions entre différentes pages, on utilise un <strong>graphe orienté</strong> dans lequel :
<ul>
    <li> les <strong>sommets</strong> du graphe (numérotés) correspondent aux pages identifiées comme comprenant les mots clés ;</li>
    <li> Les <strong>arêtes orientées</strong> (flèches) correspondent aux liens hypertextes existant d'une page à une autre.</li>
</ul>



<span style="color:#AA11AA"><strong>Question 1 :</strong></span>

<span style="color:#AA11AA">Le <strong>graphe G1</strong> ci-dessous correspond à une situation de 4 pages. Par exemple, la page 2 propose des liens vers les pages 1 et 4.</span>

<span style="color:#AA11AA">Recopier le tableau et suivre les instructions suivantes pour le remplir :</span>

<ul style="color:#AA11AA ; list-style-type: None">
    <li> <strong>1.a</strong> Choisir une des 4 pages comme point de départ ; </li>
    <li> <strong>1.b</strong> A l'aide d'un dé, simuler 30 déplacements aléatoires équiprobables vers d'autres pages, en notant le nombre de passages pour chaque page (Aide/Exemple : Si on se situe sur le sommet 1, il y a 3 possibilités de déplacement. On attribue donc 2 faces du dé à chaque déplacement) ;</li>
    <li> <strong>1.c</strong> Attribuer une note à chaque page : diviser le nombre de passages sur la page par le nombre total de pages visitées ; </li>
    <li> <strong>1.d</strong> Proposer un classement des 4 pages. </li>
</ul>   

![GrapheG1](https://raw.githubusercontent.com/PythonLycee/PyLyc/master/SNT/img/surfeur_schema1.png)

<span style="color: red"><strong> Le classement obtenu est en général : 2 - 4 - 1 - 3 mais peut peut varier suivant la simulation. </strong></span>





## 2. Automatisation : Implémentation de l'algorithme en Python

En langage Python, on modélise le graphe G1 précédent à l'aide de la structure <mark><strong>Liens_G1</strong></mark> donnée ci-dessous.

<span style="color:#AA11AA"><strong>Question 2 :</strong> Expliquer brièvement comment les informations du graphe sont codées dans <mark style="color:#AA11AA"><strong>Liens_G1</strong></mark>.</span>

<span style="color: red"><strong> Chaque numéro de sommet est suivi d'une liste contenant les sommets vers lesquels il pointe. </strong></span>




La fonction <mark><strong>parcours(Liens,n)</strong></mark> fournie permet, lorsqu’on a défini une liste de liens, de simuler un parcours dans le graphe, avec n visites de pages, en comptant le nombre de fois que chaque sommet est visité.

<em style="color:#A9A9A9">Attention : Penser à exécuter la zone ci-dessous (et les suivantes) avec <strong>SHIFT+Entrée</strong></em>. 

In [1]:
#Structure permettant de modéliser le graphe G1
Liens_G1 = { 1:[2,3,4] , 2:[1,4] , 3:[1,4] , 4:[2] }

#Cette instruction permet d'utiliser des fonctions de choix aléatoires
from random import*

def parcours(Liens,n):
    """
    Cette fonction simule un parcours de n pages 
    Les pages sont numérotés 1,2,...
    Les arêtes sont définies par les Liens
    """
    #On choisit un sommet de départ au hasard
    Sommet=randint(1,len(Liens))
    
    # Initialisation des compteurs du nombre de passages pour chaque sommet
    # 1:0  2:0  ...
    Passages = {S:0 for S in Liens}
    
    #On répète n fois:
    for k in range(n):
        #on change de sommet
        Sommet = choice(Liens[Sommet])
        #on incrémente le compteur du sommet visité (augmente de 1)
        Passages[Sommet] += 1
    
    #La fonction renvoie les compteurs
    return Passages


<span style="color:#AA11AA"><strong>Question 3 :</strong></span>
    
<span style="color:#AA11AA">Exécuter l'appel à la fonction <mark style="color:#AA11AA"><strong>parcours</strong></mark> ci-dessous. A l'aide du résultat, proposer un classement des 4 pages du graphe G1, et comparer avec la réponse à la question 1.</span>

<span style="color: red"><strong> On retrouve le classement : 2 - 4 - 1 - 3. </strong></span>


In [2]:
#Simulation du surfeur aléatoire pour le graphe G1
parcours(Liens_G1,100000)

{1: 23020, 2: 38465, 3: 7694, 4: 30821}

<span style="color:#AA11AA"><strong> Question 4 : </strong></span>
    
<span style="color:#AA11AA"> On considère le <strong>graphe G2</strong> ci-dessous, qui modélise les liens entre 6 pages. </span>

![GrapheG2](https://raw.githubusercontent.com/PythonLycee/PyLyc/master/SNT/img/surfeur_schema2.png)

<span style="color:#AA11AA"><strong> 4.a </strong> Définir une structure <mark style="color:#AA11AA"><strong>Liens_G2</strong></mark> correspondant à ce graphe.</span>    


In [3]:
#Créer une structure permettant de modéliser le graphe G2
Liens_G2 = { 1:[5] , 2:[1,3,5] , 3:[1,6] , 4:[1,5] , 5:[2,3,4,6] , 6:[5] }

<span style="color:#AA11AA"><strong> 4.b </strong> A l'aide d'un appel à la fonction <mark style="color:#AA11AA"><strong>parcours</strong></mark>, compléter le tableau.</span> 

<span style="color: red"><strong> Le tableau dépend de la simulation, mais permet d'établir le classement suivant pour les pages: 5 - 6 - 1 - 3 - 2 = 4 </strong></span>

In [11]:
#Effectuer un appel à la fonction parcours
parcours(Liens_G2,100000)

{1: 14165, 2: 9610, 3: 12707, 4: 9451, 5: 38083, 6: 15984}


<span style="color:#AA11AA"> On considère le <strong>graphe G3</strong> obtenu en remplaçant, sur le graphe G2, le lien de la page 1 vers la page 5 par un lien de la page 1 vers la page 3.</span>
    
<span style="color:#AA11AA"><strong> 4.c </strong> Tracer le graphe G3 et créer la structure <mark style="color:#AA11AA"><strong>Liens_G3</strong></mark> correspondante.</span>


In [8]:
#Créer une structure permettant de modéliser le graphe G2
Liens_G3 = { 1:[3] , 2:[1,3,5] , 3:[1,6] , 4:[1,5] , 5:[2,3,4,6] , 6:[5] }

<span style="color:#AA11AA"><strong> 4.d </strong> À l'aide d'un appel à la fonction <mark style="color:#AA11AA"><strong>parcours</strong></mark>, réaliser pour G3 un tableau similaire au précédent.</span>    

<span style="color: red"><strong> Le tableau dépend de la simulation, mais permet d'établir le classement suivant pour les pages: 3 - 5 - 6 - 1 - 2 = 4 </strong></span>

In [19]:
#Effectuer un appel à la fonction parcours
parcours(Liens_G3,100000)

{1: 18110, 2: 6139, 3: 26194, 4: 6017, 5: 24288, 6: 19252}


<span style="color:#AA11AA"><strong> 4.e </strong> Vérifier que, par rapport au graphe G2, les notes des pages 1 et 3 ont augmenté. Expliquer ce phénomène. </span> 

<span style="color: red"><strong> La note de la page 3 a augmenté car elle est référencée par une page supplémentaire et a donc plus de chances d'être atteinte. Comme cette page 3 pointe sur la page 1 avec une probabilité 1/2, l'augmentation de sa note entraîne indirectement une augmentation de la note de la page 1. </strong></span>


<span style="color:#AA11AA"><strong> Question 5 : </strong></span>
    
<span style="color:#AA11AA"> On considère le <strong>graphe G</strong> ci-dessous, qui modélise les liens entre 5 pages. </span>

![GrapheG](https://raw.githubusercontent.com/PythonLycee/PyLyc/master/SNT/img/surfeur_schema3.png)

<span style="color:#AA11AA"><strong> 5.a </strong> Si on supprime le lien de la page 5 vers la page 3, pensez-vous que la note de la page 4 va augmenter ou diminuer ? Justifier brièvement la réponse.</span>

<span style="color: red"><strong> Si on supprime le lien de la page 5 vers la page 3, la page 5 ne pointera plus que vers la page 4, ce qui va augmenter la note de la page 4. Ceci est d'autant plus vraie que la page 5 est fortement référencée et aura donc elle-même une note élevée. </strong></span>


<span style="color:#AA11AA"><strong> 5.b </strong> Effectuer les saisies Python nécessaires pour vérifier votre réponse.</span>    


In [27]:
#Effectuer les saisies nécessaires

Liens_G={ 1:[5] , 2:[1,3,5] , 3:[2,4] , 4:[3,5] , 5:[3,4] }
Liens_G_modif={ 1:[5] , 2:[1,3,5] , 3:[2,4] , 4:[3,5] , 5:[4] }

N=100000
T1=parcours(Liens_G,N)
T2=parcours(Liens_G_modif,N)

Conclusion="Une simulation avec "+str(N)+" déplacements donne: \n   -le tableau "+str(T1)+" pour le graphe G initial\n   -le tableau "+str(T2)+" pour le graphe G modifié.\nLa note du sommet 4 est donc passée de "+str(T1[4]/N)+" à "+str(T2[4]/N)
print(Conclusion)


Une simulation avec 100000 déplacements donne: 
   -le tableau {1: 4893, 2: 14969, 3: 30079, 4: 26763, 5: 23296} pour le graphe G initial
   -le tableau {1: 3700, 2: 11068, 3: 22217, 4: 37082, 5: 25933} pour le graphe G modifié.
La note du sommet 4 est donc passée de 0.26763 à 0.37082


<i>© Copyright Franck CHEVRIER 2019-2021 https://www.python-lycee.com.</i><br>
<i>Les activités partagées sur <a href="https://capytale2.ac-paris.fr/web/accueil"><strong>Capytale</strong></a> sont sous licence <a href="https://creativecommons.org/licenses/by-sa/3.0/fr/">Creative Commons</a>.</i>