Rendu

4 points

Vous devez rédiger un compte-rendu de TP sous la forme d’un document R markdown. Les fichiers .Rmd et .html seront à déposer sur Moodle. Les fichiers .csv doivent être lues dans le même répertoire que le fichier .Rmd. La notation sur cette partie prendra en compte la présence ou non d’erreurs à la compilation, la clarté du document et la qualité du rendu.

Importation des données

4 points

Vous devez importer les quatre fichiers suivants :

Dans le fichier groupe.csv, il faut faire attention à la présence d’apostrophe ("'") dans certains mots. La fonction read.table() considère ce caractère comme un début (ou une fin) de chaîne de caractères. Il faut donc modifier l’option quote pour indiquer qu’il n’y a pas de caractères pour les chaînes de caractères dans ce fichier.

Manipulation

6 points (3 points par question)

Informations complètes

Ces quatre tables constituent un data-mart simple d’un magasin fictif. ca est la table des faits, et les trois autres sont les tables de dimension. Dans chaque table, la clé primaire est dénommée no. Dans la table ca, les clés externes sont dénommées dim_no, dim étant remplacé par le nom de la dimension bien évidemment. Voici donc le modèle relationnel des données de ce data-mart.

## Warning in polygon(xy[, 1], xy[, 2], lwd = lwd, col = box.col, border =
## lcol, : "cex.csv" n'est pas un paramètre graphique

## Warning in polygon(xy[, 1], xy[, 2], lwd = lwd, col = box.col, border =
## lcol, : "cex.csv" n'est pas un paramètre graphique

## Warning in polygon(xy[, 1], xy[, 2], lwd = lwd, col = box.col, border =
## lcol, : "cex.csv" n'est pas un paramètre graphique

## Warning in polygon(xy[, 1], xy[, 2], lwd = lwd, col = box.col, border =
## lcol, : "cex.csv" n'est pas un paramètre graphique

Pour pouvoir faire des analyses, il faut donc réaliser une jointure entre ces quatre tables. Le résultat des jointures doit être stockée dans un data.frame nommée ca_tout.

Comparaison entre année

Nous souhaitons pouvoir comparer les deux années, pour évaluer l’évolution du chiffre d’affaires. Pour cela, vous devez créer un data.frame, nommé ca_evol, qui contient donc, pour chaque mois, provenance et groupe, le CA en 2003 (ca2003), en 2004 (ca2004) et l’évolution entre les deux (evolution, égale à la différence entre ca2004 et ca2003).

Informations sur le CA

6 points (1 point par question, sauf pour la dernière, 2 points)

La table ainsi créée contient donc toutes les informations concernant le chiffre d’affaires de l’entreprise, déclinée par chaque dimension. Nous pouvons donc obtenir les informations suivantes. Les résultats sont à présenter sous la forme de tableaux.

  1. Chiffre d’affaires total sur l’ensemble de la période
  2. CA total par provenance
  3. CA total par année d’exercice
  4. CA total par mois dans l’année,
    • en faisant attention à la présentation dans l’ordre des mois, cf l’attribut mois_numero
    • il faut donc ici un tableau à 12 lignes, une par mois, et deux colonnes, la deuxième colonne contenant le CA total pour chaque mois sur les deux ans
  5. CA total par mois pour 2003 et 2004
    • tableau à 4 colonnes : mois, ca2003, ca2004, évolution