--- title: "Exercices : concepts de probabilités" subtitle: "Probabilités et statistique pour la biologie : éléments (STAT1)" author: "Jacques van Helden" date: '`r Sys.Date()`' output: slidy_presentation: slide_level: 2 self_contained: no fig_caption: yes fig_height: 6 fig_width: 7 highlight: tango incremental: no keep_md: yes smaller: yes theme: cerulean toc: yes widescreen: yes ioslides_presentation: slide_level: 2 self_contained: no colortheme: dolphin fig_caption: yes fig_height: 6 fig_width: 7 fonttheme: structurebold highlight: tango smaller: yes toc: yes widescreen: yes beamer_presentation: colortheme: dolphin fig_caption: yes fig_height: 6 fig_width: 7 fonttheme: structurebold highlight: tango incremental: no keep_tex: no slide_level: 2 theme: Montpellier toc: yes html_document: self_contained: no fig_caption: yes highlight: zenburn theme: cerulean toc: yes toc_depth: 3 toc_float: yes pdf_document: fig_caption: yes highlight: zenburn toc: no toc_depth: 3 font-import: http://fonts.googleapis.com/css?family=Risque font-family: Garamond transition: linear --- ```{r include=FALSE, echo=FALSE, eval=TRUE} options(width = 300) # options(encoding = 'UTF-8') knitr::opts_chunk$set( fig.width = 7, fig.height = 5, fig.path = 'figures', fig.align = "center", size = "tiny", echo = TRUE, eval = TRUE, warning = FALSE, message = FALSE, results = TRUE, comment = "") # knitr::asis_output("\\footnotesize") ``` ## Exercice 03.1: tirage de tétranucléotides dans un génome On tire aléatoirement une position génomique et on analyse le tétranucléotide qui y démarre. Quelles sont les probabilités respéctives d'observer chacun aux critères suivants ? a. Etre composé uniquement de $A$. b. Ne comporter aucun $A$. c. Etre composé de 4 résidus distincts. Formulez explicitement le raisonnement qui vous amène à la formule de calcul. Indiquez ensuite la formule générale (avec des symboles), puis la formule particulière avec les valeurs numériques. Il n'est pas nécessaire de calculer le résultat final. ## Exercice 03.2 : absence d'un résidu Quelle est la probabilités de n'observer aucun $A$ dans un oligonucléotide de taille 12 ? a. En supposant des nucléotides équiprobables. b. Selon un modèle de Bernoulli généralisé dont les paramètres sont estimés à partir des fréquences génomiques suivantes. | Résidu | Occurrences génomiques | Fréquence génomique | |-------|----------------|---------------| | A | 3766191 | 0.3098064564636 | | C | 2320522 | 0.1908858838986 | | G | 2316991 | 0.1905954242278 | | T | 3752889 | 0.3087122354100 | ## Exercice 03.3 : probabilité d'une purine On tire un nucléotide au hasard dans le génome de la levure. En se basant sur base des fréquences génomiques de l'exercice précédent, quelle est la probabilité de tirer une purine ($A$ ou $G$) ? Justifiez vos choix. ## Exercice 03.4 : motif dégénéré, nucléotides équiprobables En supposant qu'une séquence est composée de résidus équiprobables, quelle est la probabilité du motif $GATWNA$ ($W$ signifie "$T$ ou $A$", et $N$ correspond à n'importe quel nucléotide) ? ## Exercice 03.5 : motif dégénéré, nucléotides non-équiprobables Même question en supposant les probabilités distinctes pour les nucléotides: $\operatorname{P}(A) = \operatorname{P}(T) = 0.3$, $\operatorname{P}(C) = \operatorname{P}(G)$ (à vous de calculer ces dernières).