{ "cells": [ { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" }, "tags": [] }, "source": [ "<figure> \n", "<img src=\"../Imagenes/logo-final-ap.png\" width=\"80\" height=\"80\" align=\"left\"/> \n", "</figure>\n", "\n", "# <span style=\"color:blue\"><left>Aprendizaje Profundo</left></span>" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "# <span style=\"color:red\"><center>Introducción al concepto de $q$-dimensión</center></span>" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "<figure>\n", " <center>\n", " <img src=\"../Imagenes/Flat_earth.png\" width=\"400\" height=\"300\" align=\"center\"/> \n", " <figcaption>\n", " </figcaption>\n", " </center>\n", "</figure>\n", "\n", "Fuente: <a href=\"https://commons.wikimedia.org/wiki/File:Flat_earth.png\">Trekky0623 at English Wikipedia ("I made this map myself")</a>, Public domain, via Wikimedia Commons" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" }, "tags": [] }, "source": [ "## <span style=\"color:blue\">Autores</span>" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "1. Alvaro Montenegro, PhD, ammontenegrod@unal.edu.co\n", "1. Daniel Montenegro, Msc, dammontenegrore@unal.edu.co\n" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## <span style=\"color:blue\">Asesora de Medios y Marketing</span>" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "1. Maria del Pilar Montenegro, pmontenegro88@gmail.com" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## <span style=\"color:blue\">Referencias</span>" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "\n", "1. [Christofer. M. Bishop, *Pattern Recognition and machine Learning*, first edition,Springer, 2006](http://libgen.rs/search.php?req=Pattern+Recognition+and+machine+Learning&open=0&res=25&view=simple&phrase=1&column=def).\n", "1. [John A. Lee and Michel Verleysen. *Nonlinear dimensionality reduction*. Springer, first edition, 2007](ibgen.rs/search.php?req=Nonlinear+dimensionality+reduction+Springer&open=0&res=25&view=simple&phrase=1&column=def).\n", "1. [Christopher J. C. Burges, *Dimension Reduction: A Guided Tour*, Foundations and Trends in Machine Learning, Vol. 2, No. 4 (2009) 275–365](https://www.researchgate.net/publication/220416606_Dimension_Reduction_A_Guided_Tour).\n", "\n" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## <span style=\"color:blue\">Contenido</span>" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "* [Introducción](#Introducción)\n", "* [Cuatro métodos de reducción de dimensiones aplicados a datos genómicos](#Cuatro-métodos-de-reducción-de-dimensiones-aplicados-a-datos-genómicos)\n", "* [Concentración de las distancias en espacions n-dimensionales](#Concentración-de-las-distancias-en-espacios-n-dimensionales)\n", " * [Teorema](#Teorema)\n", "* [Propósitos de la reducción de dimensiones](#Propósitos-de-la-reducción-de-dimensiones)\n", "* [ Reducción de dimensiones y reconstrucción de errores](#Reducción-de-dimensiones-y-reconstrucción-de-errores)\n", "* [Un ejemplo: Análisis de Componentes Principales (PCA)](#Un-ejemplo:-Análisis-de-Componentes-Principales-(PCA))\n", "* [Introducción](#Introducción)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## <span style=\"color:blue\">Introducción</span>" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "En esta lección revisamos los siguientes conceptos.\n", "\n", "1. Curso de la dimensionalidad\n", "1. $q$-dimensión\n", "1. Estimación de la $q$-dimensión\n", "\n", "Pero antes vamos con un entremés." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## <span style=\"color:blue\">Cuatro métodos de reducción de dimensiones aplicados a datos genómicos</span>" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "<figure>\n", " <center>\n", " <img src=\"../Imagenes/Four_methods_of_dimension_reduction.png\" width=\"800\" height=\"800\" align=\"center\"/> \n", " <figcaption>\n", " </figcaption>\n", " </center>\n", "</figure>\n", "\n", "Fuente: <a href=\"https://commons.wikimedia.org/wiki/File:Four_methods_of_dimension_reduction_applied_to_Thousand_Genomes_genotype_data.png\">Alex Diaz-Papkovich,Luke Anderson-Trocmé,Chief Ben-Eghan,Simon Gravel</a>, <a href=\"https://creativecommons.org/licenses/by/2.5\">CC BY 2.5</a>, via Wikimedia Commons" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Las imágenes muestran el efecto de reducción de dimensión con un conjunto de datos de tipo genómico.\n", "\n", "* **A)** **ACP** mapea individuos en un triángulo con vértices correspondientes a la ascendencia continental africana, asiática y europea. Descartar las componentes principales de varianza más baja conduce a la superposición de poblaciones sin afinidad cercana, como las poblaciones de América Central y del Sur con las del sur de Asia. \n", "* **B)** **t-SNE** forma grupos correspondientes a los continentes, con cierta superposición entre los pueblos europeos y centro y sudamericanos. Los subgrupos más pequeños son visibles dentro de los grupos continentales. La nube de puntos periféricos resulta de la pobre convergencia del método. \n", "* **C)** **UMAP** forma grupos distintos relacionados con el continente con subgrupos claramente definidos. Las poblaciones japonesa, finlandesa, luhya y algunas punjabi y telugu forman grupos separados consistentes con la historia de su población. \n", "* **D)** **UMAP** en los primeros 15 componentes principales forma grupos de escala fina para poblaciones individuales. Los grupos estrechamente relacionados por ascendencia o geografía, como las poblaciones afrocaribeña/afroamericana, española/italiana y kinh/dai, se agrupan. Los ejes en UMAP y t-SNE son arbitrarios. Dado que los algoritmos dan prioridad a las distancias locales, las distancias largas entre clústeres no son significativas. ACB, Caribe Africano en Barbados; ASW, ascendencia africana en el suroeste de EE. UU.; BEB, bengalí; CDX, Dai chino; CEU, residentes de Utah con ascendencia del norte/oeste de Europa; CHB, chino Han; CHS, chino Han del Sur; CLM, colombiana en Medellín, Colombia; ESN, Esan en Nigeria; FIN, finlandés; GBR, británicos en Inglaterra y Escocia; GWD, de Gambia; GTH, guyaratí; SII, Ibérico en España; ITU, telugu indio en el Reino Unido; JPT, japonés; KHV, Kinh en Vietnam; LWK, Luhya en Kenia; MSL, Mende en Sierra Leona; MXL, mexicana en Los Ángeles, California; PEL, peruano; PJL, Punjabi en Lahore, Pakistán; PUR, puertorriqueño; STU, tamil de Sri Lanka en el Reino Unido; TSI, Toscani en Italia; YRI, Yoruba en Nigeria." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## <span style=\"color:blue\">Concentración de las distancias en espacios n-dimensionales</span>" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "En espacios de alta dimensión las métricas son débiles para discriminar vectores como se muestra en el siguiente resultado." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### <span style=\"color:#4CC9F0\">Teorema </span>" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Sea $\\boldsymbol{y}$ un vector aleatorio $D$-dimensional. Se supone que todas las componentes de $\\boldsymbol{y}$ son independientes e idénticamente distribuidas, con momentos finitos de octavo orden. Entonces la media $\\mu_{||\\boldsymbol{y}||}$ y la varianza $\\sigma^2_{||\\boldsymbol{y}||}$ de la norma euclidiana son\n", "\n", "$$\n", "\\begin{align}\n", "\\mu_{||\\boldsymbol{y}}||&= \\sqrt{aD-b} + \\mathcal{O}(D^{-1})\\\\\n", "\\sigma^2_{||\\boldsymbol{y}||}&= b + \\mathcal{O}(D^{-1/2}),\n", "\\end{align}\n", "$$\n", "\n", "\n", "\n", "donde $a$ y $b$ son parámetros que dependen únicamente de los momentos centrales de orden $1,2,3$ y 4.\n", "\n", "\n", "Por lo tanto, la norma de los vectores aleatorios crece proporcionalmente a $\\sqrt{D}$, como se esperaba, pero las varianzas permanecen más o menos constantes para un $D$ suficientemente grande.\n", "\n", "En otras palabras, la distribución de las normas tiende a estar muy concentrada alrededor de su media." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## <span style=\"color:blue\">Propósitos de la reducción de dimensión</span> " ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Casi siempre se puede reducir la alta dimensionalidad de los datos. La subsección anterior motiva a reducir la dimensión de los datos para superar algunas de las dificultades causadas por el problema de la maldición de la dimensionalidad. Las principales propiedades que caracterizan a un método de análisis de datos de alta dimensionalidad son:\n", "\n", "\n", "1. Estimar la dimensión intrínseca de los datos. Informalmente esto quiere decir, estimar el número de variables latentes necesarias para representar los datos con un error bajo.\n", "1. Incrustar datos en espacios de dimensión baja para reducir su dimensionalidad.\n", "1. Incrustar datos para recuperar las variables latentes." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## <span style=\"color:blue\"> Reducción de dimensión y reconstrucción de errores</span>" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Por lo general, un método de reducción de dimensiones se guía por un criterio que debe optimizarse. Por ejemplo, en el conocido **análisis de componentes principales (PCA)**, el principio desde un punto de vista geométrico es minimizar la distancia desde los puntos de datos hasta el primer componente, luego hasta el segundo, y así sucesivamente. Equivalente, desde un punto de vista estadístico, PCA maximiza la varianza de los datos representados por el primer componente y así sucesivamente.\n", "\n", "\n", "\n", "Para evaluar un método de reducción, primero se reduce la dimensionalidad y luego se vuelve a expandir, siempre que el preceso pueda ser revertido, al menos parcialmente. Matemáticamente, este error de reconstrucción se puede escribir como\n", "\n", "$$\n", "\\begin{equation}\n", "E_{\\text{cod}} = E_{y}[|| y-\\text{dec}(\\text{cod}(y))||_2^2],\n", "\\end{equation}\n", "$$\n", "\n", "donde $E[]$ es el operador de esperanza. La reducción de la dimensionalidad y la expansión hacia atrás se denotan respectivamente como\n", "\n", "$$\n", "\\begin{align*}\n", "cod: \\mathcal{R}^D \\to \\mathcal{R}^P, \\hspace{2mm} &x = cod(y),\\\\\n", "dec: \\mathcal{R}^P \\to \\mathcal{R}^D, \\hspace{2mm} &y' = dec(x).\n", "\\end{align*}\n", "$$" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "\n", "<figure>\n", " <center>\n", " <img src=\"../Imagenes/error_reduccion_dim.png\" width=\"800\" height=\"800\" align=\"center\"/> \n", " <figcaption>\n", " </figcaption>\n", " </center>\n", "</figure>\n", "\n", "Fuente: Alvaro Montenegro. Basado en <a href=\"https://commons.wikimedia.org/wiki/File:Dimensionality-reduction.jpg\">Michael Gashler, Dan Ventura, Tony Martinez</a>, <a href=\"https://creativecommons.org/licenses/by-sa/4.0\">CC BY-SA 4.0</a>, via Wikimedia Commons" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### <span style=\"color:blue\">Un ejemplo: Análisis de Componentes Principales (ACP)</span> " ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Una hipótesis esencial en el modelo ACP es que se tiene una matriz $\\mathbf{A}$ de tamaño $N\\times D$, en donde cada fila es de la forma $\\mathbf{y}= [y_1,\\ldots,y_D]^T$ con las $D$ variables observadas, proviene de una transformación lineal $\\mathbf{W}$ de $P$ variables latentes desconocidas, digamos, $\\mathbf{x} = [x_1,\\ldots,x_P]^T$, de tal manera que\n", "\n", "$$\n", "\\begin{equation}\n", "\\mathbf{y = Wx}.\n", "\\end{equation}\n", "$$\n", "\n", "En el ACP convencional no hay una distribución de probabilidad pre-definida de antemano. Sin embargo, Tipping y Bishop (1997) mostraron cómo el ACP puede reformularse como la solución de máxima verosimilitud de un modelo de variable latente específico. En este caso, se supone que el vector latente $\\mathbf{x}$ tiene una distribución gaussiana $\\mathfrak{N}(\\boldsymbol{0},\\boldsymbol{I}_P)$, y el vector observado $\\mathbf{y}$ viene dado por $\\mathbf{y= Wx } + \\boldsymbol{\\mu } + \\boldsymbol{\\epsilon }$, donde $\\epsilon$ es un vector gaussiano de media cero con matriz de covarianza $\\sigma^2\\mathbf{I}_{D}$, y $\\boldsymbol{\\mu}$ es el vector de parámetros de la media. Supondremos que $\\boldsymbol{\\mu}= \\boldsymbol{0}$, y que las variables latentes tienen una distribución gaussiana.\n", "\n", "\n", "Se supone que las columnas de $\\mathbf{W}$ son ortogonales, de forma que $\\mathbf{W}^T\\mathbf{W}= \\mathbf{I}_P$, y que las variables observadas y las latentes están centradas.\n", "\n", "En el paso de procesamiento previo, las variables observadas se centran y escalan para tener variables estandarizadas. Es importante evitar estandarizar variables con una desviación estándar muy baja, porque en este caso el ruido puede ser proporcionalmente grande." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### <span style=\"color:#4CC9F0\">Solución ACP </span>" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "En esta sección se utilizan dos criterios para llegar al mismo método: \n", "\n", "* error de reconstrucción mínimo\n", "* varianza conservada máxima. \n", "\n", "Otro criterio que conduce a la misma solución es la preservación de la distancia (escalamiento multidimensional)." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### <span style=\"color:#4CC9F0\">Error de reconstrucción minimal</span>" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Las funciones de codificación y codificación se pueden reescribir como\n", "\n", "$$\n", "\\begin{align}\n", "cod:& \\mathcal{R}^D \\to \\mathcal{R}^P, y \\mapsto x = cod(y) = W^+y,\\\\\n", "dec:& \\mathcal{R}^P \\to \\mathcal{R}^D, x \\mapsto y = dec(y)= Wx,\n", "\\end{align}\n", "$$\n", "\n", "donde $W^+ = (W^T W)^{-1}W^T = W^T$ es la pseudo-inversa izquierda de $W$. Recuerde que asumimos $\\mathbf{W}^T\\mathbf{W}= \\mathbf{I}_P$. Por lo tanto, el error cuadrático medio de la reconstrucción se convierte en\n", "\n", "$$\n", "\\begin{equation}\n", "E_{\\text{cod}} = E_{y}[||y- W W^Ty ||_2^2] = E_y[y^Ty] - E_{y}[y^T WW^T y].\n", "\\end{equation}\n", "$$\n", "\n", "Por lo tanto, minimizar $E_{\\text{cod}}$ es equivalente a maximizar el término $E_{y}[y^T WW^T y]$. Para la muestra observada $y_1,\\ldots,y_N$, la experanza se aproxima mediante la media muestral\n", "\n", "$$\n", "\\begin{equation}\n", "E_{y}[y^T WW^T y] \\approx \\frac{1}{N} \\sum_{i=1}^{N} y_i^T WW^T y_i = \\frac{1}{N} tr(Y^T WW^T Y),\n", "\\end{equation}\n", "$$\n", "\n", "donde $tr(M)$ denota la traza de la matriz $M$ y en donde $Y$ es la matriz de tamaño $D\\times N$ cuyas columnas son los vectores $y_i$.\n", "\n", "Consideremos la descomposición en valor único (SVD) de la matriz $Y$ dada por\n", "\n", "$$\n", "\\begin{equation}\n", "Y= V\\boldsymbol{\\Sigma}U^T,\n", "\\end{equation}\n", "$$\n", "\n", "donde $V$ y $U$ son matrices unitarias y donde $\\boldsymbol{\\Sigma}$ es una matriz del mismo tamaño que $Y$, con $D$ como máximo entradas cero, $\\sigma_d$ llamados valores singulares ubicados en la primera diagonal de $\\boldsymbol{\\Sigma}$, ordenados en orden descendente. Es fácil ver que\n", "$$\n", "\\begin{equation}\n", "\\arg \\max\\limits_{W} \\frac{1}{N} tr(Y^T WW^T Y) = V I_{D\\times P},\n", "\\end{equation}\n", "$$\n", "\n", "para un $P$ dado. $I_{D\\times P}$ es tal que las primeras columnas $P$ corresponden a la identidad $I_P$.\n", "\n", "\n", "Las variables latentes $P$-dimensionales están dadas por\n", "$$\n", "\\begin{equation}\n", "\\widehat{x} = I_{P\\times D} V^T Y.\n", "\\end{equation}\n", "$$" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## <span style=\"color:blue\">Estimación de la dimensión intrínseca</span>" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Si el modelo se mantiene razonablemente bien, los valores propios grandes corresponden a la varianza de las variables latentes y los más pequeños se deben al ruido y otras imperfecciones. Idealmente, una brecha visible en el trazado de los valores propios separa los dos tipos de valores propios. Si la brecha no es visible, trazar los valores propios normalizados puede ayudar:\n", "\n", "$$\n", "\\begin{equation}\n", "0 \\le -\\log \\frac{\\lambda_d}{\\lambda_1}.\n", "\\end{equation} \n", "$$\n", "\n", "Otros criterios, por ejemplo preservar los $95\\%$ de la varianza, pueden ser útiles:\n", "\n", "$$\n", "\\begin{equation}\n", "0.95 \\le \\frac{\\sum_{d=1}^{P} \\lambda_d}{\\sum_{d=1}^{D} \\lambda_d}.\n", "\\end{equation} \n", "$$\n", "\n", "Se han desarrollado otros procedimientos más complejos, véase, por ejemplo, el artículo de Bishop (1998), para un procedimiento bayesiano para la detección automática de la dimensión intrínseca." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### <span style=\"color:#4CC9F0\">Una caracterización de los métodos de reducción de dimensión</span>" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "1. Reducción de dimensionalidad dura vs. blanda.\n", "1. Modelo tradicional vs generativo.\n", "1. Modelo lineal frente a no lineal.\n", "1. Modelo continuo vs. discreto.\n", "1. Mapeo implícito versus explícito.\n", "1. Estimación integrada vs externa de la dimensionalidad.\n", "1. Incrustaciones en capas frente a independientes.\n", "1. Sistemas de coordenadas simples versus múltiples.\n", "1. Cuantificación vectorial opcional frente a obligatoria.\n", "1. Algoritmo por lotes vs. en línea.\n", "1. Optimización exacta vs. aproximada.\n", "1. El tipo de criterio a optimizar" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## <span style=\"color:blue\">La dimensión intrínsica</span>" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "La dimensión intrínseca de un vector aleatorio $\\boldsymbol{y}$ generalmente se define como el número mínimo de parámetros o variables latentes necesarios para describir $\\boldsymbol{y}$. Esta es una definición informal y ambigua, aunque parece clara en la práctica. La dimensión $q$ formaliza y unifica el concepto." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### <span style=\"color:#4CC9F0\">La $q$-dimensión</span>" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "<figure>\n", " <center>\n", " <img src=\"../Imagenes/q-dimension.png\" width=\"400\" height=\"400\" align=\"center\"/> \n", " <figcaption>\n", " </figcaption>\n", " </center>\n", "</figure>\n", "\n", "Fuente: Alvaro Montenegro. " ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "\n", "La definición que adoptaremos proviene de la física. Supongamos que $\\mu$ representa la medida que usamos para medir los objetos que estamos observando. Para $\\epsilon > 0$, el soporte de $\\mu$ se cubre con una cuadrícula multidimensional de cubos con longitud de arista $\\epsilon$. Sea $N(\\epsilon)$ el número de cubos que cortan el soporte de $\\mu$, y sea $p_1,\\ldots, p_{N(\\epsilon)}$ la medida natural de esos cubos. Las medidas se normalizan tal que\n", "\n", "$$\n", "\\begin{equation*}\n", "\\sum_{i=1}^{N(\\epsilon)} p_i =1.\n", "\\end{equation*}\n", "$$\n", "\n", "Entonces definimos la q-dimensión como\n", "\n", "$$\n", "\\begin{align}\n", "D_q(\\mu) &= \\lim\\limits_{\\epsilon \\to 0} \\frac{\\log \\sum_{i=1}^{N(\\epsilon)} p_i^q}{(q-1)\\log \\epsilon}\\\\\n", "\\end{align}\n", "$$\n" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### <span style=\"color:#4CC9F0\">Aproximación intuitiva al concepto de $q$-dimensión</span>" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Suponga que la muestra de datos que tenemos se ve en la siguiente imagen." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "<figure>\n", " <center>\n", " <img src=\"../Imagenes/q-dimension.png\" width=\"400\" height=\"400\" align=\"center\"/> \n", " <figcaption>\n", " </figcaption>\n", " </center>\n", "</figure>\n", "\n", "Fuente: Alvaro Montenegro. " ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "* El volumen de cada caja es $\\epsilon^2$ en la rejilla. Por otro lado, definimos como medida $\\mu$ de los datos en cada bola abierta al número de de elementos dentro de la bola. \n", "* Si cada caja en la rejilla es un bola cerrada, entonces las medidas $\\mu$ de las cajas no vacías son 3,1,2,1,2,3,4,1,2 respectivamente.\n", "* Si hacemos $\\epsilon$ cada vez más pequeño, al final resulta que quedarán cajas solamente con un elemento o con ninguno.\n", "\n", "Entonces el volumen total ocupado por las cajas $C_q(\\mu,\\epsilon)$ en el límite es la suma de todas las medidas, que en el ejemplo coincide con el número de cajas ocupadas. por lo que\n", "\n", "$$\n", "C_q(\\mu,\\epsilon) = \\propto K(\\epsilon^{q-1})^2,\n", "$$\n", "\n", "en donde K es el número de cajas ocupadas.\n", "\n", "Esta instiución se generaliza al espacio *p*-dimensional como\n", "\n", "\n", "$$\n", "C_q(\\mu,\\epsilon) \\propto (\\epsilon^{q-1})^p,\n", "$$\n", "\n", "Si se toma logaritmo a ambos lados se tiene\n", "\n", "$$\n", "p \\propto\\frac{\\log C_q(\\mu,\\epsilon) }{(q-1) \\log \\epsilon}\n", "$$" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### <span style=\"color:#4CC9F0\">Dimensión de capacidad: Capacity dimension</span>" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "En la segunda definición sea $q=0$, y obtenemos la *dimensión de capacidad* (capacity dimension):\n", "\n", "$$\n", "\\begin{equation}\n", "d_{cap} = D_0(\\mu) = -\\lim\\limits_{\\epsilon \\to 0} \\frac{\\log N(\\epsilon)}{\\log \\epsilon}.\n", "\\end{equation}\n", "$$\n", "Tenga en cuenta que $d_{cap}$ no depende de las medidas naturales $p_i$. $d_{cap}$ también se llama la dimensión *recuento de cajas*. Para una muestra, un algoritmo para calcular $d_{cap}$ es el siguiente.\n", "\n", "1. Determine el hipercubo que circunscribe todos los puntos de datos.\n", "1. Descomponga el hipercubo obtenido en una cuadrícula de hipercubos más pequeños con\n", "longitud del borde $\\epsilon$ (estos cuadros explican el nombre del método).\n", "1. Determine $N(\\epsilon)$, el número de hipercubos que están ocupados por uno o varios puntos de datos.\n", "1. Calcule $\\log (N(\\epsilon))$ y divida por $\\log \\epsilon$.\n", "1. Calcular el límite cuando $\\epsilon$ tiende a cero; esto es $d_{cap}$.\n", "\n", "\n", "Desafortunadamente, el límite a calcular en el último paso parece ser el único obstáculo para la simplicidad general de la técnica. Abajo\n", "se dan algunos consejos para sortear este obstáculo.\n", "\n", "Para una intuición sobre $d_{cap}$ imagine un conjunto de puntos en el espacio tridimensional. Así, para un objeto unidimensional, el número de cajas ocupadas crece proporcionalmente a la longitud del objeto. Para un objeto bidimensional, el número de casillas ocupadas crece proporcionalmente a la superficie del objeto, y así sucesivamente. Por lo tanto, para una variedad $P-$dimensional incrustada en $\\mathcal{R}^D$ se obtiene\n", "\n", "$$\n", "\\begin{equation}\n", "N(\\epsilon) \\propto \\epsilon^P,\n", "\\end{equation}\n", "$$\n", "\n", "así que,\n", "$$\n", "\\begin{equation}\n", "P \\propto \\frac{\\log N(\\epsilon)}{\\log \\epsilon}.\n", "\\end{equation}\n", "$$" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### <span style=\"color:#4CC9F0\">Exercicio</span>" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Verificar que la dimensión de capacidad se pueda calcular analíticamente\n", "para la costa de la isla de Koch y es\n", "\n", "$$\n", "\\begin{equation}\n", "d_{cap} = \\frac{\\log 4}{\\log 3} = 1.261859507.\n", "\\end{equation}\n", "$$" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### <span style=\"color:#4CC9F0\">Dimensión de la información: Information dimension</span>" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "\n", "La dimensión de información ($d_{inf}$) corresponde al caso donde $q=1$. Se puede demostrar que $d_{inf}$ está dado por\n", "\n", "$$\n", "\\begin{equation}\n", "d_{inf} = \\lim\\limits_{\\epsilon \\to 0} \\frac{\\log \\sum_{i=1}^{N(\\epsilon)} p_i \\log p_i}{\\log \\epsilon}\n", "\\end{equation}\n", "$$\n", "\n", "Esta expresión sigue siendo difícil porque, en general, los $p_i$ rara vez se conocen, excepto en el caso en que se supone que todos los $p_i$ son iguales. En tal caso $d_{inf} = d_{cap}$." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### <span style=\"color:#4CC9F0\">Dimensión correlación </span>" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "La dimensión de correlación corresponde al caso de $q=2$. Cuando los datos son un conjunto de puntos $\\boldsymbol{y}= \\{y_1,\\ldots,y_N\\}$. En este caso $C_2(\\mu,\\epsilon)$ se puede escribir como\n", "\n", "$$\n", "\\begin{equation}\n", "C_2(\\epsilon) = Pr(||\\boldsymbol{y}_i-\\boldsymbol{y}_j ||_2 \\le \\epsilon).\n", "\\end{equation}\n", "$$\n", "\n", "\n", "Entonces, la dimensión de correlación $d_{cor}$ se puede escribir como\n", "\n", "$$\n", "\\begin{equation}\n", "d_{cor} = \\lim\\limits_{\\epsilon \\to 0} \\frac{\\log C_2(\\epsilon)}{\\log \\epsilon}.\n", "\\end{equation}\n", "$$\n", "\n", "Dado un conjunto de puntos $\\boldsymbol{y}$, la dimensión de correlación se estima fácilmente mediante el siguiente procedimiento:\n", "\n", "\n", "1. Calcula las distancias entre todos los puntos posibles $\\boldsymbol{y}_i, \\boldsymbol{y}_j$.\n", "1. Determina la proporción de distancias que son menores o iguales a $\\epsilon$.\n", "1. Calcule $\\log C_2(\\epsilon)$ y divida por $\\log \\epsilon$.\n", "1. Calcular el límite cuando $\\epsilon$ tiende a cero.\n", "\n", "El segundo paso da como resultado una estimación $\\widehat{C}_2(\\epsilon)$ de ${C}_2(\\epsilon)$. La interpretación intuitiva es muy similar a la asociada con la dimensión de capacidad. El problema vuelve a ser el último paso." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### <span style=\"color:#4CC9F0\">Estimación práctica de la $q$-dimensión</span>" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Para superar el problema del límite hacia cero en la dimensión de capacidad y la dimensión de correlación, podemos calcular los valores de $N(\\epsilon)$ o $\\hat{C}(\\epsilon)$ para $\\epsilon$ que oscilan entre las distancias más pequeña y más grande en el conjunto de datos. Un truco para sortear el problema consiste en aplicar la regla de l'Hopital. La regla se puede aplicar porque el numerador y el denominador tienden a $-\\infty$. En el caso de la dimensión de correlación tenemos\n", "\n", "$$\n", "\\begin{align*}\n", "d_{cor} &= \\lim\\limits_{\\epsilon \\to 0} \\frac{\\log \\widehat{C}_2(\\epsilon)}{\\log \\epsilon}\\\\\n", "&= \\lim\\limits_{\\epsilon \\to 0} \\frac{\\partial\\log \\widehat{C}_2(\\epsilon)}{\\partial \\epsilon} \\Biggl{/} \\frac{\\partial \\log \\epsilon}{\\partial \\epsilon}\\\\\n", "&= \\lim\\limits_{\\epsilon \\to 0} \\frac{\\partial\\log \\widehat{C}_2(\\epsilon)}{\\partial \\log \\epsilon}\\\\\n", "&= \\lim\\limits_{\\epsilon_1,\\epsilon_2 \\to 0} \\frac{\\log \\widehat{C}_2(\\epsilon_2)-\\log \\widehat{C}_1(\\epsilon_1)}{\\log \\epsilon_2-\\log \\epsilon_1}\n", "\\end{align*}\n", "$$\n", "\n", "Alternativamente, la dimensión de correlación se puede estimar calculando la derivada numérica de $\\log \\widehat{C}_2(\\exp \\nu)$, con $\\nu = \\log \\epsilon$:\n", "\n", "$$\n", "\\begin{equation}\n", "\\widehat{d}_{cor} = \\frac{d}{d\\nu} \\log \\widehat{C}_2(\\exp \\nu).\n", "\\end{equation}\n", "$$\n", "\n", "Entonces, el $d_{cor}$ se puede estimar como la pendiente de $\\log \\widehat{C}_2(\\epsilon)$ en el gráfico log-log.\n", "\n", "Por ejemplo, el parámetro de regresión de la regresión de $\\log \\widehat{C}_2(\\epsilon) = \\beta \\log \\epsilon + error$." ] }, { "cell_type": "code", "execution_count": 1, "metadata": {}, "outputs": [ { "data": { "image/jpeg": "\n", "text/plain": [ "<IPython.core.display.Image object>" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "from IPython.display import Image\n", "\n", "Image(filename=\"D:/home/Machine Learning Course/images/spiral.jpg\")" ] } ], "metadata": { "kernelspec": { "display_name": "Python 3 (ipykernel)", "language": "python", "name": "python3" }, "language_info": { "codemirror_mode": { "name": "ipython", "version": 3 }, "file_extension": ".py", "mimetype": "text/x-python", "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", "version": "3.11.4" } }, "nbformat": 4, "nbformat_minor": 4 }