{ "cells": [ { "cell_type": "markdown", "metadata": {}, "source": [ "# Disease lethality prediction\n", "\n", "### Feature engineering and the curse of dimensionality\n", "\n", "With this notebook we give a brief introduction to feature engineering on relational data with *many columns.* We discuss why feature engineering on such data is *particularly challenging* and what we can do to overcome these problems.\n", "\n", "Summary:\n", "\n", "- Prediction type: __Binary classification__\n", "- Domain: __Health__\n", "- Prediction target: __Mortality within one year__ \n", "- Source data: __146 columns in 2 tables, 22 MB__\n", "- Population size: __28433__" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "#### __The problem__\n", "\n", "To illustrate the point, we give a simplified example based on the real data used in the analysis below. When we engineer features from relational data, we usually write something like this:\n", "\n", "```sql\n", "SELECT AVG(t2.HDL)\n", "FROM population_training t1\n", "LEFT JOIN contr t2\n", "ON t1.ICO = t2.ICO\n", "WHERE t1.AGE >= 60 AND t1.ALOKOHOL IN ('1', '2')\n", "GROUP BY t1.ICO;\n", "```\n", "\n", "Think about that for a second. This feature aggregates high-density lipoprotein (HDL) cholesterol values recorded during control dates conditional on age and alcohol consumption. We arbitrarily chose both, the column to aggregate over *(HDL)* and the set of columns to construct conditions on *(AGE* and *ALKOHOL)* out of a greater set of 146 columns.\n", "\n", "Every column that we have can either be aggregated (here *HDL)* or it can be used for our conditions (here *AGE* and *ALKOHOL)*. That means if we have *n* columns to aggregate, we can potentially build conditions for $n$ other columns. In other words, the computational complexity is $n^2$ in the number of columns.\n", "\n", "Note that this problem occurs regardless of whether you automate feature engineering or you do it by hand. The size of the search space is $n^2$ in the number of columns in either case, unless you can rule something out a-priori.\n", "\n", "\n" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "#### __The solution__\n", "\n", "So when we have relational data sets with many columns, what do we do? The answer is to write different features. Specifically, suppose we had features like this:\n", "\n", "```sql\n", "SELECT AVG(\n", " CASE WHEN t1.AGE >= THEN weight1\n", " CASE WHEN t1.ALKOHOL IN ('1', '2') THEN weight2\n", " END\n", ")\n", "FROM population_training t1\n", "LEFT JOIN contr t2\n", "ON t1.ICO = t2.ICO\n", "GROUP BY t1.ICO;\n", "```\n", "\n", "*weight1* and *weight2* are learnable weights. An algorithm that generates features like this can only use columns for conditions, it is not allowed to aggregate columns – and it doesn't need to do so.\n", "\n", "That means the computational complexity is linear instead of quadratic. For data sets with a large number of columns this can make all the difference in the world. For instance, if you have 100 columns the size of the search space of the second approach is only 1% of the size of the search space of the first one.\n", "\n" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "# Background\n", "\n", "To illustrate the problem of dimensionality in predictive analytics on relational data, we use the STULONG 1 dataset. It is a longitudinal study of atherosclerosis patients.\n", "\n", "One of its defining features is that it contains many columns, which makes it a good candidate to illustrate the problem discussed in this notebook.\n", "\n", "The are some academic studies related to this dataset:\n", "\n", "* https://www.researchgate.net/publication/228572841_Mining_episode_rules_in_STULONG_dataset\n", "* https://citeseerx.ist.psu.edu/doc_view/pid/3a9cb05b77b631b6fcbe253eb93e053ba8c0719c\n", "\n", "The way these studies handle the large number of columns in the data set is to divide the columns into subgroups and then handling each subgroup separately. Even though this is one way to overcome the curse of dimensionality, it is not a very satisfying approach. We would like to be able to handle a large number of columns at once.\n", "\n", "\n", "The analysis is based on the STULONG 1 dataset. It is publicly available and can be downloaded the [the CTU Prague Relational Learning Repository](https://relational.fit.cvut.cz/dataset/Atherosclerosis) (Now residing at [relational-data.org](https://relational-data.org/dataset/Atherosclerosis).).\n", "\n" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "# Analysis" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Let's get started with the analysis and set up your session:" ] }, { "cell_type": "code", "execution_count": 1, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "getML engine is already running.\n", "\n", "Connected to project 'atherosclerosis'\n" ] } ], "source": [ "import os\n", "from pathlib import Path\n", "import numpy as np\n", "import pandas as pd\n", "from IPython.display import Image, Markdown\n", "import matplotlib.pyplot as plt\n", "%matplotlib inline \n", "\n", "import getml\n", "\n", "getml.engine.launch(home_directory=Path.home(), allow_remote_ips=True, token='token')\n", "getml.engine.set_project('atherosclerosis')" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## 1. Loading data\n" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### 1.1 Download from source\n", "\n", "Downloading the raw data and convert it into a prediction ready format takes time. To get to the getML model building as fast as possible, we prepared the data for you and excluded the code from this notebook. It is made available in the example notebook featuring the full analysis." ] }, { "cell_type": "code", "execution_count": 2, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "\n", "Loading population...\n", " 100% |██████████| [elapsed: 00:00, remaining: 00:00] \n", "\n", "Loading contr...\n", " 100% |██████████| [elapsed: 00:00, remaining: 00:00] \n" ] } ], "source": [ "population, contr = getml.datasets.load_atherosclerosis()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### 1.2 Prepare data for getML\n", "\n", "The `getml.datasets.load_atherosclerosis` method took care of the entire data lifting:\n", "* Downloads csv's from our servers in python\n", "* Converts csv's to getML [DataFrames](https://docs.getml.com/latest/api/getml.data.DataFrame.html#getml.data.DataFrame)\n", "* Sets [roles](https://docs.getml.com/latest/user_guide/annotating_data/annotating_data.html#roles) to columns inside getML DataFrames" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "__Data visualization__\n", "\n", "The original data (image below) model is condensed into 2 tables: \n", "\n", "* A population table *population_{train/test/validate}*, based on `death` table\n", "* A peripheral table: `contr`." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "__Death:__ population table\n", "\n", "* Reference Date: Period of time from 1976 to 1999\n", "* Target: If the patient dies within one year after each reference date\n" ] }, { "cell_type": "code", "execution_count": 3, "metadata": {}, "outputs": [ { "data": { "text/html": [ "\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
nameREFERENCE_DATEENTRY_DATE ICOTARGETKONSKUP STAV VZDELANI ZODPOV TELAKTZA AKTPOZAM DOPRAVA DOPRATRV ALKOHOL BOLHR BOLDK DUSNOST RARISK OBEZRISK KOURRISK HTRISK CHOLRISK MOC AGEPARTICIPATION VYSKA VAHA SYST1 DIAST1 SYST2 DIAST2 TRIC SUBSC CHLST TRIGL KOURENI DOBAKOUR BYVKURAK PIVOMN VINOMN LIHMN KAVA CAJ CUKR ROKNAR ROKVSTUP MESVSTUP IM HT ICT DIABET HYPLIP DUMMY YEARPIVO7 PIVO10 PIVO12 VINO LIHOV IML HTD HTL ICTL DIABD DIABL HYPLD HYPLL IMTRV HTTRV ICTTRV DIABTRV HYPLTRV DENUMR MESUMR ROKUMR PRICUMR DEATH_DATE
role time_stamptime_stampjoin_keytargetcategoricalcategoricalcategoricalcategoricalcategoricalcategoricalcategoricalcategoricalcategoricalcategoricalcategoricalcategoricalcategoricalcategoricalcategoricalcategoricalcategoricalcategoricalnumerical numericalnumericalnumericalnumericalnumericalnumericalnumericalnumericalnumericalnumericalnumericalnumericalnumericalnumericalnumericalnumericalnumericalnumericalnumericalnumericalunused_floatunused_floatunused_floatunused_floatunused_floatunused_floatunused_floatunused_floatunused_floatunused_floatunused_stringunused_stringunused_stringunused_stringunused_stringunused_stringunused_stringunused_stringunused_stringunused_stringunused_stringunused_stringunused_stringunused_stringunused_stringunused_stringunused_stringunused_stringunused_stringunused_stringunused_stringunused_stringunused_string
unit time stamptime stamp
01977-01-011976-10-0110001\n", " 0 \n", " 413112362111001001\n", " 48 \n", " \n", " -1899 \n", " \n", " 169 \n", " \n", " 71 \n", " \n", " 120 \n", " \n", " 85 \n", " \n", " 120 \n", " \n", " 90 \n", " \n", " 4 \n", " \n", " 12 \n", " \n", " 209 \n", " \n", " 86 \n", " \n", " 4 \n", " \n", " 10 \n", " \n", " nan \n", " \n", " 1 \n", " \n", " 4 \n", " \n", " 9 \n", " \n", " 2 \n", " \n", " 4 \n", " \n", " 3 \n", " \n", " 29 \n", " \n", " 1976 \n", " \n", " 10 \n", " \n", " 2 \n", " \n", " 2 \n", " \n", " 2 \n", " \n", " 2 \n", " \n", " 2 \n", " \n", " 1 \n", " \n", " 1977 \n", " NULLNULLNULLNULL12.0NULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULL
11978-01-011976-10-0110001\n", " 0 \n", " 413112362111001001\n", " 49 \n", " \n", " -1898 \n", " \n", " 169 \n", " \n", " 71 \n", " \n", " 120 \n", " \n", " 85 \n", " \n", " 120 \n", " \n", " 90 \n", " \n", " 4 \n", " \n", " 12 \n", " \n", " 209 \n", " \n", " 86 \n", " \n", " 4 \n", " \n", " 10 \n", " \n", " nan \n", " \n", " 1 \n", " \n", " 4 \n", " \n", " 9 \n", " \n", " 2 \n", " \n", " 4 \n", " \n", " 3 \n", " \n", " 29 \n", " \n", " 1976 \n", " \n", " 10 \n", " \n", " 2 \n", " \n", " 2 \n", " \n", " 2 \n", " \n", " 2 \n", " \n", " 2 \n", " \n", " 1 \n", " \n", " 1978 \n", " NULLNULLNULLNULL12.0NULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULL
21979-01-011976-10-0110001\n", " 0 \n", " 413112362111001001\n", " 50 \n", " \n", " -1897 \n", " \n", " 169 \n", " \n", " 71 \n", " \n", " 120 \n", " \n", " 85 \n", " \n", " 120 \n", " \n", " 90 \n", " \n", " 4 \n", " \n", " 12 \n", " \n", " 209 \n", " \n", " 86 \n", " \n", " 4 \n", " \n", " 10 \n", " \n", " nan \n", " \n", " 1 \n", " \n", " 4 \n", " \n", " 9 \n", " \n", " 2 \n", " \n", " 4 \n", " \n", " 3 \n", " \n", " 29 \n", " \n", " 1976 \n", " \n", " 10 \n", " \n", " 2 \n", " \n", " 2 \n", " \n", " 2 \n", " \n", " 2 \n", " \n", " 2 \n", " \n", " 1 \n", " \n", " 1979 \n", " NULLNULLNULLNULL12.0NULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULL
31980-01-011976-10-0110001\n", " 0 \n", " 413112362111001001\n", " 51 \n", " \n", " -1896 \n", " \n", " 169 \n", " \n", " 71 \n", " \n", " 120 \n", " \n", " 85 \n", " \n", " 120 \n", " \n", " 90 \n", " \n", " 4 \n", " \n", " 12 \n", " \n", " 209 \n", " \n", " 86 \n", " \n", " 4 \n", " \n", " 10 \n", " \n", " nan \n", " \n", " 1 \n", " \n", " 4 \n", " \n", " 9 \n", " \n", " 2 \n", " \n", " 4 \n", " \n", " 3 \n", " \n", " 29 \n", " \n", " 1976 \n", " \n", " 10 \n", " \n", " 2 \n", " \n", " 2 \n", " \n", " 2 \n", " \n", " 2 \n", " \n", " 2 \n", " \n", " 1 \n", " \n", " 1980 \n", " NULLNULLNULLNULL12.0NULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULL
41981-01-011976-10-0110001\n", " 0 \n", " 413112362111001001\n", " 52 \n", " \n", " -1895 \n", " \n", " 169 \n", " \n", " 71 \n", " \n", " 120 \n", " \n", " 85 \n", " \n", " 120 \n", " \n", " 90 \n", " \n", " 4 \n", " \n", " 12 \n", " \n", " 209 \n", " \n", " 86 \n", " \n", " 4 \n", " \n", " 10 \n", " \n", " nan \n", " \n", " 1 \n", " \n", " 4 \n", " \n", " 9 \n", " \n", " 2 \n", " \n", " 4 \n", " \n", " 3 \n", " \n", " 29 \n", " \n", " 1976 \n", " \n", " 10 \n", " \n", " 2 \n", " \n", " 2 \n", " \n", " 2 \n", " \n", " 2 \n", " \n", " 2 \n", " \n", " 1 \n", " \n", " 1981 \n", " NULLNULLNULLNULL12.0NULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULL
.........\n", " ... \n", " ......................................................\n", " ... \n", " \n", " ... \n", " \n", " ... \n", " \n", " ... \n", " \n", " ... \n", " \n", " ... \n", " \n", " ... \n", " \n", " ... \n", " \n", " ... \n", " \n", " ... \n", " \n", " ... \n", " \n", " ... \n", " \n", " ... \n", " \n", " ... \n", " \n", " ... \n", " \n", " ... \n", " \n", " ... \n", " \n", " ... \n", " \n", " ... \n", " \n", " ... \n", " \n", " ... \n", " \n", " ... \n", " \n", " ... \n", " \n", " ... \n", " \n", " ... \n", " \n", " ... \n", " \n", " ... \n", " \n", " ... \n", " \n", " ... \n", " \n", " ... \n", " \n", " ... \n", " .....................................................................
284281995-01-011977-03-0130065\n", " 0 \n", " 522312152322001001\n", " 67 \n", " \n", " -1882 \n", " \n", " 179 \n", " \n", " 69 \n", " \n", " 110 \n", " \n", " 80 \n", " \n", " 120 \n", " \n", " 80 \n", " \n", " 10 \n", " \n", " 18 \n", " \n", " 235 \n", " \n", " 733 \n", " \n", " 4 \n", " \n", " 10 \n", " \n", " nan \n", " \n", " 3 \n", " \n", " 4 \n", " \n", " 7 \n", " \n", " 1 \n", " \n", " 5 \n", " \n", " 2 \n", " \n", " 28 \n", " \n", " 1977 \n", " \n", " 3 \n", " \n", " 2 \n", " \n", " 2 \n", " \n", " 2 \n", " \n", " 2 \n", " \n", " 2 \n", " \n", " 1 \n", " \n", " 1995 \n", " NULL9.0NULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULL
284291996-01-011977-03-0130065\n", " 0 \n", " 522312152322001001\n", " 68 \n", " \n", " -1881 \n", " \n", " 179 \n", " \n", " 69 \n", " \n", " 110 \n", " \n", " 80 \n", " \n", " 120 \n", " \n", " 80 \n", " \n", " 10 \n", " \n", " 18 \n", " \n", " 235 \n", " \n", " 733 \n", " \n", " 4 \n", " \n", " 10 \n", " \n", " nan \n", " \n", " 3 \n", " \n", " 4 \n", " \n", " 7 \n", " \n", " 1 \n", " \n", " 5 \n", " \n", " 2 \n", " \n", " 28 \n", " \n", " 1977 \n", " \n", " 3 \n", " \n", " 2 \n", " \n", " 2 \n", " \n", " 2 \n", " \n", " 2 \n", " \n", " 2 \n", " \n", " 1 \n", " \n", " 1996 \n", " NULL9.0NULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULL
284301997-01-011977-03-0130065\n", " 0 \n", " 522312152322001001\n", " 69 \n", " \n", " -1880 \n", " \n", " 179 \n", " \n", " 69 \n", " \n", " 110 \n", " \n", " 80 \n", " \n", " 120 \n", " \n", " 80 \n", " \n", " 10 \n", " \n", " 18 \n", " \n", " 235 \n", " \n", " 733 \n", " \n", " 4 \n", " \n", " 10 \n", " \n", " nan \n", " \n", " 3 \n", " \n", " 4 \n", " \n", " 7 \n", " \n", " 1 \n", " \n", " 5 \n", " \n", " 2 \n", " \n", " 28 \n", " \n", " 1977 \n", " \n", " 3 \n", " \n", " 2 \n", " \n", " 2 \n", " \n", " 2 \n", " \n", " 2 \n", " \n", " 2 \n", " \n", " 1 \n", " \n", " 1997 \n", " NULL9.0NULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULL
284311998-01-011977-03-0130065\n", " 0 \n", " 522312152322001001\n", " 70 \n", " \n", " -1879 \n", " \n", " 179 \n", " \n", " 69 \n", " \n", " 110 \n", " \n", " 80 \n", " \n", " 120 \n", " \n", " 80 \n", " \n", " 10 \n", " \n", " 18 \n", " \n", " 235 \n", " \n", " 733 \n", " \n", " 4 \n", " \n", " 10 \n", " \n", " nan \n", " \n", " 3 \n", " \n", " 4 \n", " \n", " 7 \n", " \n", " 1 \n", " \n", " 5 \n", " \n", " 2 \n", " \n", " 28 \n", " \n", " 1977 \n", " \n", " 3 \n", " \n", " 2 \n", " \n", " 2 \n", " \n", " 2 \n", " \n", " 2 \n", " \n", " 2 \n", " \n", " 1 \n", " \n", " 1998 \n", " NULL9.0NULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULL
284321999-01-011977-03-0130065\n", " 0 \n", " 522312152322001001\n", " 71 \n", " \n", " -1878 \n", " \n", " 179 \n", " \n", " 69 \n", " \n", " 110 \n", " \n", " 80 \n", " \n", " 120 \n", " \n", " 80 \n", " \n", " 10 \n", " \n", " 18 \n", " \n", " 235 \n", " \n", " 733 \n", " \n", " 4 \n", " \n", " 10 \n", " \n", " nan \n", " \n", " 3 \n", " \n", " 4 \n", " \n", " 7 \n", " \n", " 1 \n", " \n", " 5 \n", " \n", " 2 \n", " \n", " 28 \n", " \n", " 1977 \n", " \n", " 3 \n", " \n", " 2 \n", " \n", " 2 \n", " \n", " 2 \n", " \n", " 2 \n", " \n", " 2 \n", " \n", " 1 \n", " \n", " 1999 \n", " NULL9.0NULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULL
\n", "\n", "

\n", " 28433 rows x 76 columns
\n", " memory usage: 16.09 MB
\n", " name: population
\n", " type: getml.DataFrame
\n", " \n", "

\n" ], "text/plain": [ " name REFERENCE_DATE ENTRY_DATE ICO TARGET ... DENUMR MESUMR ROKUMR PRICUMR \n", " role time_stamp time_stamp join_key target ... unused_string unused_string unused_string unused_string\n", " unit time stamp time stamp ... \n", " 0 1977-01-01 1976-10-01 10001 0 ... NULL NULL NULL NULL \n", " 1 1978-01-01 1976-10-01 10001 0 ... NULL NULL NULL NULL \n", " 2 1979-01-01 1976-10-01 10001 0 ... NULL NULL NULL NULL \n", " 3 1980-01-01 1976-10-01 10001 0 ... NULL NULL NULL NULL \n", " 4 1981-01-01 1976-10-01 10001 0 ... NULL NULL NULL NULL \n", " ... ... ... ... ... ... ... ... \n", "28428 1995-01-01 1977-03-01 30065 0 ... NULL NULL NULL NULL \n", "28429 1996-01-01 1977-03-01 30065 0 ... NULL NULL NULL NULL \n", "28430 1997-01-01 1977-03-01 30065 0 ... NULL NULL NULL NULL \n", "28431 1998-01-01 1977-03-01 30065 0 ... NULL NULL NULL NULL \n", "28432 1999-01-01 1977-03-01 30065 0 ... NULL NULL NULL NULL \n", "\n", " name DEATH_DATE \n", " role unused_string\n", " unit \n", " 0 NULL \n", " 1 NULL \n", " 2 NULL \n", " 3 NULL \n", " 4 NULL \n", " ... \n", "28428 NULL \n", "28429 NULL \n", "28430 NULL \n", "28431 NULL \n", "28432 NULL \n", "\n", "\n", "28433 rows x 76 columns\n", "memory usage: 16.09 MB\n", "type: getml.DataFrame" ] }, "execution_count": 3, "metadata": {}, "output_type": "execute_result" } ], "source": [ "population" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "__Contr:__ peripheral table\n", "\n" ] }, { "cell_type": "code", "execution_count": 4, "metadata": {}, "outputs": [ { "data": { "text/html": [ "\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
nameCONTROL_DATE ICOZMTELAKT AKTPOZAM ZMDIET LEKTLAK ZMKOUR POCCIG PRACNES JINAONE BOLHR BOLDK DUSN HODNSK HYPERD HYPCHL HYPTGL HMOT CHLST HDL HDLMG LDL ROKVYS MESVYS PORADK ZMCHARZA MOCLEKCHOL SRDCE HYPERT CEVMOZ DIAB HODN0 ROK0 HODN1 ROK1 HODN2 ROK2 HODN3 ROK3 HODN4 ROK4 HODN11 ROK11 HODN12 ROK12 HODN13 ROK13 HODN14 ROK14 HODN15 ROK15 HODN21 ROK21 HODN23 ROK23 SYST DIAST TRIC SUBSC HYPERSD HYPERS CHLSTMG TRIGL TRIGLMG GLYKEMIE KYSMOC
role time_stampjoin_keycategoricalcategoricalcategoricalcategoricalcategoricalcategoricalcategoricalcategoricalcategoricalcategoricalcategoricalcategoricalcategoricalcategoricalcategoricalnumericalnumericalnumericalnumericalnumericalunused_floatunused_floatunused_floatunused_floatunused_floatunused_stringunused_stringunused_stringunused_stringunused_stringunused_stringunused_stringunused_stringunused_stringunused_stringunused_stringunused_stringunused_stringunused_stringunused_stringunused_stringunused_stringunused_stringunused_stringunused_stringunused_stringunused_stringunused_stringunused_stringunused_stringunused_stringunused_stringunused_stringunused_stringunused_stringunused_stringunused_stringunused_stringunused_stringunused_stringunused_stringunused_stringunused_stringunused_stringunused_string
unit time stamp
01977-09-0110001321220.012.011122.02.02.0\n", " 71 \n", " \n", " 5.61\n", " \n", " nan \n", " \n", " nan \n", " \n", " nan \n", " \n", " 1977 \n", " \n", " 9 \n", " \n", " 1 \n", " \n", " 20 \n", " \n", " 1 \n", " NULLNULLNULLNULLNULL0.00.0NULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULL130.090.04.012.02.02.0217.01.22108.0NULLNULL
11979-01-0110001111210.0212122.02.02.0\n", " 72 \n", " \n", " 6 \n", " \n", " nan \n", " \n", " nan \n", " \n", " nan \n", " \n", " 1979 \n", " \n", " 1 \n", " \n", " 2 \n", " \n", " 20 \n", " \n", " 3 \n", " NULLNULLNULLNULLNULL0.00.0NULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULL140.090.04.011.02.02.0232.04.4389.0NULLNULL
21980-04-0110001211210.0221122.02.02.0\n", " 71 \n", " \n", " 6.23\n", " \n", " nan \n", " \n", " nan \n", " \n", " nan \n", " \n", " 1980 \n", " \n", " 4 \n", " \n", " 3 \n", " \n", " 20 \n", " \n", " 1 \n", " NULLNULLNULLNULLNULL0.00.0NULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULL130.090.05.022.02.02.0241.01.51134.0NULLNULL
31982-01-0110001211210.012.011122.02.02.0\n", " 74 \n", " \n", " 5.2\n", " \n", " nan \n", " \n", " nan \n", " \n", " nan \n", " \n", " 1982 \n", " \n", " 1 \n", " \n", " 4 \n", " \n", " 20 \n", " \n", " 1 \n", " NULLNULLNULLNULLNULL0.00.0NULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULL150.0100.09.018.02.02.0201.01.42126.0NULLNULL
41983-02-0110001221210.0212122.02.02.0\n", " 73 \n", " \n", " 6.08\n", " \n", " 1.47\n", " \n", " 57 \n", " \n", " 4.15\n", " \n", " 1983 \n", " \n", " 2 \n", " \n", " 5 \n", " \n", " 20 \n", " \n", " 1 \n", " NULLNULLNULLNULLNULL0.00.0NULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULL165.0105.07.015.02.02.0235.00.9988.0NULLNULL
...................................................\n", " ... \n", " \n", " ... \n", " \n", " ... \n", " \n", " ... \n", " \n", " ... \n", " \n", " ... \n", " \n", " ... \n", " \n", " ... \n", " \n", " ... \n", " \n", " ... \n", " ........................................................................................................................
105671987-10-0120358221210.0241132.02.02.0\n", " 85 \n", " \n", " 4.89\n", " \n", " 0.98\n", " \n", " 38 \n", " \n", " 3.11\n", " \n", " 1987 \n", " \n", " 10 \n", " \n", " 1 \n", " \n", " 20 \n", " \n", " 1 \n", " NULLNULLNULLNULLNULL0.00.0NULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULL120.080.0NULLNULL2.02.0189.01.74154.0NULLNULL
105681987-11-01203592212114.0211132.02.02.0\n", " 80 \n", " \n", " 4.5\n", " \n", " 0.98\n", " \n", " 38 \n", " \n", " 3.16\n", " \n", " 1987 \n", " \n", " 11 \n", " \n", " 1 \n", " \n", " 20 \n", " \n", " 1 \n", " NULLNULLNULLNULLNULL0.00.0NULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULL100.070.0NULLNULL2.02.0174.00.7970.0NULLNULL
105691987-10-0120360225210.0221232.02.02.0\n", " 95 \n", " \n", " 5.51\n", " \n", " 1.29\n", " \n", " 50 \n", " \n", " 3.68\n", " \n", " 1987 \n", " \n", " 10 \n", " \n", " 1 \n", " \n", " 40 \n", " \n", " 1 \n", " NULLNULLNULLNULLNULL0.00.0NULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULL120.080.0NULLNULL2.02.0213.01.18104.0NULLNULL
105701987-10-0120362121210.0264132.02.02.0\n", " 56 \n", " \n", " 4.89\n", " \n", " 3 \n", " \n", " 116 \n", " \n", " 1.51\n", " \n", " 1987 \n", " \n", " 10 \n", " \n", " 1 \n", " \n", " 40 \n", " \n", " 1 \n", " NULLNULLNULLNULLNULL0.00.0NULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULL140.085.0NULLNULL2.02.0189.00.8273.0NULLNULL
105711978-09-01300372112315.0241242.02.01.0\n", " 72 \n", " \n", " 5.61\n", " \n", " nan \n", " \n", " nan \n", " \n", " nan \n", " \n", " 1978 \n", " \n", " 9 \n", " \n", " 1 \n", " \n", " 20 \n", " \n", " 1 \n", " NULLNULLNULLNULLNULL0.00.0NULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULLNULL125.090.09.017.02.02.0217.0NULLNULLNULLNULL
\n", "\n", "

\n", " 10572 rows x 67 columns
\n", " memory usage: 5.82 MB
\n", " name: contr
\n", " type: getml.DataFrame
\n", " \n", "

\n" ], "text/plain": [ " name CONTROL_DATE ICO ZMTELAKT AKTPOZAM ... CHLSTMG TRIGL TRIGLMG \n", " role time_stamp join_key categorical categorical ... unused_string unused_string unused_string\n", " unit time stamp ... \n", " 0 1977-09-01 10001 3 2 ... 217.0 1.22 108.0 \n", " 1 1979-01-01 10001 1 1 ... 232.0 4.4 389.0 \n", " 2 1980-04-01 10001 2 1 ... 241.0 1.51 134.0 \n", " 3 1982-01-01 10001 2 1 ... 201.0 1.42 126.0 \n", " 4 1983-02-01 10001 2 2 ... 235.0 0.99 88.0 \n", " ... ... ... ... ... ... ... \n", "10567 1987-10-01 20358 2 2 ... 189.0 1.74 154.0 \n", "10568 1987-11-01 20359 2 2 ... 174.0 0.79 70.0 \n", "10569 1987-10-01 20360 2 2 ... 213.0 1.18 104.0 \n", "10570 1987-10-01 20362 1 2 ... 189.0 0.82 73.0 \n", "10571 1978-09-01 30037 2 1 ... 217.0 NULL NULL \n", "\n", " name GLYKEMIE KYSMOC \n", " role unused_string unused_string\n", " unit \n", " 0 NULL NULL \n", " 1 NULL NULL \n", " 2 NULL NULL \n", " 3 NULL NULL \n", " 4 NULL NULL \n", " ... ... \n", "10567 NULL NULL \n", "10568 NULL NULL \n", "10569 NULL NULL \n", "10570 NULL NULL \n", "10571 NULL NULL \n", "\n", "\n", "10572 rows x 67 columns\n", "memory usage: 5.82 MB\n", "type: getml.DataFrame" ] }, "execution_count": 4, "metadata": {}, "output_type": "execute_result" } ], "source": [ "contr" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### 1.3 Define relational model\n", "\n", "To start with relational learning, we need to specify an abstract data model. Here, we use the [high-level star schema API](https://docs.getml.com/latest/api/getml.data.StarSchema.html) that allows us to define the abstract data model and construct a [container](https://docs.getml.com/latest/api/getml.data.Container.html) with the concrete data at one-go. While a simple `StarSchema` indeed works in many cases, it is not sufficient for more complex data models like schoflake schemas, where you would have to define the data model and construct the container in separate steps, by utilzing getML's [full-fledged data model](https://docs.getml.com/latest/api/getml.data.DataModel.html) and [container](https://docs.getml.com/latest/api/getml.data.Container.html) APIs respectively." ] }, { "cell_type": "code", "execution_count": 5, "metadata": {}, "outputs": [], "source": [ "split = getml.data.split.random(train=0.7, test=0.3)" ] }, { "cell_type": "code", "execution_count": 6, "metadata": {}, "outputs": [ { "data": { "text/html": [ "data model\n", "
\n", "
diagram
\n", "
contrpopulationICO = ICOCONTROL_DATE <= REFERENCE_DATE
\n", "
\n", "\n", "
\n", "
staging
\n", " \n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
data framesstaging table
0populationPOPULATION__STAGING_TABLE_1
1contrCONTR__STAGING_TABLE_2
\n", "
\n", " \n", "container\n", "
\n", "
\n", "
population
\n", " \n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
subsetname rowstype
0testpopulation8557View
1trainpopulation19876View
\n", "
\n", "
\n", "
peripheral
\n", " \n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
name rowstype
0contr10572DataFrame
\n", "
\n", "
" ], "text/plain": [ "data model\n", "\n", " population:\n", " columns:\n", " - KONSKUP: categorical\n", " - STAV: categorical\n", " - VZDELANI: categorical\n", " - ZODPOV: categorical\n", " - TELAKTZA: categorical\n", " - ...\n", "\n", " joins:\n", " - right: 'contr'\n", " on: (population.ICO, contr.ICO)\n", " time_stamps: (population.REFERENCE_DATE, contr.CONTROL_DATE)\n", " relationship: 'many-to-many'\n", " lagged_targets: False\n", "\n", " contr:\n", " columns:\n", " - ZMTELAKT: categorical\n", " - AKTPOZAM: categorical\n", " - ZMDIET: categorical\n", " - LEKTLAK: categorical\n", " - ZMKOUR: categorical\n", " - ...\n", "\n", "\n", "container\n", "\n", " population\n", " subset name rows type\n", " 0 test population 8557 View\n", " 1 train population 19876 View\n", "\n", " peripheral\n", " name rows type \n", " 0 contr 10572 DataFrame" ] }, "execution_count": 6, "metadata": {}, "output_type": "execute_result" } ], "source": [ "star_schema = getml.data.StarSchema(population, split=split)\n", "\n", "star_schema.join(\n", " contr,\n", " on=\"ICO\",\n", " time_stamps=(\"REFERENCE_DATE\", \"CONTROL_DATE\")\n", ")\n", "\n", "star_schema" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## 2. Predictive modeling\n", "\n", "We loaded the data, defined the roles, units and the abstract data model. Next, we create a getML pipeline for relational learning." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### 2.1 Fitting the pipeline\n", "\n", "To illustrate the problem of computational complexity, we fit two getML pipelines using different feature learning algorithms:\n", "\n", "The first pipeline uses `RelMT` and the second pipeline uses `Relboost`. To demonstrate the power of feature ensembling, we build a third pipeline that uses both algorithms. At the end, we compare the runtime and predictive accuracies of all three pipelines." ] }, { "cell_type": "code", "execution_count": 7, "metadata": {}, "outputs": [], "source": [ "relmt = getml.feature_learning.RelMT(\n", " num_features=30,\n", " loss_function=getml.feature_learning.loss_functions.CrossEntropyLoss,\n", " num_threads=1\n", ")\n", "\n", "relboost = getml.feature_learning.Relboost(\n", " num_features=60,\n", " loss_function=getml.feature_learning.loss_functions.CrossEntropyLoss,\n", " min_num_samples=500,\n", " max_depth=2,\n", " num_threads=1\n", ")\n", "\n", "feature_selector = getml.predictors.XGBoostClassifier()\n", "\n", "xgboost = getml.predictors.XGBoostClassifier(\n", " max_depth=5,\n", " reg_lambda=100.0,\n", " learning_rate=0.1\n", ")" ] }, { "cell_type": "code", "execution_count": 8, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
Pipeline(data_model='population',\n",
       "         feature_learners=['RelMT'],\n",
       "         feature_selectors=['XGBoostClassifier'],\n",
       "         include_categorical=True,\n",
       "         loss_function='CrossEntropyLoss',\n",
       "         peripheral=['contr'],\n",
       "         predictors=['XGBoostClassifier'],\n",
       "         preprocessors=[],\n",
       "         share_selected_features=0.8,\n",
       "         tags=['relmt'])
" ], "text/plain": [ "Pipeline(data_model='population',\n", " feature_learners=['RelMT'],\n", " feature_selectors=['XGBoostClassifier'],\n", " include_categorical=True,\n", " loss_function='CrossEntropyLoss',\n", " peripheral=['contr'],\n", " predictors=['XGBoostClassifier'],\n", " preprocessors=[],\n", " share_selected_features=0.8,\n", " tags=['relmt'])" ] }, "execution_count": 8, "metadata": {}, "output_type": "execute_result" } ], "source": [ "pipe1 = getml.pipeline.Pipeline(\n", " tags=[\"relmt\"],\n", " data_model=star_schema.data_model,\n", " feature_learners=relmt,\n", " feature_selectors=feature_selector,\n", " share_selected_features=0.8,\n", " predictors=xgboost,\n", " include_categorical=True\n", ")\n", "\n", "pipe1" ] }, { "cell_type": "code", "execution_count": 9, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
Pipeline(data_model='population',\n",
       "         feature_learners=['Relboost'],\n",
       "         feature_selectors=['XGBoostClassifier'],\n",
       "         include_categorical=True,\n",
       "         loss_function='CrossEntropyLoss',\n",
       "         peripheral=['contr'],\n",
       "         predictors=['XGBoostClassifier'],\n",
       "         preprocessors=[],\n",
       "         share_selected_features=0.8,\n",
       "         tags=['relboost'])
" ], "text/plain": [ "Pipeline(data_model='population',\n", " feature_learners=['Relboost'],\n", " feature_selectors=['XGBoostClassifier'],\n", " include_categorical=True,\n", " loss_function='CrossEntropyLoss',\n", " peripheral=['contr'],\n", " predictors=['XGBoostClassifier'],\n", " preprocessors=[],\n", " share_selected_features=0.8,\n", " tags=['relboost'])" ] }, "execution_count": 9, "metadata": {}, "output_type": "execute_result" } ], "source": [ "pipe2 = getml.pipeline.Pipeline(\n", " tags=[\"relboost\"],\n", " data_model=star_schema.data_model,\n", " feature_learners=relboost,\n", " feature_selectors=feature_selector,\n", " share_selected_features=0.8, \n", " predictors=xgboost,\n", " include_categorical=True\n", ")\n", "\n", "pipe2" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "We begin with RelMT. Features generated by RelMT suffer from quadratic complexity. Luckily, the number of columns is not too high, so it is still manageble." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "It always a good idea to check before fitting. There is one minor warning: This warning means that about 12% of patients never appear in CONTR (presumably because they never showed up to their health check-ups)." ] }, { "cell_type": "code", "execution_count": 10, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Checking data model...\n", "Staging... 100% |██████████| [elapsed: 00:00, remaining: 00:00] \n", "Checking... 100% |██████████| [elapsed: 00:00, remaining: 00:00] \n", "\n", "The pipeline check generated 1 issues labeled INFO and 0 issues labeled WARNING.\n" ] }, { "data": { "text/html": [ "\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
typelabel message
0INFOFOREIGN KEYS NOT FOUNDWhen joining POPULATION__STAGING_TABLE_1 and CONTR__STAGING_TABLE_2 over 'ICO' and 'ICO', there are no corresponding entries for 12.291205% of entries in 'ICO' in 'POPULATION__STAGING_TABLE_1'. You might want to double-check your join keys.
" ], "text/plain": [ " type label message \n", "0 INFO FOREIGN KEYS NOT FOUND When joining POPULATION__STAGING..." ] }, "execution_count": 10, "metadata": {}, "output_type": "execute_result" } ], "source": [ "pipe1.check(star_schema.train)" ] }, { "cell_type": "code", "execution_count": 11, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Checking data model...\n", "Staging... 100% |██████████| [elapsed: 00:00, remaining: 00:00] \n", "\n", "The pipeline check generated 1 issues labeled INFO and 0 issues labeled WARNING.\n", "To see the issues in full, run .check() on the pipeline.\n", "\n", "Staging... 100% |██████████| [elapsed: 00:00, remaining: 00:00] \n", "RelMT: Training features... 100% |██████████| [elapsed: 04:39, remaining: 00:00] \n", "RelMT: Building features... 100% |██████████| [elapsed: 00:01, remaining: 00:00] \n", "XGBoost: Training as feature selector... 100% |██████████| [elapsed: 00:03, remaining: 00:00] \n", "XGBoost: Training as predictor... 100% |██████████| [elapsed: 00:04, remaining: 00:00] \n", "\n", "Trained pipeline.\n", "Time taken: 0h:4m:47.297086\n", "\n" ] }, { "data": { "text/html": [ "
Pipeline(data_model='population',\n",
       "         feature_learners=['RelMT'],\n",
       "         feature_selectors=['XGBoostClassifier'],\n",
       "         include_categorical=True,\n",
       "         loss_function='CrossEntropyLoss',\n",
       "         peripheral=['contr'],\n",
       "         predictors=['XGBoostClassifier'],\n",
       "         preprocessors=[],\n",
       "         share_selected_features=0.8,\n",
       "         tags=['relmt', 'container-9DTKIA'])
" ], "text/plain": [ "Pipeline(data_model='population',\n", " feature_learners=['RelMT'],\n", " feature_selectors=['XGBoostClassifier'],\n", " include_categorical=True,\n", " loss_function='CrossEntropyLoss',\n", " peripheral=['contr'],\n", " predictors=['XGBoostClassifier'],\n", " preprocessors=[],\n", " share_selected_features=0.8,\n", " tags=['relmt', 'container-9DTKIA'])" ] }, "execution_count": 11, "metadata": {}, "output_type": "execute_result" } ], "source": [ "pipe1.fit(star_schema.train)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Let's see how well Relboost does. This algorithm has linear complexity in the number of columns." ] }, { "cell_type": "code", "execution_count": 12, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Checking data model...\n", "Staging... 100% |██████████| [elapsed: 00:00, remaining: 00:00] \n", "Checking... 100% |██████████| [elapsed: 00:00, remaining: 00:00] \n", "\n", "The pipeline check generated 1 issues labeled INFO and 0 issues labeled WARNING.\n", "To see the issues in full, run .check() on the pipeline.\n", "\n", "Staging... 100% |██████████| [elapsed: 00:00, remaining: 00:00] \n", "Relboost: Training features... 100% |██████████| [elapsed: 00:19, remaining: 00:00] \n", "Relboost: Building features... 100% |██████████| [elapsed: 00:02, remaining: 00:00] \n", "XGBoost: Training as feature selector... 100% |██████████| [elapsed: 00:02, remaining: 00:00] \n", "XGBoost: Training as predictor... 100% |██████████| [elapsed: 00:03, remaining: 00:00] \n", "\n", "Trained pipeline.\n", "Time taken: 0h:0m:25.559479\n", "\n" ] }, { "data": { "text/html": [ "
Pipeline(data_model='population',\n",
       "         feature_learners=['Relboost'],\n",
       "         feature_selectors=['XGBoostClassifier'],\n",
       "         include_categorical=True,\n",
       "         loss_function='CrossEntropyLoss',\n",
       "         peripheral=['contr'],\n",
       "         predictors=['XGBoostClassifier'],\n",
       "         preprocessors=[],\n",
       "         share_selected_features=0.8,\n",
       "         tags=['relboost', 'container-9DTKIA'])
" ], "text/plain": [ "Pipeline(data_model='population',\n", " feature_learners=['Relboost'],\n", " feature_selectors=['XGBoostClassifier'],\n", " include_categorical=True,\n", " loss_function='CrossEntropyLoss',\n", " peripheral=['contr'],\n", " predictors=['XGBoostClassifier'],\n", " preprocessors=[],\n", " share_selected_features=0.8,\n", " tags=['relboost', 'container-9DTKIA'])" ] }, "execution_count": 12, "metadata": {}, "output_type": "execute_result" } ], "source": [ "pipe2.fit(star_schema.train)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Note that this runs through in under a minute. This demonstrates the power of computational complexity theory. If we had more columns, the difference between these two algorithms would become even more noticable." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### 2.2 Model evaluation" ] }, { "cell_type": "code", "execution_count": 13, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Staging... 100% |██████████| [elapsed: 00:00, remaining: 00:00] \n", "Preprocessing... 100% |██████████| [elapsed: 00:00, remaining: 00:00] \n", "RelMT: Building features... 100% |██████████| [elapsed: 00:01, remaining: 00:00] \n", "\n" ] }, { "data": { "text/html": [ "\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
date time set usedtargetaccuracy auccross entropy
02024-02-21 14:59:13trainTARGET0.98870.87680.05199
12024-02-21 14:59:39testTARGET0.98670.70680.06838
" ], "text/plain": [ " date time set used target accuracy auc cross entropy\n", "0 2024-02-21 14:59:13 train TARGET 0.9887 0.8768 0.05199\n", "1 2024-02-21 14:59:39 test TARGET 0.9867 0.7068 0.06838" ] }, "execution_count": 13, "metadata": {}, "output_type": "execute_result" } ], "source": [ "pipe1.score(star_schema.test)" ] }, { "cell_type": "code", "execution_count": 14, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Staging... 100% |██████████| [elapsed: 00:00, remaining: 00:00] \n", "Preprocessing... 100% |██████████| [elapsed: 00:00, remaining: 00:00] \n", "Relboost: Building features... 100% |██████████| [elapsed: 00:01, remaining: 00:00] \n", "\n" ] }, { "data": { "text/html": [ "\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
date time set usedtargetaccuracy auccross entropy
02024-02-21 14:59:38trainTARGET0.98780.88810.05407
12024-02-21 14:59:40testTARGET0.98670.71290.06743
" ], "text/plain": [ " date time set used target accuracy auc cross entropy\n", "0 2024-02-21 14:59:38 train TARGET 0.9878 0.8881 0.05407\n", "1 2024-02-21 14:59:40 test TARGET 0.9867 0.7129 0.06743" ] }, "execution_count": 14, "metadata": {}, "output_type": "execute_result" } ], "source": [ "pipe2.score(star_schema.test)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### 2.3 Studying the features\n", "\n", "It is always a good idea to study the features generated by the algorithms." ] }, { "cell_type": "code", "execution_count": 15, "metadata": {}, "outputs": [ { "data": { "image/png": "", "text/plain": [ "
" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "names, correlations = pipe2.features.correlations()\n", "\n", "plt.subplots(figsize=(20, 10))\n", "\n", "plt.bar(names, correlations)\n", "\n", "plt.title(\"feature correlations\")\n", "plt.grid(True)\n", "plt.xlabel(\"features\")\n", "plt.ylabel(\"correlations\")\n", "plt.xticks(rotation='vertical')\n", "\n", "plt.show()" ] }, { "cell_type": "code", "execution_count": 16, "metadata": {}, "outputs": [ { "data": { "image/png": "", "text/plain": [ "
" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "names, importances = pipe2.features.importances()\n", "\n", "plt.subplots(figsize=(20, 10))\n", "\n", "plt.bar(names, importances)\n", "\n", "plt.title(\"feature importances\")\n", "plt.grid(True)\n", "plt.xlabel(\"features\")\n", "plt.ylabel(\"importances\")\n", "plt.xticks(rotation='vertical')\n", "\n", "plt.show()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "As we can see from these figures we need many features to get a good result. No single feature is very correlated with the target and the feature importance is not concentrated on a small number of features (as is often the case with other data sets).\n", "\n", "This implies that the many columns in the data set are actually needed. The reason we emphasize that is that we sometimes see data sets with many columns, but after analyzing them we find and only a handful of these columns are actually needed. This is not one of these times.\n", "\n", "The most important features look like this:" ] }, { "cell_type": "code", "execution_count": 17, "metadata": {}, "outputs": [ { "data": { "text/markdown": [ "```sql\n", "DROP TABLE IF EXISTS \"FEATURE_1_2\";\n", "\n", "CREATE TABLE \"FEATURE_1_2\" AS\n", "SELECT SUM( \n", " CASE\n", " WHEN ( t2.\"zmkour\" IN ( '7' ) ) AND ( t1.\"reference_date\" > 852038400.000000 ) THEN COALESCE( t1.\"age\" - 58.55541532813217, 0.0 ) * 0.6992075915192288 + COALESCE( t1.\"participation\" - -1887.414410279945, 0.0 ) * -0.3722162052975991 + COALESCE( t1.\"vyska\" - 174.626548875631, 0.0 ) * 0.002072665325539906 + COALESCE( t1.\"vaha\" - 80.15500229463056, 0.0 ) * 0.7135789936249097 + COALESCE( t1.\"syst1\" - 132.0390087195962, 0.0 ) * 0.6204509957556447 + COALESCE( t1.\"diast1\" - 83.58329508949059, 0.0 ) * -0.2852251406284317 + COALESCE( t1.\"syst2\" - 129.4263423588802, 0.0 ) * 0.5416045970884422 + COALESCE( t1.\"diast2\" - 83.2121385956861, 0.0 ) * -0.7691376230609942 + COALESCE( t1.\"tric\" - 9.410853602569986, 0.0 ) * -0.4921979178739925 + COALESCE( t1.\"subsc\" - 18.22670949977054, 0.0 ) * 0.2235547808836321 + COALESCE( t1.\"chlst\" - 232.7238412115649, 0.0 ) * -0.2305456390285043 + COALESCE( t1.\"trigl\" - 134.5320100963745, 0.0 ) * -0.08732404144815611 + COALESCE( t1.\"koureni\" - 3.382973841211565, 0.0 ) * 3.578257813757872 + COALESCE( t1.\"dobakour\" - 6.960188159706287, 0.0 ) * 3.420605423460954 + COALESCE( t1.\"byvkurak\" - 1.689421753097751, 0.0 ) * 1.468999926745384 + COALESCE( t1.\"pivomn\" - 1.800826067003213, 0.0 ) * 2.006077827378471 + COALESCE( t1.\"vinomn\" - 4.298990362551629, 0.0 ) * 1.509295328270136 + COALESCE( t1.\"lihmn\" - 6.948141349242772, 0.0 ) * 1.689453613870151 + COALESCE( t1.\"kava\" - 1.919343735658559, 0.0 ) * 15.33082510657582 + COALESCE( t1.\"caj\" - 4.731642955484167, 0.0 ) * 10.97404738286759 + COALESCE( t1.\"cukr\" - 4.495869664983938, 0.0 ) * 1.130351262906143 + COALESCE( t1.\"reference_date\" - 614493572.4644332, 0.0 ) * -1.551420482850177e-08 + COALESCE( t1.\"entry_date\" - 230484053.9697109, 0.0 ) * -2.196562174142811e-07 + COALESCE( t2.\"hmot\" - 81.27387640449439, 0.0 ) * 0.2535134048176608 + COALESCE( t2.\"hdlmg\" - 35.46147672552167, 0.0 ) * -0.04134495275193414 + COALESCE( t2.\"chlst\" - 5.892755818619529, 0.0 ) * -10.72183117055155 + COALESCE( t2.\"hdl\" - 0.9149819422150931, 0.0 ) * -1.580592374193315 + COALESCE( t2.\"ldl\" - 2.463498194221503, 0.0 ) * -1.709624186115308 + COALESCE( t2.\"control_date\" - 533301113.6436597, 0.0 ) * -6.539468045584373e-08 + 6.5967578763439345e+00\n", " WHEN ( t2.\"zmkour\" IN ( '7' ) ) AND ( t1.\"reference_date\" <= 852038400.000000 OR t1.\"reference_date\" IS NULL ) THEN COALESCE( t1.\"age\" - 58.55541532813217, 0.0 ) * 7.009110879137228 + COALESCE( t1.\"participation\" - -1887.414410279945, 0.0 ) * 13.11693059229238 + COALESCE( t1.\"vyska\" - 174.626548875631, 0.0 ) * 1.269893142479568 + COALESCE( t1.\"vaha\" - 80.15500229463056, 0.0 ) * -3.162664037823355 + COALESCE( t1.\"syst1\" - 132.0390087195962, 0.0 ) * 0.3787421899628546 + COALESCE( t1.\"diast1\" - 83.58329508949059, 0.0 ) * 1.971210134455975 + COALESCE( t1.\"syst2\" - 129.4263423588802, 0.0 ) * 0.6635424419434129 + COALESCE( t1.\"diast2\" - 83.2121385956861, 0.0 ) * -2.939270936123821 + COALESCE( t1.\"tric\" - 9.410853602569986, 0.0 ) * 2.383223854209837 + COALESCE( t1.\"subsc\" - 18.22670949977054, 0.0 ) * 1.498266105418248 + COALESCE( t1.\"chlst\" - 232.7238412115649, 0.0 ) * -0.0517718309107393 + COALESCE( t1.\"trigl\" - 134.5320100963745, 0.0 ) * 0.2276783275568421 + COALESCE( t1.\"koureni\" - 3.382973841211565, 0.0 ) * -4.23254041935678 + COALESCE( t1.\"dobakour\" - 6.960188159706287, 0.0 ) * 5.719150573247517 + COALESCE( t1.\"byvkurak\" - 1.689421753097751, 0.0 ) * 2.70196864001066 + COALESCE( t1.\"pivomn\" - 1.800826067003213, 0.0 ) * 18.79720042999637 + COALESCE( t1.\"vinomn\" - 4.298990362551629, 0.0 ) * -10.93785280575887 + COALESCE( t1.\"lihmn\" - 6.948141349242772, 0.0 ) * -13.52764654128384 + COALESCE( t1.\"kava\" - 1.919343735658559, 0.0 ) * 15.62103938182056 + COALESCE( t1.\"caj\" - 4.731642955484167, 0.0 ) * -8.797933019568511 + COALESCE( t1.\"cukr\" - 4.495869664983938, 0.0 ) * -3.757872625493459 + COALESCE( t1.\"reference_date\" - 614493572.4644332, 0.0 ) * -6.356934996127425e-07 + COALESCE( t1.\"entry_date\" - 230484053.9697109, 0.0 ) * 5.640187513549882e-07 + COALESCE( t2.\"hmot\" - 81.27387640449439, 0.0 ) * 3.023356785615304 + COALESCE( t2.\"hdlmg\" - 35.46147672552167, 0.0 ) * -0.7240192100118329 + COALESCE( t2.\"chlst\" - 5.892755818619529, 0.0 ) * -4.024059582855235 + COALESCE( t2.\"hdl\" - 0.9149819422150931, 0.0 ) * -29.58919968380793 + COALESCE( t2.\"ldl\" - 2.463498194221503, 0.0 ) * 1.778411316422035 + COALESCE( t2.\"control_date\" - 533301113.6436597, 0.0 ) * 2.163236433930246e-07 + -7.9015375976371462e+00\n", " WHEN ( t2.\"zmkour\" NOT IN ( '7' ) OR t2.\"zmkour\" IS NULL ) AND ( t1.\"htrisk\" IN ( '6' ) ) THEN COALESCE( t1.\"age\" - 58.55541532813217, 0.0 ) * -3.397114537185319 + COALESCE( t1.\"participation\" - -1887.414410279945, 0.0 ) * -8.217148782839798 + COALESCE( t1.\"vyska\" - 174.626548875631, 0.0 ) * 0.8989975149085871 + COALESCE( t1.\"vaha\" - 80.15500229463056, 0.0 ) * -1.237315019051493 + COALESCE( t1.\"syst1\" - 132.0390087195962, 0.0 ) * -0.9928276153180301 + COALESCE( t1.\"diast1\" - 83.58329508949059, 0.0 ) * -2.788494436812396 + COALESCE( t1.\"syst2\" - 129.4263423588802, 0.0 ) * -0.4818397334334769 + COALESCE( t1.\"diast2\" - 83.2121385956861, 0.0 ) * 6.971936650721264 + COALESCE( t1.\"tric\" - 9.410853602569986, 0.0 ) * -3.694055970730235 + COALESCE( t1.\"subsc\" - 18.22670949977054, 0.0 ) * -5.857003884016523 + COALESCE( t1.\"chlst\" - 232.7238412115649, 0.0 ) * 2.110663998001987 + COALESCE( t1.\"trigl\" - 134.5320100963745, 0.0 ) * 0.1191325417763164 + COALESCE( t1.\"koureni\" - 3.382973841211565, 0.0 ) * -19.83587241194438 + COALESCE( t1.\"dobakour\" - 6.960188159706287, 0.0 ) * -0.6739075204128018 + COALESCE( t1.\"byvkurak\" - 1.689421753097751, 0.0 ) * -2.401197249091638e-07 + COALESCE( t1.\"pivomn\" - 1.800826067003213, 0.0 ) * 43.42691366138832 + COALESCE( t1.\"vinomn\" - 4.298990362551629, 0.0 ) * -188.452548812023 + COALESCE( t1.\"lihmn\" - 6.948141349242772, 0.0 ) * 149.8317616555433 + COALESCE( t1.\"kava\" - 1.919343735658559, 0.0 ) * -7.92533116285952 + COALESCE( t1.\"caj\" - 4.731642955484167, 0.0 ) * 7.371945970513856 + COALESCE( t1.\"cukr\" - 4.495869664983938, 0.0 ) * -6.522018830745494 + COALESCE( t1.\"reference_date\" - 614493572.4644332, 0.0 ) * 3.705953810711698e-07 + COALESCE( t1.\"entry_date\" - 230484053.9697109, 0.0 ) * -1.783593808548376e-06 + COALESCE( t2.\"hmot\" - 81.27387640449439, 0.0 ) * -0.03696650252475624 + COALESCE( t2.\"hdlmg\" - 35.46147672552167, 0.0 ) * -0.8978599033836492 + COALESCE( t2.\"chlst\" - 5.892755818619529, 0.0 ) * -2.613193795898457 + COALESCE( t2.\"hdl\" - 0.9149819422150931, 0.0 ) * 33.10188686443065 + COALESCE( t2.\"ldl\" - 2.463498194221503, 0.0 ) * 2.062126624888299 + COALESCE( t2.\"control_date\" - 533301113.6436597, 0.0 ) * -5.886932876564901e-10 + -1.0081350693584685e+02\n", " WHEN ( t2.\"zmkour\" NOT IN ( '7' ) OR t2.\"zmkour\" IS NULL ) AND ( t1.\"htrisk\" NOT IN ( '6' ) OR t1.\"htrisk\" IS NULL ) THEN COALESCE( t1.\"age\" - 58.55541532813217, 0.0 ) * 0.002419801161207402 + COALESCE( t1.\"participation\" - -1887.414410279945, 0.0 ) * -0.06277853150672247 + COALESCE( t1.\"vyska\" - 174.626548875631, 0.0 ) * 0.002571038648386481 + COALESCE( t1.\"vaha\" - 80.15500229463056, 0.0 ) * -0.005578860882900542 + COALESCE( t1.\"syst1\" - 132.0390087195962, 0.0 ) * -0.001057898151656378 + COALESCE( t1.\"diast1\" - 83.58329508949059, 0.0 ) * 0.004014557721064409 + COALESCE( t1.\"syst2\" - 129.4263423588802, 0.0 ) * 0.001873173639385572 + COALESCE( t1.\"diast2\" - 83.2121385956861, 0.0 ) * 0.0002124825706128939 + COALESCE( t1.\"tric\" - 9.410853602569986, 0.0 ) * -0.002640732624754488 + COALESCE( t1.\"subsc\" - 18.22670949977054, 0.0 ) * 0.0001474535382830381 + COALESCE( t1.\"chlst\" - 232.7238412115649, 0.0 ) * -0.0001256948379644612 + COALESCE( t1.\"trigl\" - 134.5320100963745, 0.0 ) * -3.474245058868025e-05 + COALESCE( t1.\"koureni\" - 3.382973841211565, 0.0 ) * 0.0132708577852937 + COALESCE( t1.\"dobakour\" - 6.960188159706287, 0.0 ) * 0.002454283595539609 + COALESCE( t1.\"byvkurak\" - 1.689421753097751, 0.0 ) * -0.0003505117806351746 + COALESCE( t1.\"pivomn\" - 1.800826067003213, 0.0 ) * 0.02562835710639392 + COALESCE( t1.\"vinomn\" - 4.298990362551629, 0.0 ) * -0.005171308330700418 + COALESCE( t1.\"lihmn\" - 6.948141349242772, 0.0 ) * -0.004672335054095883 + COALESCE( t1.\"kava\" - 1.919343735658559, 0.0 ) * 0.02581134186668081 + COALESCE( t1.\"caj\" - 4.731642955484167, 0.0 ) * -0.01154259733921239 + COALESCE( t1.\"cukr\" - 4.495869664983938, 0.0 ) * 0.002194525846818011 + COALESCE( t1.\"reference_date\" - 614493572.4644332, 0.0 ) * 3.411798694161753e-09 + COALESCE( t1.\"entry_date\" - 230484053.9697109, 0.0 ) * -2.075596685480708e-09 + COALESCE( t2.\"hmot\" - 81.27387640449439, 0.0 ) * 0.004478272836447239 + COALESCE( t2.\"hdlmg\" - 35.46147672552167, 0.0 ) * -0.002438061446690539 + COALESCE( t2.\"chlst\" - 5.892755818619529, 0.0 ) * -0.02099226608599071 + COALESCE( t2.\"hdl\" - 0.9149819422150931, 0.0 ) * 0.03134631902567388 + COALESCE( t2.\"ldl\" - 2.463498194221503, 0.0 ) * 0.02487247493931399 + COALESCE( t2.\"control_date\" - 533301113.6436597, 0.0 ) * -2.655718509874403e-09 + -2.7439158467228797e-01\n", " ELSE NULL\n", " END\n", ") AS \"feature_1_2\",\n", " t1.rowid AS rownum\n", "FROM \"POPULATION__STAGING_TABLE_1\" t1\n", "INNER JOIN \"CONTR__STAGING_TABLE_2\" t2\n", "ON t1.\"ico\" = t2.\"ico\"\n", "WHERE t2.\"control_date\" <= t1.\"reference_date\"\n", "GROUP BY t1.rowid;\n", "```" ], "text/plain": [ "'DROP TABLE IF EXISTS \"FEATURE_1_2\";\\n\\nCREATE TABLE \"FEATURE_1_2\" AS\\nSELECT SUM( \\n CASE\\n WHEN ( t2.\"zmkour\" IN ( \\'7\\' ) ) AND ( t1.\"reference_date\" > 852038400.000000 ) THEN COALESCE( t1.\"age\" - 58.55541532813217, 0.0 ) * 0.6992075915192288 + COALESCE( t1.\"participation\" - -1887.414410279945, 0.0 ) * -0.3722162052975991 + COALESCE( t1.\"vyska\" - 174.626548875631, 0.0 ) * 0.002072665325539906 + COALESCE( t1.\"vaha\" - 80.15500229463056, 0.0 ) * 0.7135789936249097 + COALESCE( t1.\"syst1\" - 132.0390087195962, 0.0 ) * 0.6204509957556447 + COALESCE( t1.\"diast1\" - 83.58329508949059, 0.0 ) * -0.2852251406284317 + COALESCE( t1.\"syst2\" - 129.4263423588802, 0.0 ) * 0.5416045970884422 + COALESCE( t1.\"diast2\" - 83.2121385956861, 0.0 ) * -0.7691376230609942 + COALESCE( t1.\"tric\" - 9.410853602569986, 0.0 ) * -0.4921979178739925 + COALESCE( t1.\"subsc\" - 18.22670949977054, 0.0 ) * 0.2235547808836321 + COALESCE( t1.\"chlst\" - 232.7238412115649, 0.0 ) * -0.2305456390285043 + COALESCE( t1.\"trigl\" - 134.5320100963745, 0.0 ) * -0.08732404144815611 + COALESCE( t1.\"koureni\" - 3.382973841211565, 0.0 ) * 3.578257813757872 + COALESCE( t1.\"dobakour\" - 6.960188159706287, 0.0 ) * 3.420605423460954 + COALESCE( t1.\"byvkurak\" - 1.689421753097751, 0.0 ) * 1.468999926745384 + COALESCE( t1.\"pivomn\" - 1.800826067003213, 0.0 ) * 2.006077827378471 + COALESCE( t1.\"vinomn\" - 4.298990362551629, 0.0 ) * 1.509295328270136 + COALESCE( t1.\"lihmn\" - 6.948141349242772, 0.0 ) * 1.689453613870151 + COALESCE( t1.\"kava\" - 1.919343735658559, 0.0 ) * 15.33082510657582 + COALESCE( t1.\"caj\" - 4.731642955484167, 0.0 ) * 10.97404738286759 + COALESCE( t1.\"cukr\" - 4.495869664983938, 0.0 ) * 1.130351262906143 + COALESCE( t1.\"reference_date\" - 614493572.4644332, 0.0 ) * -1.551420482850177e-08 + COALESCE( t1.\"entry_date\" - 230484053.9697109, 0.0 ) * -2.196562174142811e-07 + COALESCE( t2.\"hmot\" - 81.27387640449439, 0.0 ) * 0.2535134048176608 + COALESCE( t2.\"hdlmg\" - 35.46147672552167, 0.0 ) * -0.04134495275193414 + COALESCE( t2.\"chlst\" - 5.892755818619529, 0.0 ) * -10.72183117055155 + COALESCE( t2.\"hdl\" - 0.9149819422150931, 0.0 ) * -1.580592374193315 + COALESCE( t2.\"ldl\" - 2.463498194221503, 0.0 ) * -1.709624186115308 + COALESCE( t2.\"control_date\" - 533301113.6436597, 0.0 ) * -6.539468045584373e-08 + 6.5967578763439345e+00\\n WHEN ( t2.\"zmkour\" IN ( \\'7\\' ) ) AND ( t1.\"reference_date\" <= 852038400.000000 OR t1.\"reference_date\" IS NULL ) THEN COALESCE( t1.\"age\" - 58.55541532813217, 0.0 ) * 7.009110879137228 + COALESCE( t1.\"participation\" - -1887.414410279945, 0.0 ) * 13.11693059229238 + COALESCE( t1.\"vyska\" - 174.626548875631, 0.0 ) * 1.269893142479568 + COALESCE( t1.\"vaha\" - 80.15500229463056, 0.0 ) * -3.162664037823355 + COALESCE( t1.\"syst1\" - 132.0390087195962, 0.0 ) * 0.3787421899628546 + COALESCE( t1.\"diast1\" - 83.58329508949059, 0.0 ) * 1.971210134455975 + COALESCE( t1.\"syst2\" - 129.4263423588802, 0.0 ) * 0.6635424419434129 + COALESCE( t1.\"diast2\" - 83.2121385956861, 0.0 ) * -2.939270936123821 + COALESCE( t1.\"tric\" - 9.410853602569986, 0.0 ) * 2.383223854209837 + COALESCE( t1.\"subsc\" - 18.22670949977054, 0.0 ) * 1.498266105418248 + COALESCE( t1.\"chlst\" - 232.7238412115649, 0.0 ) * -0.0517718309107393 + COALESCE( t1.\"trigl\" - 134.5320100963745, 0.0 ) * 0.2276783275568421 + COALESCE( t1.\"koureni\" - 3.382973841211565, 0.0 ) * -4.23254041935678 + COALESCE( t1.\"dobakour\" - 6.960188159706287, 0.0 ) * 5.719150573247517 + COALESCE( t1.\"byvkurak\" - 1.689421753097751, 0.0 ) * 2.70196864001066 + COALESCE( t1.\"pivomn\" - 1.800826067003213, 0.0 ) * 18.79720042999637 + COALESCE( t1.\"vinomn\" - 4.298990362551629, 0.0 ) * -10.93785280575887 + COALESCE( t1.\"lihmn\" - 6.948141349242772, 0.0 ) * -13.52764654128384 + COALESCE( t1.\"kava\" - 1.919343735658559, 0.0 ) * 15.62103938182056 + COALESCE( t1.\"caj\" - 4.731642955484167, 0.0 ) * -8.797933019568511 + COALESCE( t1.\"cukr\" - 4.495869664983938, 0.0 ) * -3.757872625493459 + COALESCE( t1.\"reference_date\" - 614493572.4644332, 0.0 ) * -6.356934996127425e-07 + COALESCE( t1.\"entry_date\" - 230484053.9697109, 0.0 ) * 5.640187513549882e-07 + COALESCE( t2.\"hmot\" - 81.27387640449439, 0.0 ) * 3.023356785615304 + COALESCE( t2.\"hdlmg\" - 35.46147672552167, 0.0 ) * -0.7240192100118329 + COALESCE( t2.\"chlst\" - 5.892755818619529, 0.0 ) * -4.024059582855235 + COALESCE( t2.\"hdl\" - 0.9149819422150931, 0.0 ) * -29.58919968380793 + COALESCE( t2.\"ldl\" - 2.463498194221503, 0.0 ) * 1.778411316422035 + COALESCE( t2.\"control_date\" - 533301113.6436597, 0.0 ) * 2.163236433930246e-07 + -7.9015375976371462e+00\\n WHEN ( t2.\"zmkour\" NOT IN ( \\'7\\' ) OR t2.\"zmkour\" IS NULL ) AND ( t1.\"htrisk\" IN ( \\'6\\' ) ) THEN COALESCE( t1.\"age\" - 58.55541532813217, 0.0 ) * -3.397114537185319 + COALESCE( t1.\"participation\" - -1887.414410279945, 0.0 ) * -8.217148782839798 + COALESCE( t1.\"vyska\" - 174.626548875631, 0.0 ) * 0.8989975149085871 + COALESCE( t1.\"vaha\" - 80.15500229463056, 0.0 ) * -1.237315019051493 + COALESCE( t1.\"syst1\" - 132.0390087195962, 0.0 ) * -0.9928276153180301 + COALESCE( t1.\"diast1\" - 83.58329508949059, 0.0 ) * -2.788494436812396 + COALESCE( t1.\"syst2\" - 129.4263423588802, 0.0 ) * -0.4818397334334769 + COALESCE( t1.\"diast2\" - 83.2121385956861, 0.0 ) * 6.971936650721264 + COALESCE( t1.\"tric\" - 9.410853602569986, 0.0 ) * -3.694055970730235 + COALESCE( t1.\"subsc\" - 18.22670949977054, 0.0 ) * -5.857003884016523 + COALESCE( t1.\"chlst\" - 232.7238412115649, 0.0 ) * 2.110663998001987 + COALESCE( t1.\"trigl\" - 134.5320100963745, 0.0 ) * 0.1191325417763164 + COALESCE( t1.\"koureni\" - 3.382973841211565, 0.0 ) * -19.83587241194438 + COALESCE( t1.\"dobakour\" - 6.960188159706287, 0.0 ) * -0.6739075204128018 + COALESCE( t1.\"byvkurak\" - 1.689421753097751, 0.0 ) * -2.401197249091638e-07 + COALESCE( t1.\"pivomn\" - 1.800826067003213, 0.0 ) * 43.42691366138832 + COALESCE( t1.\"vinomn\" - 4.298990362551629, 0.0 ) * -188.452548812023 + COALESCE( t1.\"lihmn\" - 6.948141349242772, 0.0 ) * 149.8317616555433 + COALESCE( t1.\"kava\" - 1.919343735658559, 0.0 ) * -7.92533116285952 + COALESCE( t1.\"caj\" - 4.731642955484167, 0.0 ) * 7.371945970513856 + COALESCE( t1.\"cukr\" - 4.495869664983938, 0.0 ) * -6.522018830745494 + COALESCE( t1.\"reference_date\" - 614493572.4644332, 0.0 ) * 3.705953810711698e-07 + COALESCE( t1.\"entry_date\" - 230484053.9697109, 0.0 ) * -1.783593808548376e-06 + COALESCE( t2.\"hmot\" - 81.27387640449439, 0.0 ) * -0.03696650252475624 + COALESCE( t2.\"hdlmg\" - 35.46147672552167, 0.0 ) * -0.8978599033836492 + COALESCE( t2.\"chlst\" - 5.892755818619529, 0.0 ) * -2.613193795898457 + COALESCE( t2.\"hdl\" - 0.9149819422150931, 0.0 ) * 33.10188686443065 + COALESCE( t2.\"ldl\" - 2.463498194221503, 0.0 ) * 2.062126624888299 + COALESCE( t2.\"control_date\" - 533301113.6436597, 0.0 ) * -5.886932876564901e-10 + -1.0081350693584685e+02\\n WHEN ( t2.\"zmkour\" NOT IN ( \\'7\\' ) OR t2.\"zmkour\" IS NULL ) AND ( t1.\"htrisk\" NOT IN ( \\'6\\' ) OR t1.\"htrisk\" IS NULL ) THEN COALESCE( t1.\"age\" - 58.55541532813217, 0.0 ) * 0.002419801161207402 + COALESCE( t1.\"participation\" - -1887.414410279945, 0.0 ) * -0.06277853150672247 + COALESCE( t1.\"vyska\" - 174.626548875631, 0.0 ) * 0.002571038648386481 + COALESCE( t1.\"vaha\" - 80.15500229463056, 0.0 ) * -0.005578860882900542 + COALESCE( t1.\"syst1\" - 132.0390087195962, 0.0 ) * -0.001057898151656378 + COALESCE( t1.\"diast1\" - 83.58329508949059, 0.0 ) * 0.004014557721064409 + COALESCE( t1.\"syst2\" - 129.4263423588802, 0.0 ) * 0.001873173639385572 + COALESCE( t1.\"diast2\" - 83.2121385956861, 0.0 ) * 0.0002124825706128939 + COALESCE( t1.\"tric\" - 9.410853602569986, 0.0 ) * -0.002640732624754488 + COALESCE( t1.\"subsc\" - 18.22670949977054, 0.0 ) * 0.0001474535382830381 + COALESCE( t1.\"chlst\" - 232.7238412115649, 0.0 ) * -0.0001256948379644612 + COALESCE( t1.\"trigl\" - 134.5320100963745, 0.0 ) * -3.474245058868025e-05 + COALESCE( t1.\"koureni\" - 3.382973841211565, 0.0 ) * 0.0132708577852937 + COALESCE( t1.\"dobakour\" - 6.960188159706287, 0.0 ) * 0.002454283595539609 + COALESCE( t1.\"byvkurak\" - 1.689421753097751, 0.0 ) * -0.0003505117806351746 + COALESCE( t1.\"pivomn\" - 1.800826067003213, 0.0 ) * 0.02562835710639392 + COALESCE( t1.\"vinomn\" - 4.298990362551629, 0.0 ) * -0.005171308330700418 + COALESCE( t1.\"lihmn\" - 6.948141349242772, 0.0 ) * -0.004672335054095883 + COALESCE( t1.\"kava\" - 1.919343735658559, 0.0 ) * 0.02581134186668081 + COALESCE( t1.\"caj\" - 4.731642955484167, 0.0 ) * -0.01154259733921239 + COALESCE( t1.\"cukr\" - 4.495869664983938, 0.0 ) * 0.002194525846818011 + COALESCE( t1.\"reference_date\" - 614493572.4644332, 0.0 ) * 3.411798694161753e-09 + COALESCE( t1.\"entry_date\" - 230484053.9697109, 0.0 ) * -2.075596685480708e-09 + COALESCE( t2.\"hmot\" - 81.27387640449439, 0.0 ) * 0.004478272836447239 + COALESCE( t2.\"hdlmg\" - 35.46147672552167, 0.0 ) * -0.002438061446690539 + COALESCE( t2.\"chlst\" - 5.892755818619529, 0.0 ) * -0.02099226608599071 + COALESCE( t2.\"hdl\" - 0.9149819422150931, 0.0 ) * 0.03134631902567388 + COALESCE( t2.\"ldl\" - 2.463498194221503, 0.0 ) * 0.02487247493931399 + COALESCE( t2.\"control_date\" - 533301113.6436597, 0.0 ) * -2.655718509874403e-09 + -2.7439158467228797e-01\\n ELSE NULL\\n END\\n) AS \"feature_1_2\",\\n t1.rowid AS rownum\\nFROM \"POPULATION__STAGING_TABLE_1\" t1\\nINNER JOIN \"CONTR__STAGING_TABLE_2\" t2\\nON t1.\"ico\" = t2.\"ico\"\\nWHERE t2.\"control_date\" <= t1.\"reference_date\"\\nGROUP BY t1.rowid;'" ] }, "execution_count": 17, "metadata": {}, "output_type": "execute_result" } ], "source": [ "pipe1.features.to_sql()[pipe1.features.sort(by=\"importances\")[0].name]" ] }, { "cell_type": "code", "execution_count": 18, "metadata": {}, "outputs": [ { "data": { "text/markdown": [ "```sql\n", "\n", "```" ], "text/plain": [ "''" ] }, "execution_count": 18, "metadata": {}, "output_type": "execute_result" } ], "source": [ "pipe2.features.to_sql()[pipe2.features.sort(by=\"importances\")[1].name]" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### 2.4 Productionization\n", "\n", "It is possible to productionize the pipeline by transpiling the features into production-ready SQL code. Please also refer to getML's `sqlite3` and `spark` modules." ] }, { "cell_type": "code", "execution_count": 19, "metadata": {}, "outputs": [], "source": [ "# Creates a folder named atherosclerosis_pipeline containing\n", "# the SQL code.\n", "pipe2.features.to_sql().save(\"atherosclerosis_pipeline\", remove=True)" ] }, { "cell_type": "code", "execution_count": 20, "metadata": {}, "outputs": [], "source": [ "pipe2.features.to_sql(dialect=getml.pipeline.dialect.spark_sql).save(\"atherosclerosis_pipeline_spark\", remove=True)" ] }, { "cell_type": "markdown", "metadata": { "editable": true, "slideshow": { "slide_type": "" }, "tags": [] }, "source": [ "## 3. Conclusion\n", "\n", "The runtime benchmark between RelMT & Relboost on the same dataset demonstrates the problem of computational complexity in practice. We find that RelMT takes four times as long as Relboost to learn fewer features.\n", "\n", "The purpose of this notebook has been to illustrate the problem of the curse of dimensionality when engineering features from datasets with many columns.\n", "\n", "The most important thing to remember is that this problem exists regardless of whether you engineer your features manually or using algorithms. Whether you like it or not: If you write your features in the traditional way, your search space grows quadratically with the number of columns." ] } ], "metadata": { "kernelspec": { "display_name": "Python 3 (ipykernel)", "language": "python", "name": "python3" }, "language_info": { "codemirror_mode": { "name": "ipython", "version": 3 }, "file_extension": ".py", "mimetype": "text/x-python", "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", "version": "3.8.18" }, "toc": { "base_numbering": 1 }, "vscode": { "interpreter": { "hash": "31f2aee4e71d21fbe5cf8b01ff0e069b9275f58929596ceb00d14d90e3e16cd6" } } }, "nbformat": 4, "nbformat_minor": 4 }