{
 "cells": [
  {
   "cell_type": "code",
   "execution_count": 1,
   "metadata": {},
   "outputs": [],
   "source": [
    "import pandas as pd\n",
    "import numpy as np\n",
    "import scanpy as sc\n",
    "import os\n",
    "from sklearn.cluster import KMeans\n",
    "from sklearn.cluster import AgglomerativeClustering\n",
    "from sklearn.metrics.cluster import adjusted_rand_score\n",
    "from sklearn.metrics.cluster import adjusted_mutual_info_score\n",
    "from sklearn.metrics.cluster import homogeneity_score\n",
    "import rpy2.robjects as robjects\n",
    "from rpy2.robjects import pandas2ri"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 2,
   "metadata": {},
   "outputs": [],
   "source": [
    "df_metrics = pd.DataFrame(columns=['ARI_Louvain','ARI_kmeans','ARI_HC',\n",
    "                                   'AMI_Louvain','AMI_kmeans','AMI_HC',\n",
    "                                   'Homogeneity_Louvain','Homogeneity_kmeans','Homogeneity_HC'])"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 3,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "0"
      ]
     },
     "execution_count": 3,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "workdir = './output/'\n",
    "path_fm = os.path.join(workdir,'feature_matrices/')\n",
    "path_clusters = os.path.join(workdir,'clusters/')\n",
    "path_metrics = os.path.join(workdir,'metrics/')\n",
    "os.system('mkdir -p '+path_clusters)\n",
    "os.system('mkdir -p '+path_metrics)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 4,
   "metadata": {},
   "outputs": [],
   "source": [
    "metadata = pd.read_csv('./input/metadata.tsv',sep='\\t',index_col=0)\n",
    "num_clusters = len(np.unique(metadata['label']))"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 5,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "17"
      ]
     },
     "execution_count": 5,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "files = [x for x in os.listdir(path_fm) if x.startswith('FM')]\n",
    "len(files)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 6,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "['FM_Control_BMcov2500.rds',\n",
       " 'FM_BROCKMAN_BMcov2500.rds',\n",
       " 'FM_Cusanovich2018_BMcov2500.rds',\n",
       " 'FM_cisTopic_BMcov2500.rds',\n",
       " 'FM_chromVAR_BMcov2500_kmers.rds',\n",
       " 'FM_chromVAR_BMcov2500_motifs.rds',\n",
       " 'FM_chromVAR_BMcov2500_kmers_pca.rds',\n",
       " 'FM_chromVAR_BMcov2500_motifs_pca.rds',\n",
       " 'FM_GeneScoring_BMcov2500.rds',\n",
       " 'FM_GeneScoring_BMcov2500_pca.rds',\n",
       " 'FM_Cicero_BMcov2500.rds',\n",
       " 'FM_Cicero_BMcov2500_pca.rds',\n",
       " 'FM_SnapATAC_BMcov2500.rds',\n",
       " 'FM_Scasat_BMcov2500.rds',\n",
       " 'FM_scABC_BMcov2500.rds',\n",
       " 'FM_SCRAT_BMcov2500.rds',\n",
       " 'FM_SCRAT_BMcov2500_pca.rds']"
      ]
     },
     "execution_count": 6,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "files"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 7,
   "metadata": {},
   "outputs": [],
   "source": [
    "def getNClusters(adata,n_cluster,range_min=0,range_max=3,max_steps=20):\n",
    "    this_step = 0\n",
    "    this_min = float(range_min)\n",
    "    this_max = float(range_max)\n",
    "    while this_step < max_steps:\n",
    "        print('step ' + str(this_step))\n",
    "        this_resolution = this_min + ((this_max-this_min)/2)\n",
    "        sc.tl.louvain(adata,resolution=this_resolution)\n",
    "        this_clusters = adata.obs['louvain'].nunique()\n",
    "        \n",
    "        print('got ' + str(this_clusters) + ' at resolution ' + str(this_resolution))\n",
    "        \n",
    "        if this_clusters > n_cluster:\n",
    "            this_max = this_resolution\n",
    "        elif this_clusters < n_cluster:\n",
    "            this_min = this_resolution\n",
    "        else:\n",
    "            return(this_resolution, adata)\n",
    "        this_step += 1\n",
    "    \n",
    "    print('Cannot find the number of clusters')\n",
    "    print('Clustering solution from last iteration is used:' + str(this_clusters) + ' at resolution ' + str(this_resolution))"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 8,
   "metadata": {
    "scrolled": false
   },
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "Control\n"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "/data/pinello/SHARED_SOFTWARE/anaconda3/envs/ATACseq_clustering/lib/python3.7/site-packages/rpy2/robjects/pandas2ri.py:191: FutureWarning: from_items is deprecated. Please use DataFrame.from_dict(dict(items), ...) instead. DataFrame.from_dict(OrderedDict(items)) may be used to preserve the key order.\n",
      "  res = PandasDataFrame.from_items(items)\n"
     ]
    },
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "step 0\n",
      "got 6 at resolution 1.5\n",
      "BROCKMAN\n"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "/data/pinello/SHARED_SOFTWARE/anaconda3/envs/ATACseq_clustering/lib/python3.7/site-packages/rpy2/robjects/pandas2ri.py:191: FutureWarning: from_items is deprecated. Please use DataFrame.from_dict(dict(items), ...) instead. DataFrame.from_dict(OrderedDict(items)) may be used to preserve the key order.\n",
      "  res = PandasDataFrame.from_items(items)\n"
     ]
    },
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "step 0\n",
      "got 10 at resolution 1.5\n",
      "step 1\n",
      "got 6 at resolution 0.75\n",
      "Cusanovich2018\n"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "/data/pinello/SHARED_SOFTWARE/anaconda3/envs/ATACseq_clustering/lib/python3.7/site-packages/rpy2/robjects/pandas2ri.py:191: FutureWarning: from_items is deprecated. Please use DataFrame.from_dict(dict(items), ...) instead. DataFrame.from_dict(OrderedDict(items)) may be used to preserve the key order.\n",
      "  res = PandasDataFrame.from_items(items)\n"
     ]
    },
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "step 0\n",
      "got 6 at resolution 1.5\n",
      "cisTopic\n"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "/data/pinello/SHARED_SOFTWARE/anaconda3/envs/ATACseq_clustering/lib/python3.7/site-packages/rpy2/robjects/pandas2ri.py:191: FutureWarning: from_items is deprecated. Please use DataFrame.from_dict(dict(items), ...) instead. DataFrame.from_dict(OrderedDict(items)) may be used to preserve the key order.\n",
      "  res = PandasDataFrame.from_items(items)\n"
     ]
    },
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "step 0\n",
      "got 6 at resolution 1.5\n",
      "chromVAR_kmers\n"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "/data/pinello/SHARED_SOFTWARE/anaconda3/envs/ATACseq_clustering/lib/python3.7/site-packages/rpy2/robjects/pandas2ri.py:191: FutureWarning: from_items is deprecated. Please use DataFrame.from_dict(dict(items), ...) instead. DataFrame.from_dict(OrderedDict(items)) may be used to preserve the key order.\n",
      "  res = PandasDataFrame.from_items(items)\n"
     ]
    },
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "step 0\n",
      "got 5 at resolution 1.5\n",
      "step 1\n",
      "got 10 at resolution 2.25\n",
      "step 2\n",
      "got 6 at resolution 1.875\n",
      "chromVAR_motifs\n"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "/data/pinello/SHARED_SOFTWARE/anaconda3/envs/ATACseq_clustering/lib/python3.7/site-packages/rpy2/robjects/pandas2ri.py:191: FutureWarning: from_items is deprecated. Please use DataFrame.from_dict(dict(items), ...) instead. DataFrame.from_dict(OrderedDict(items)) may be used to preserve the key order.\n",
      "  res = PandasDataFrame.from_items(items)\n"
     ]
    },
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "step 0\n",
      "got 6 at resolution 1.5\n",
      "chromVAR_kmers_pca\n"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "/data/pinello/SHARED_SOFTWARE/anaconda3/envs/ATACseq_clustering/lib/python3.7/site-packages/rpy2/robjects/pandas2ri.py:191: FutureWarning: from_items is deprecated. Please use DataFrame.from_dict(dict(items), ...) instead. DataFrame.from_dict(OrderedDict(items)) may be used to preserve the key order.\n",
      "  res = PandasDataFrame.from_items(items)\n"
     ]
    },
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "step 0\n",
      "got 6 at resolution 1.5\n",
      "chromVAR_motifs_pca\n"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "/data/pinello/SHARED_SOFTWARE/anaconda3/envs/ATACseq_clustering/lib/python3.7/site-packages/rpy2/robjects/pandas2ri.py:191: FutureWarning: from_items is deprecated. Please use DataFrame.from_dict(dict(items), ...) instead. DataFrame.from_dict(OrderedDict(items)) may be used to preserve the key order.\n",
      "  res = PandasDataFrame.from_items(items)\n"
     ]
    },
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "step 0\n",
      "got 6 at resolution 1.5\n",
      "GeneScoring\n"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "/data/pinello/SHARED_SOFTWARE/anaconda3/envs/ATACseq_clustering/lib/python3.7/site-packages/rpy2/robjects/pandas2ri.py:191: FutureWarning: from_items is deprecated. Please use DataFrame.from_dict(dict(items), ...) instead. DataFrame.from_dict(OrderedDict(items)) may be used to preserve the key order.\n",
      "  res = PandasDataFrame.from_items(items)\n"
     ]
    },
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "step 0\n",
      "got 31 at resolution 1.5\n",
      "step 1\n",
      "got 3 at resolution 0.75\n",
      "step 2\n",
      "got 12 at resolution 1.125\n",
      "step 3\n",
      "got 7 at resolution 0.9375\n",
      "step 4\n",
      "got 5 at resolution 0.84375\n",
      "step 5\n",
      "got 5 at resolution 0.890625\n",
      "step 6\n",
      "got 5 at resolution 0.9140625\n",
      "step 7\n",
      "got 7 at resolution 0.92578125\n",
      "step 8\n",
      "got 5 at resolution 0.919921875\n",
      "step 9\n",
      "got 7 at resolution 0.9228515625\n",
      "step 10\n",
      "got 7 at resolution 0.92138671875\n",
      "step 11\n",
      "got 7 at resolution 0.920654296875\n",
      "step 12\n",
      "got 5 at resolution 0.9202880859375\n",
      "step 13\n",
      "got 7 at resolution 0.92047119140625\n",
      "step 14\n",
      "got 5 at resolution 0.920379638671875\n",
      "step 15\n",
      "got 5 at resolution 0.9204254150390625\n",
      "step 16\n",
      "got 7 at resolution 0.9204483032226562\n",
      "step 17\n",
      "got 5 at resolution 0.9204368591308594\n",
      "step 18\n",
      "got 5 at resolution 0.9204425811767578\n",
      "step 19\n",
      "got 7 at resolution 0.920445442199707\n",
      "Cannot find the number of clusters\n",
      "Clustering solution from last iteration is used:7 at resolution 0.920445442199707\n",
      "GeneScoring_pca\n"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "/data/pinello/SHARED_SOFTWARE/anaconda3/envs/ATACseq_clustering/lib/python3.7/site-packages/rpy2/robjects/pandas2ri.py:191: FutureWarning: from_items is deprecated. Please use DataFrame.from_dict(dict(items), ...) instead. DataFrame.from_dict(OrderedDict(items)) may be used to preserve the key order.\n",
      "  res = PandasDataFrame.from_items(items)\n"
     ]
    },
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "step 0\n",
      "got 14 at resolution 1.5\n",
      "step 1\n",
      "got 9 at resolution 0.75\n",
      "step 2\n",
      "got 7 at resolution 0.375\n",
      "step 3\n",
      "got 4 at resolution 0.1875\n",
      "step 4\n",
      "got 5 at resolution 0.28125\n",
      "step 5\n",
      "got 6 at resolution 0.328125\n",
      "Cicero\n"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "/data/pinello/SHARED_SOFTWARE/anaconda3/envs/ATACseq_clustering/lib/python3.7/site-packages/rpy2/robjects/pandas2ri.py:191: FutureWarning: from_items is deprecated. Please use DataFrame.from_dict(dict(items), ...) instead. DataFrame.from_dict(OrderedDict(items)) may be used to preserve the key order.\n",
      "  res = PandasDataFrame.from_items(items)\n"
     ]
    },
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "step 0\n",
      "got 34 at resolution 1.5\n",
      "step 1\n",
      "got 2 at resolution 0.75\n",
      "step 2\n",
      "got 17 at resolution 1.125\n",
      "step 3\n",
      "got 5 at resolution 0.9375\n",
      "step 4\n",
      "got 11 at resolution 1.03125\n",
      "step 5\n",
      "got 8 at resolution 0.984375\n",
      "step 6\n",
      "got 4 at resolution 0.9609375\n",
      "step 7\n",
      "got 5 at resolution 0.97265625\n",
      "step 8\n",
      "got 7 at resolution 0.978515625\n",
      "step 9\n",
      "got 6 at resolution 0.9755859375\n",
      "Cicero_pca\n"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "/data/pinello/SHARED_SOFTWARE/anaconda3/envs/ATACseq_clustering/lib/python3.7/site-packages/rpy2/robjects/pandas2ri.py:191: FutureWarning: from_items is deprecated. Please use DataFrame.from_dict(dict(items), ...) instead. DataFrame.from_dict(OrderedDict(items)) may be used to preserve the key order.\n",
      "  res = PandasDataFrame.from_items(items)\n"
     ]
    },
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "step 0\n",
      "got 10 at resolution 1.5\n",
      "step 1\n",
      "got 4 at resolution 0.75\n",
      "step 2\n",
      "got 6 at resolution 1.125\n",
      "SnapATAC\n"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "/data/pinello/SHARED_SOFTWARE/anaconda3/envs/ATACseq_clustering/lib/python3.7/site-packages/rpy2/robjects/pandas2ri.py:191: FutureWarning: from_items is deprecated. Please use DataFrame.from_dict(dict(items), ...) instead. DataFrame.from_dict(OrderedDict(items)) may be used to preserve the key order.\n",
      "  res = PandasDataFrame.from_items(items)\n"
     ]
    },
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "step 0\n",
      "got 6 at resolution 1.5\n",
      "Scasat\n"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "/data/pinello/SHARED_SOFTWARE/anaconda3/envs/ATACseq_clustering/lib/python3.7/site-packages/rpy2/robjects/pandas2ri.py:191: FutureWarning: from_items is deprecated. Please use DataFrame.from_dict(dict(items), ...) instead. DataFrame.from_dict(OrderedDict(items)) may be used to preserve the key order.\n",
      "  res = PandasDataFrame.from_items(items)\n"
     ]
    },
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "step 0\n",
      "got 6 at resolution 1.5\n",
      "scABC\n"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "/data/pinello/SHARED_SOFTWARE/anaconda3/envs/ATACseq_clustering/lib/python3.7/site-packages/rpy2/robjects/pandas2ri.py:191: FutureWarning: from_items is deprecated. Please use DataFrame.from_dict(dict(items), ...) instead. DataFrame.from_dict(OrderedDict(items)) may be used to preserve the key order.\n",
      "  res = PandasDataFrame.from_items(items)\n"
     ]
    },
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "step 0\n",
      "got 14 at resolution 1.5\n",
      "step 1\n",
      "got 3 at resolution 0.75\n",
      "step 2\n",
      "got 4 at resolution 1.125\n",
      "step 3\n",
      "got 9 at resolution 1.3125\n",
      "step 4\n",
      "got 7 at resolution 1.21875\n",
      "step 5\n",
      "got 5 at resolution 1.171875\n",
      "step 6\n",
      "got 7 at resolution 1.1953125\n",
      "step 7\n",
      "got 5 at resolution 1.18359375\n",
      "step 8\n",
      "got 6 at resolution 1.189453125\n",
      "SCRAT\n"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "/data/pinello/SHARED_SOFTWARE/anaconda3/envs/ATACseq_clustering/lib/python3.7/site-packages/rpy2/robjects/pandas2ri.py:191: FutureWarning: from_items is deprecated. Please use DataFrame.from_dict(dict(items), ...) instead. DataFrame.from_dict(OrderedDict(items)) may be used to preserve the key order.\n",
      "  res = PandasDataFrame.from_items(items)\n"
     ]
    },
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "step 0\n",
      "got 8 at resolution 1.5\n",
      "step 1\n",
      "got 6 at resolution 0.75\n",
      "SCRAT_pca\n"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "/data/pinello/SHARED_SOFTWARE/anaconda3/envs/ATACseq_clustering/lib/python3.7/site-packages/rpy2/robjects/pandas2ri.py:191: FutureWarning: from_items is deprecated. Please use DataFrame.from_dict(dict(items), ...) instead. DataFrame.from_dict(OrderedDict(items)) may be used to preserve the key order.\n",
      "  res = PandasDataFrame.from_items(items)\n"
     ]
    },
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "step 0\n",
      "got 11 at resolution 1.5\n",
      "step 1\n",
      "got 6 at resolution 0.75\n"
     ]
    }
   ],
   "source": [
    "for file in files:\n",
    "    file_split = file.split('_')\n",
    "    method = file_split[1]\n",
    "    dataset = file_split[2].split('.')[0]\n",
    "    if(len(file_split)>3):\n",
    "        method = method + '_' + '_'.join(file_split[3:]).split('.')[0]\n",
    "    print(method)\n",
    "\n",
    "    pandas2ri.activate()\n",
    "    readRDS = robjects.r['readRDS']\n",
    "    df_rds = readRDS(os.path.join(path_fm,file))\n",
    "    fm_mat = pandas2ri.ri2py(robjects.r['data.frame'](robjects.r['as.matrix'](df_rds)))\n",
    "    fm_mat.columns = metadata.index\n",
    "    \n",
    "    adata = sc.AnnData(fm_mat.T)\n",
    "    adata.var_names_make_unique()\n",
    "    adata.obs = metadata.loc[adata.obs.index,]\n",
    "    df_metrics.loc[method,] = \"\"\n",
    "    #Louvain\n",
    "    sc.pp.neighbors(adata, n_neighbors=15,use_rep='X')\n",
    "#     sc.tl.louvain(adata)\n",
    "    getNClusters(adata,n_cluster=num_clusters)\n",
    "    #kmeans\n",
    "    kmeans = KMeans(n_clusters=num_clusters, random_state=2019).fit(adata.X)\n",
    "    adata.obs['kmeans'] = pd.Series(kmeans.labels_,index=adata.obs.index).astype('category')\n",
    "    #hierachical clustering\n",
    "    hc = AgglomerativeClustering(n_clusters=num_clusters).fit(adata.X)\n",
    "    adata.obs['hc'] = pd.Series(hc.labels_,index=adata.obs.index).astype('category')\n",
    "    #clustering metrics\n",
    "    \n",
    "    #adjusted rank index\n",
    "    ari_louvain = adjusted_rand_score(adata.obs['label'], adata.obs['louvain'])\n",
    "    ari_kmeans = adjusted_rand_score(adata.obs['label'], adata.obs['kmeans'])\n",
    "    ari_hc = adjusted_rand_score(adata.obs['label'], adata.obs['hc'])\n",
    "    #adjusted mutual information\n",
    "    ami_louvain = adjusted_mutual_info_score(adata.obs['label'], adata.obs['louvain'],average_method='arithmetic')\n",
    "    ami_kmeans = adjusted_mutual_info_score(adata.obs['label'], adata.obs['kmeans'],average_method='arithmetic')   \n",
    "    ami_hc = adjusted_mutual_info_score(adata.obs['label'], adata.obs['hc'],average_method='arithmetic')\n",
    "    #homogeneity\n",
    "    homo_louvain = homogeneity_score(adata.obs['label'], adata.obs['louvain'])\n",
    "    homo_kmeans = homogeneity_score(adata.obs['label'], adata.obs['kmeans'])\n",
    "    homo_hc = homogeneity_score(adata.obs['label'], adata.obs['hc'])\n",
    "\n",
    "    df_metrics.loc[method,['ARI_Louvain','ARI_kmeans','ARI_HC']] = [ari_louvain,ari_kmeans,ari_hc]\n",
    "    df_metrics.loc[method,['AMI_Louvain','AMI_kmeans','AMI_HC']] = [ami_louvain,ami_kmeans,ami_hc]\n",
    "    df_metrics.loc[method,['Homogeneity_Louvain','Homogeneity_kmeans','Homogeneity_HC']] = [homo_louvain,homo_kmeans,homo_hc] \n",
    "    adata.obs[['louvain','kmeans','hc']].to_csv(os.path.join(path_clusters ,method + '_clusters.tsv'),sep='\\t')"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 9,
   "metadata": {},
   "outputs": [],
   "source": [
    "df_metrics.to_csv(path_metrics+'clustering_scores.csv')"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 10,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>ARI_Louvain</th>\n",
       "      <th>ARI_kmeans</th>\n",
       "      <th>ARI_HC</th>\n",
       "      <th>AMI_Louvain</th>\n",
       "      <th>AMI_kmeans</th>\n",
       "      <th>AMI_HC</th>\n",
       "      <th>Homogeneity_Louvain</th>\n",
       "      <th>Homogeneity_kmeans</th>\n",
       "      <th>Homogeneity_HC</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>Control</th>\n",
       "      <td>0.965315</td>\n",
       "      <td>0.798218</td>\n",
       "      <td>0.797901</td>\n",
       "      <td>0.965279</td>\n",
       "      <td>0.868754</td>\n",
       "      <td>0.865926</td>\n",
       "      <td>0.96539</td>\n",
       "      <td>0.868205</td>\n",
       "      <td>0.866151</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>BROCKMAN</th>\n",
       "      <td>0.94724</td>\n",
       "      <td>0.657768</td>\n",
       "      <td>0.725251</td>\n",
       "      <td>0.949048</td>\n",
       "      <td>0.75279</td>\n",
       "      <td>0.804234</td>\n",
       "      <td>0.949222</td>\n",
       "      <td>0.752645</td>\n",
       "      <td>0.800707</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>Cusanovich2018</th>\n",
       "      <td>1</td>\n",
       "      <td>0.773251</td>\n",
       "      <td>0.997997</td>\n",
       "      <td>1</td>\n",
       "      <td>0.900015</td>\n",
       "      <td>0.997053</td>\n",
       "      <td>1</td>\n",
       "      <td>0.871049</td>\n",
       "      <td>0.99707</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>cisTopic</th>\n",
       "      <td>1</td>\n",
       "      <td>0.997997</td>\n",
       "      <td>0.997997</td>\n",
       "      <td>1</td>\n",
       "      <td>0.997053</td>\n",
       "      <td>0.997053</td>\n",
       "      <td>1</td>\n",
       "      <td>0.99707</td>\n",
       "      <td>0.99707</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>chromVAR_kmers</th>\n",
       "      <td>0.76863</td>\n",
       "      <td>0.71703</td>\n",
       "      <td>0.649466</td>\n",
       "      <td>0.82417</td>\n",
       "      <td>0.78671</td>\n",
       "      <td>0.730611</td>\n",
       "      <td>0.82211</td>\n",
       "      <td>0.787383</td>\n",
       "      <td>0.726742</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>chromVAR_motifs</th>\n",
       "      <td>0.464693</td>\n",
       "      <td>0.459593</td>\n",
       "      <td>0.421048</td>\n",
       "      <td>0.612146</td>\n",
       "      <td>0.614561</td>\n",
       "      <td>0.579887</td>\n",
       "      <td>0.610832</td>\n",
       "      <td>0.6164</td>\n",
       "      <td>0.579137</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>chromVAR_kmers_pca</th>\n",
       "      <td>0.741652</td>\n",
       "      <td>0.750573</td>\n",
       "      <td>0.702112</td>\n",
       "      <td>0.803962</td>\n",
       "      <td>0.809526</td>\n",
       "      <td>0.768438</td>\n",
       "      <td>0.804208</td>\n",
       "      <td>0.810403</td>\n",
       "      <td>0.765538</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>chromVAR_motifs_pca</th>\n",
       "      <td>0.483201</td>\n",
       "      <td>0.451405</td>\n",
       "      <td>0.432268</td>\n",
       "      <td>0.624937</td>\n",
       "      <td>0.606774</td>\n",
       "      <td>0.601031</td>\n",
       "      <td>0.621348</td>\n",
       "      <td>0.608964</td>\n",
       "      <td>0.588254</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>GeneScoring</th>\n",
       "      <td>0.0214239</td>\n",
       "      <td>0.448314</td>\n",
       "      <td>0.362124</td>\n",
       "      <td>0.0263894</td>\n",
       "      <td>0.601596</td>\n",
       "      <td>0.447831</td>\n",
       "      <td>0.0340632</td>\n",
       "      <td>0.521397</td>\n",
       "      <td>0.409118</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>GeneScoring_pca</th>\n",
       "      <td>0.401574</td>\n",
       "      <td>0.403772</td>\n",
       "      <td>0.400471</td>\n",
       "      <td>0.499477</td>\n",
       "      <td>0.492295</td>\n",
       "      <td>0.498276</td>\n",
       "      <td>0.490116</td>\n",
       "      <td>0.481476</td>\n",
       "      <td>0.484532</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>Cicero</th>\n",
       "      <td>0.119878</td>\n",
       "      <td>0.445514</td>\n",
       "      <td>0.459346</td>\n",
       "      <td>0.143604</td>\n",
       "      <td>0.677157</td>\n",
       "      <td>0.611332</td>\n",
       "      <td>0.143922</td>\n",
       "      <td>0.565338</td>\n",
       "      <td>0.600784</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>Cicero_pca</th>\n",
       "      <td>0.591284</td>\n",
       "      <td>0.582276</td>\n",
       "      <td>0.501441</td>\n",
       "      <td>0.704068</td>\n",
       "      <td>0.705255</td>\n",
       "      <td>0.664097</td>\n",
       "      <td>0.681298</td>\n",
       "      <td>0.688295</td>\n",
       "      <td>0.634709</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>SnapATAC</th>\n",
       "      <td>0.997997</td>\n",
       "      <td>0.997997</td>\n",
       "      <td>0.997997</td>\n",
       "      <td>0.997053</td>\n",
       "      <td>0.997053</td>\n",
       "      <td>0.997053</td>\n",
       "      <td>0.99707</td>\n",
       "      <td>0.99707</td>\n",
       "      <td>0.99707</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>Scasat</th>\n",
       "      <td>0.980329</td>\n",
       "      <td>0.899849</td>\n",
       "      <td>0.807384</td>\n",
       "      <td>0.977148</td>\n",
       "      <td>0.9206</td>\n",
       "      <td>0.873924</td>\n",
       "      <td>0.977271</td>\n",
       "      <td>0.921012</td>\n",
       "      <td>0.872492</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>scABC</th>\n",
       "      <td>0.541554</td>\n",
       "      <td>0.523454</td>\n",
       "      <td>0.696364</td>\n",
       "      <td>0.62756</td>\n",
       "      <td>0.681182</td>\n",
       "      <td>0.780981</td>\n",
       "      <td>0.577548</td>\n",
       "      <td>0.618257</td>\n",
       "      <td>0.76102</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>SCRAT</th>\n",
       "      <td>0.574104</td>\n",
       "      <td>0.55288</td>\n",
       "      <td>0.538371</td>\n",
       "      <td>0.706265</td>\n",
       "      <td>0.686961</td>\n",
       "      <td>0.684487</td>\n",
       "      <td>0.702628</td>\n",
       "      <td>0.686609</td>\n",
       "      <td>0.681563</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>SCRAT_pca</th>\n",
       "      <td>0.620999</td>\n",
       "      <td>0.547343</td>\n",
       "      <td>0.561441</td>\n",
       "      <td>0.717525</td>\n",
       "      <td>0.684513</td>\n",
       "      <td>0.676401</td>\n",
       "      <td>0.719068</td>\n",
       "      <td>0.683929</td>\n",
       "      <td>0.673369</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div>"
      ],
      "text/plain": [
       "                    ARI_Louvain ARI_kmeans    ARI_HC AMI_Louvain AMI_kmeans  \\\n",
       "Control                0.965315   0.798218  0.797901    0.965279   0.868754   \n",
       "BROCKMAN                0.94724   0.657768  0.725251    0.949048    0.75279   \n",
       "Cusanovich2018                1   0.773251  0.997997           1   0.900015   \n",
       "cisTopic                      1   0.997997  0.997997           1   0.997053   \n",
       "chromVAR_kmers          0.76863    0.71703  0.649466     0.82417    0.78671   \n",
       "chromVAR_motifs        0.464693   0.459593  0.421048    0.612146   0.614561   \n",
       "chromVAR_kmers_pca     0.741652   0.750573  0.702112    0.803962   0.809526   \n",
       "chromVAR_motifs_pca    0.483201   0.451405  0.432268    0.624937   0.606774   \n",
       "GeneScoring           0.0214239   0.448314  0.362124   0.0263894   0.601596   \n",
       "GeneScoring_pca        0.401574   0.403772  0.400471    0.499477   0.492295   \n",
       "Cicero                 0.119878   0.445514  0.459346    0.143604   0.677157   \n",
       "Cicero_pca             0.591284   0.582276  0.501441    0.704068   0.705255   \n",
       "SnapATAC               0.997997   0.997997  0.997997    0.997053   0.997053   \n",
       "Scasat                 0.980329   0.899849  0.807384    0.977148     0.9206   \n",
       "scABC                  0.541554   0.523454  0.696364     0.62756   0.681182   \n",
       "SCRAT                  0.574104    0.55288  0.538371    0.706265   0.686961   \n",
       "SCRAT_pca              0.620999   0.547343  0.561441    0.717525   0.684513   \n",
       "\n",
       "                       AMI_HC Homogeneity_Louvain Homogeneity_kmeans  \\\n",
       "Control              0.865926             0.96539           0.868205   \n",
       "BROCKMAN             0.804234            0.949222           0.752645   \n",
       "Cusanovich2018       0.997053                   1           0.871049   \n",
       "cisTopic             0.997053                   1            0.99707   \n",
       "chromVAR_kmers       0.730611             0.82211           0.787383   \n",
       "chromVAR_motifs      0.579887            0.610832             0.6164   \n",
       "chromVAR_kmers_pca   0.768438            0.804208           0.810403   \n",
       "chromVAR_motifs_pca  0.601031            0.621348           0.608964   \n",
       "GeneScoring          0.447831           0.0340632           0.521397   \n",
       "GeneScoring_pca      0.498276            0.490116           0.481476   \n",
       "Cicero               0.611332            0.143922           0.565338   \n",
       "Cicero_pca           0.664097            0.681298           0.688295   \n",
       "SnapATAC             0.997053             0.99707            0.99707   \n",
       "Scasat               0.873924            0.977271           0.921012   \n",
       "scABC                0.780981            0.577548           0.618257   \n",
       "SCRAT                0.684487            0.702628           0.686609   \n",
       "SCRAT_pca            0.676401            0.719068           0.683929   \n",
       "\n",
       "                    Homogeneity_HC  \n",
       "Control                   0.866151  \n",
       "BROCKMAN                  0.800707  \n",
       "Cusanovich2018             0.99707  \n",
       "cisTopic                   0.99707  \n",
       "chromVAR_kmers            0.726742  \n",
       "chromVAR_motifs           0.579137  \n",
       "chromVAR_kmers_pca        0.765538  \n",
       "chromVAR_motifs_pca       0.588254  \n",
       "GeneScoring               0.409118  \n",
       "GeneScoring_pca           0.484532  \n",
       "Cicero                    0.600784  \n",
       "Cicero_pca                0.634709  \n",
       "SnapATAC                   0.99707  \n",
       "Scasat                    0.872492  \n",
       "scABC                      0.76102  \n",
       "SCRAT                     0.681563  \n",
       "SCRAT_pca                 0.673369  "
      ]
     },
     "execution_count": 10,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "df_metrics"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": []
  }
 ],
 "metadata": {
  "kernelspec": {
   "display_name": "Python [conda env:ATACseq_clustering]",
   "language": "python",
   "name": "conda-env-ATACseq_clustering-py"
  },
  "language_info": {
   "codemirror_mode": {
    "name": "ipython",
    "version": 3
   },
   "file_extension": ".py",
   "mimetype": "text/x-python",
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython3",
   "version": "3.7.3"
  }
 },
 "nbformat": 4,
 "nbformat_minor": 2
}