{"cells":[{"cell_type":"code","source":"from google.colab import drive\nimport os\ndrive.mount('/content/gdrive')\n# Establecer ruta de acceso en dr\nimport os\nprint(os.getcwd())\nos.chdir(\"/content/gdrive/My Drive\")","metadata":{"id":"v-W2fBsNGd43","colab":{"base_uri":"https://localhost:8080/"},"cell_id":"a0c35107755b4d6fb892c64979c8b66b","outputId":"8fa9c105-d9ea-4b5f-8416-5b0800a8b676","executionInfo":{"user":{"userId":"09471607480253994520","displayName":"David Francisco Bustos Usta"},"status":"ok","elapsed":80733,"user_tz":240,"timestamp":1652699812552},"deepnote_cell_type":"code"},"outputs":[{"output_type":"stream","name":"stdout","text":"Mounted at /content/gdrive\n/content\n"}],"execution_count":1},{"cell_type":"code","source":"import pandas as pd \nimport numpy as np\nfrom sklearn.model_selection import train_test_split\nimport xgboost as xgb\nfrom sklearn.metrics import mean_squared_error\nfrom sklearn.metrics import accuracy_score\nfrom sklearn.model_selection import GridSearchCV\nfrom sklearn.model_selection import RandomizedSearchCV\nfrom sklearn.experimental import enable_halving_search_cv\nfrom sklearn.model_selection import HalvingGridSearchCV\nfrom sklearn.model_selection import HalvingRandomSearchCV","metadata":{"id":"rjeVWoRPIx7Y","cell_id":"0654523854594147942823056a428873","executionInfo":{"user":{"userId":"09471607480253994520","displayName":"David Francisco Bustos Usta"},"status":"ok","elapsed":309,"user_tz":240,"timestamp":1652699975119},"deepnote_cell_type":"code"},"outputs":[],"execution_count":3},{"cell_type":"markdown","source":"**Datos**\n\nhttps://www.kaggle.com/datasets/mlg-ulb/creditcardfraudv\n\n\n**Contexto**\n\nEs importante que las compañías de tarjetas de crédito puedan reconocer las transacciones de tarjetas de crédito fraudulentas para que a los clientes no se les cobre por artículos que no compraron.\n\n**Contenido**\n\nEl conjunto de datos contiene transacciones realizadas con tarjetas de crédito en septiembre de 2013 por titulares de tarjetas europeos.\n\nEste conjunto de datos presenta transacciones que ocurrieron en dos días, donde tenemos 492 fraudes de 284,807 transacciones. El conjunto de datos está muy desequilibrado, la clase positiva (fraudes) representa el 0,172 % de todas las transacciones.\n\nContiene solo variables de entrada numéricas que son el resultado de una transformación PCA.\n\nDesafortunadamente, debido a problemas de confidencialidad, no se pueden proporcionar las características originales ni más información general sobre los datos. Las características V1, V2, … V28 son los principales componentes obtenidos con PCA, las únicas características que no han sido transformadas con PCA son **Time y Amount**. \n\n\nLa característica **Time** contiene los segundos transcurridos entre cada transacción y la primera transacción en el conjunto de datos. La variable **Amount** es la cantidad de la transacción, esta función se puede utilizar para el aprendizaje sensible a los costos dependiente del ejemplo. **Class** es la variable de respuesta y toma valor 1 en caso de fraude y 0 en caso contrario.","metadata":{"id":"RmVL0VPNGwXq","cell_id":"7099cdbf2a0646b2ac94d340aa1dcd86","deepnote_cell_type":"markdown"}},{"cell_type":"code","source":"# Lectura de DF\ndf=pd.read_csv('creditcard.csv')\n# Vamos a eliminar la columna tiempo\ndf= df.drop(columns='Time')\n# Estandarizamos la columna Amount\ndf['Amount']=(df['Amount']- np.mean(df['Amount']))/np.std(df.Amount)\ndf.head()\n# El problema es muy desbalanceado tranajaremos con una muestra para resolver el problema\ndf_ones=df[df['Class']==1] # Filtro de caracteristica\nprint(df_ones.shape)\ndf_zeros=df[df['Class']==0] # Filtro de NO caracteristica\ndf_zeros= df_zeros.sample(3*df_ones.shape[0]) # Tamaño de muestra 3 veces el de la caracteristica\nprint(df_zeros.shape)\n# Concatenar\ndf_final=pd.DataFrame(np.concatenate([df_ones, df_zeros],axis=0), columns=df.columns)\nprint(df_final.shape)\ndf_final.head()","metadata":{"id":"QKk22YSxH8zF","colab":{"height":355,"base_uri":"https://localhost:8080/"},"cell_id":"959c5e1482bb4806bee3e2915d405d89","outputId":"b4e8227a-d2f2-481a-ff0f-ae1b27ea558e","executionInfo":{"user":{"userId":"09471607480253994520","displayName":"David Francisco Bustos Usta"},"status":"ok","elapsed":4480,"user_tz":240,"timestamp":1652700346636},"deepnote_cell_type":"code"},"outputs":[{"output_type":"stream","name":"stdout","text":"(492, 30)\n(1476, 30)\n(1968, 30)\n"},{"output_type":"execute_result","data":{"text/plain":" V1 V2 V3 V4 V5 V6 V7 \\\n0 -2.312227 1.951992 -1.609851 3.997906 -0.522188 -1.426545 -2.537387 \n1 -3.043541 -3.157307 1.088463 2.288644 1.359805 -1.064823 0.325574 \n2 -2.303350 1.759247 -0.359745 2.330243 -0.821628 -0.075788 0.562320 \n3 -4.397974 1.358367 -2.592844 2.679787 -1.128131 -1.706536 -3.496197 \n4 1.234235 3.019740 -4.304597 4.732795 3.624201 -1.357746 1.713445 \n\n V8 V9 V10 ... V21 V22 V23 V24 \\\n0 1.391657 -2.770089 -2.772272 ... 0.517232 -0.035049 -0.465211 0.320198 \n1 -0.067794 -0.270953 -0.838587 ... 0.661696 0.435477 1.375966 -0.293803 \n2 -0.399147 -0.238253 -1.525412 ... -0.294166 -0.932391 0.172726 -0.087330 \n3 -0.248778 -0.247768 -4.801637 ... 0.573574 0.176968 -0.436207 -0.053502 \n4 -0.496358 -1.282858 -2.447469 ... -0.379068 -0.704181 -0.656805 -1.632653 \n\n V25 V26 V27 V28 Amount Class \n0 0.044519 0.177840 0.261145 -0.143276 -0.353229 1.0 \n1 0.279798 -0.145362 -0.252773 0.035764 1.761758 1.0 \n2 -0.156114 -0.542628 0.039566 -0.153029 0.606031 1.0 \n3 0.252405 -0.657488 -0.827136 0.849573 -0.117342 1.0 \n4 1.488901 0.566797 -0.010016 0.146793 -0.349231 1.0 \n\n[5 rows x 30 columns]","text/html":"\n
\n | V1 | \nV2 | \nV3 | \nV4 | \nV5 | \nV6 | \nV7 | \nV8 | \nV9 | \nV10 | \n... | \nV21 | \nV22 | \nV23 | \nV24 | \nV25 | \nV26 | \nV27 | \nV28 | \nAmount | \nClass | \n
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0 | \n-2.312227 | \n1.951992 | \n-1.609851 | \n3.997906 | \n-0.522188 | \n-1.426545 | \n-2.537387 | \n1.391657 | \n-2.770089 | \n-2.772272 | \n... | \n0.517232 | \n-0.035049 | \n-0.465211 | \n0.320198 | \n0.044519 | \n0.177840 | \n0.261145 | \n-0.143276 | \n-0.353229 | \n1.0 | \n
1 | \n-3.043541 | \n-3.157307 | \n1.088463 | \n2.288644 | \n1.359805 | \n-1.064823 | \n0.325574 | \n-0.067794 | \n-0.270953 | \n-0.838587 | \n... | \n0.661696 | \n0.435477 | \n1.375966 | \n-0.293803 | \n0.279798 | \n-0.145362 | \n-0.252773 | \n0.035764 | \n1.761758 | \n1.0 | \n
2 | \n-2.303350 | \n1.759247 | \n-0.359745 | \n2.330243 | \n-0.821628 | \n-0.075788 | \n0.562320 | \n-0.399147 | \n-0.238253 | \n-1.525412 | \n... | \n-0.294166 | \n-0.932391 | \n0.172726 | \n-0.087330 | \n-0.156114 | \n-0.542628 | \n0.039566 | \n-0.153029 | \n0.606031 | \n1.0 | \n
3 | \n-4.397974 | \n1.358367 | \n-2.592844 | \n2.679787 | \n-1.128131 | \n-1.706536 | \n-3.496197 | \n-0.248778 | \n-0.247768 | \n-4.801637 | \n... | \n0.573574 | \n0.176968 | \n-0.436207 | \n-0.053502 | \n0.252405 | \n-0.657488 | \n-0.827136 | \n0.849573 | \n-0.117342 | \n1.0 | \n
4 | \n1.234235 | \n3.019740 | \n-4.304597 | \n4.732795 | \n3.624201 | \n-1.357746 | \n1.713445 | \n-0.496358 | \n-1.282858 | \n-2.447469 | \n... | \n-0.379068 | \n-0.704181 | \n-0.656805 | \n-1.632653 | \n1.488901 | \n0.566797 | \n-0.010016 | \n0.146793 | \n-0.349231 | \n1.0 | \n
5 rows × 30 columns
\n