{
 "cells": [
  {
   "cell_type": "code",
   "execution_count": 3,
   "id": "3ca2b642-078a-4551-bb2e-aab8885a5b14",
   "metadata": {},
   "outputs": [],
   "source": [
    "import pandas as pd\n",
    "url = f'{\"https://github.com/DataTalksClub/llm-zoomcamp/blob/main/04-monitoring/data/results-gpt4o-mini.csv\"}?raw=1'\n",
    "df = pd.read_csv(url)\n",
    "df = df.iloc[:300]"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 6,
   "id": "8a8a1d8f-4484-46f3-8154-23735c75648c",
   "metadata": {},
   "outputs": [
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "/usr/local/python/3.10.13/lib/python3.10/site-packages/sentence_transformers/cross_encoder/CrossEncoder.py:11: TqdmExperimentalWarning: Using `tqdm.autonotebook.tqdm` in notebook mode. Use `tqdm.tqdm` instead to force console mode (e.g. in jupyter console)\n",
      "  from tqdm.autonotebook import tqdm, trange\n"
     ]
    },
    {
     "data": {
      "application/vnd.jupyter.widget-view+json": {
       "model_id": "4839ec40c3d645a79a1585dfd103be68",
       "version_major": 2,
       "version_minor": 0
      },
      "text/plain": [
       "modules.json:   0%|          | 0.00/229 [00:00<?, ?B/s]"
      ]
     },
     "metadata": {},
     "output_type": "display_data"
    },
    {
     "data": {
      "application/vnd.jupyter.widget-view+json": {
       "model_id": "b7efa4be52914f8cbfe634ffd16980e2",
       "version_major": 2,
       "version_minor": 0
      },
      "text/plain": [
       "config_sentence_transformers.json:   0%|          | 0.00/212 [00:00<?, ?B/s]"
      ]
     },
     "metadata": {},
     "output_type": "display_data"
    },
    {
     "data": {
      "application/vnd.jupyter.widget-view+json": {
       "model_id": "91ec29abb06e44cbbee7989ebd4266d8",
       "version_major": 2,
       "version_minor": 0
      },
      "text/plain": [
       "README.md:   0%|          | 0.00/8.71k [00:00<?, ?B/s]"
      ]
     },
     "metadata": {},
     "output_type": "display_data"
    },
    {
     "data": {
      "application/vnd.jupyter.widget-view+json": {
       "model_id": "32afb47ff20746a88a6713c67b4a0006",
       "version_major": 2,
       "version_minor": 0
      },
      "text/plain": [
       "sentence_bert_config.json:   0%|          | 0.00/53.0 [00:00<?, ?B/s]"
      ]
     },
     "metadata": {},
     "output_type": "display_data"
    },
    {
     "data": {
      "application/vnd.jupyter.widget-view+json": {
       "model_id": "a24a736951ae40278cc9d01c584519b3",
       "version_major": 2,
       "version_minor": 0
      },
      "text/plain": [
       "config.json:   0%|          | 0.00/571 [00:00<?, ?B/s]"
      ]
     },
     "metadata": {},
     "output_type": "display_data"
    },
    {
     "data": {
      "application/vnd.jupyter.widget-view+json": {
       "model_id": "ead216e4d354412aa792d5fa5c2f67e9",
       "version_major": 2,
       "version_minor": 0
      },
      "text/plain": [
       "model.safetensors:   0%|          | 0.00/438M [00:00<?, ?B/s]"
      ]
     },
     "metadata": {},
     "output_type": "display_data"
    },
    {
     "data": {
      "application/vnd.jupyter.widget-view+json": {
       "model_id": "82847fafee814944bbeb419a2f8eb017",
       "version_major": 2,
       "version_minor": 0
      },
      "text/plain": [
       "tokenizer_config.json:   0%|          | 0.00/363 [00:00<?, ?B/s]"
      ]
     },
     "metadata": {},
     "output_type": "display_data"
    },
    {
     "data": {
      "application/vnd.jupyter.widget-view+json": {
       "model_id": "1dc0f0407a6f44dc9d724726c4da2d2d",
       "version_major": 2,
       "version_minor": 0
      },
      "text/plain": [
       "vocab.txt:   0%|          | 0.00/232k [00:00<?, ?B/s]"
      ]
     },
     "metadata": {},
     "output_type": "display_data"
    },
    {
     "data": {
      "application/vnd.jupyter.widget-view+json": {
       "model_id": "dc136e53a81b48baa1fc46b23bfc02e2",
       "version_major": 2,
       "version_minor": 0
      },
      "text/plain": [
       "tokenizer.json:   0%|          | 0.00/466k [00:00<?, ?B/s]"
      ]
     },
     "metadata": {},
     "output_type": "display_data"
    },
    {
     "data": {
      "application/vnd.jupyter.widget-view+json": {
       "model_id": "1e4509faf7774b33b9349d9e91ab4385",
       "version_major": 2,
       "version_minor": 0
      },
      "text/plain": [
       "special_tokens_map.json:   0%|          | 0.00/239 [00:00<?, ?B/s]"
      ]
     },
     "metadata": {},
     "output_type": "display_data"
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "/usr/local/python/3.10.13/lib/python3.10/site-packages/transformers/tokenization_utils_base.py:1601: FutureWarning: `clean_up_tokenization_spaces` was not set. It will be set to `True` by default. This behavior will be depracted in transformers v4.45, and will be then set to `False` by default. For more details check this issue: https://github.com/huggingface/transformers/issues/31884\n",
      "  warnings.warn(\n"
     ]
    },
    {
     "data": {
      "application/vnd.jupyter.widget-view+json": {
       "model_id": "2e67719dd9c54983990d3d2dc98e6c67",
       "version_major": 2,
       "version_minor": 0
      },
      "text/plain": [
       "1_Pooling/config.json:   0%|          | 0.00/190 [00:00<?, ?B/s]"
      ]
     },
     "metadata": {},
     "output_type": "display_data"
    }
   ],
   "source": [
    "# Load the embedding model\n",
    "from sentence_transformers import SentenceTransformer\n",
    "embedding_model = SentenceTransformer('multi-qa-mpnet-base-dot-v1')\n",
    "\n",
    "# Extract the first LLM answer\n",
    "answer_llm = df.iloc[0].answer_llm\n",
    "\n",
    "# Generate embeddings\n",
    "embedding = embedding_model.encode(answer_llm)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 7,
   "id": "d9000731-b34e-4f83-8245-0b5edd1eb522",
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "array([-4.22446549e-01, -2.24856257e-01, -3.24058414e-01, -2.84758478e-01,\n",
       "        7.25642918e-03,  1.01186566e-01,  1.03716910e-01, -1.89983174e-01,\n",
       "       -2.80599259e-02,  2.71588802e-01, -1.15337655e-01,  1.14666030e-01,\n",
       "       -8.49586725e-02,  3.32365334e-01,  5.52720726e-02, -2.22195774e-01,\n",
       "       -1.42540857e-01,  1.02519155e-01, -1.52333647e-01, -2.02912465e-01,\n",
       "        1.98422875e-02,  8.38149190e-02, -5.68632066e-01,  2.32844148e-02,\n",
       "       -1.67292684e-01, -2.39256918e-01, -8.05464387e-02,  2.57084146e-02,\n",
       "       -8.15464780e-02, -7.39290118e-02, -2.61550009e-01,  1.92575473e-02,\n",
       "        3.22909206e-01,  1.90357104e-01, -9.34726413e-05, -2.13165611e-01,\n",
       "        2.88943425e-02, -1.79530401e-02, -5.92756271e-02,  1.99918285e-01,\n",
       "       -4.75170948e-02,  1.71634093e-01, -2.45917086e-02, -9.38061550e-02,\n",
       "       -3.57002735e-01,  1.33263692e-01,  1.94045901e-01, -1.18530318e-01,\n",
       "        4.56915230e-01,  1.47728190e-01,  3.35945129e-01, -1.86959356e-01,\n",
       "        2.45954901e-01, -1.07774414e-01, -1.80859715e-01,  1.18171848e-01,\n",
       "        7.27292970e-02,  2.78034002e-01,  4.16388541e-01, -1.66037992e-01,\n",
       "       -1.28587216e-01,  3.40980262e-01, -5.31823598e-02,  2.86048353e-02,\n",
       "        2.70212382e-01,  1.59813128e-02,  5.30229270e-01, -4.24391806e-01,\n",
       "        4.41506058e-02,  1.12921618e-01,  5.93987465e-01,  1.31700680e-01,\n",
       "        7.96381291e-03, -9.32246167e-03,  2.07376808e-01,  9.57206264e-02,\n",
       "       -1.83128104e-01,  1.22415923e-01, -2.01750427e-01,  3.12428743e-01,\n",
       "       -5.54992780e-02, -2.87764728e-01, -1.73390508e-01,  1.55471057e-01,\n",
       "        1.19515164e-02,  3.49037141e-01, -8.38189423e-02, -1.50645420e-01,\n",
       "        5.33228293e-02, -1.06787771e-01,  1.13244712e-01,  3.14916372e-01,\n",
       "       -2.95622973e-03,  4.66762930e-01, -1.56012893e-01, -3.61533761e-01,\n",
       "        3.31573486e-02,  2.06269026e-01, -1.06713794e-01, -5.01036495e-02,\n",
       "        1.83970019e-01, -1.39953084e-02,  2.16501340e-01,  1.41000211e-01,\n",
       "        1.90431491e-01, -3.77753079e-01,  8.65841657e-02, -9.80312675e-02,\n",
       "        2.32716277e-01,  2.01482512e-02, -9.70341042e-02,  1.01333164e-01,\n",
       "       -1.72075003e-01, -1.49902552e-01, -2.79156476e-01,  4.38269198e-01,\n",
       "       -1.79244116e-01, -5.75872399e-02, -7.84661770e-02, -3.23518127e-01,\n",
       "       -2.88021684e-01,  1.18698619e-01,  8.74238461e-02,  2.05323666e-01,\n",
       "       -4.80108410e-02, -5.71200177e-02, -2.83934362e-02, -3.82449590e-02,\n",
       "       -2.26607919e-01, -6.20817728e-02, -8.28164890e-02,  3.57217342e-01,\n",
       "       -1.73984095e-01, -2.00290740e-01,  2.40433693e-01,  2.16891527e-01,\n",
       "       -6.78277612e-02,  1.77686155e-01, -7.99841899e-03,  2.68137604e-01,\n",
       "        1.61456317e-01,  3.94612044e-01,  8.85786191e-02,  2.40581304e-01,\n",
       "       -2.59246095e-03, -3.16258013e-01, -2.44214848e-01,  3.14837724e-01,\n",
       "       -1.19753405e-01,  2.73653101e-02, -1.63026363e-01, -1.62030049e-02,\n",
       "       -3.58392261e-02,  3.33115399e-01,  5.83249390e-01, -2.79057741e-01,\n",
       "        4.58128810e-01,  4.30684417e-01, -9.04696286e-02, -9.46645215e-02,\n",
       "       -4.69528921e-02,  1.82061687e-01,  1.93517745e-01, -5.74656613e-02,\n",
       "        5.64571097e-02,  6.01408891e-02, -2.71578580e-01,  3.31837907e-02,\n",
       "       -2.93490499e-01,  8.48192200e-02,  1.16655000e-01, -3.32131460e-02,\n",
       "       -9.28958580e-02,  8.89660344e-02,  4.50625736e-03, -1.12345159e-01,\n",
       "        2.86367059e-01, -4.58183348e-01,  2.24825993e-01, -1.59531116e-01,\n",
       "       -3.91896144e-02, -4.82417852e-01,  2.00283900e-01,  5.05796410e-02,\n",
       "       -7.37684369e-02, -2.89322305e-02,  5.19139245e-02,  2.53143758e-01,\n",
       "       -1.18403286e-01, -3.75850977e-05, -1.42503413e-03,  8.79560038e-02,\n",
       "       -1.54602483e-01,  1.39947549e-01, -1.63175032e-01, -2.27564886e-01,\n",
       "        2.43595485e-02,  1.83513567e-01,  2.09396437e-01,  6.44866517e-03,\n",
       "       -1.67488962e-01,  2.13646799e-01, -9.41732377e-02, -1.58162378e-02,\n",
       "       -8.20812136e-02, -1.83308780e-01,  2.60268360e-01, -5.81486881e-01,\n",
       "       -1.88393205e-01,  4.93148774e-01,  1.71536312e-01, -1.94944099e-01,\n",
       "       -2.98343096e-02, -1.10752113e-01,  1.75626159e-01, -2.15448916e-01,\n",
       "        3.90823573e-01, -4.05398634e-04,  1.63337797e-01, -1.30663797e-01,\n",
       "       -1.60531953e-01, -1.78250149e-01,  1.44646168e-01, -5.53424656e-02,\n",
       "       -2.84335226e-01, -2.52671123e-01, -2.86735326e-01,  7.28119910e-02,\n",
       "        1.01622507e-01,  2.40729585e-01,  2.70242780e-01, -2.02046320e-01,\n",
       "        3.18083346e-01,  2.44049698e-01, -1.42584249e-01,  8.29215050e-02,\n",
       "        4.85367142e-02,  2.96780825e-01,  4.12520409e-01, -3.14379066e-01,\n",
       "       -1.16970025e-01,  6.29207343e-02,  7.08074644e-02,  2.58253694e-01,\n",
       "       -1.14306333e-02,  4.45277184e-01,  1.21436141e-01, -1.32654220e-01,\n",
       "       -7.34769478e-02,  1.45819008e-01,  8.71956199e-02,  3.29194926e-02,\n",
       "       -1.06550351e-01,  1.32414505e-01,  5.37189431e-02,  1.55813411e-01,\n",
       "       -3.02494522e-02, -1.43763736e-01, -2.87022442e-01,  2.91071415e-01,\n",
       "        1.64530411e-01, -1.11769840e-01,  2.36827105e-01, -3.21419120e-01,\n",
       "       -1.66114718e-01, -1.28118461e-02,  3.42823267e-01, -1.29733771e-01,\n",
       "       -8.64382684e-02,  8.01279694e-02,  2.09743038e-01, -1.31370798e-01,\n",
       "       -4.56719726e-01, -2.07562476e-01,  2.11608559e-01, -1.06123090e-01,\n",
       "       -7.91287944e-02, -1.07585475e-01, -3.71915281e-01, -7.27088153e-02,\n",
       "       -1.18881032e-01, -8.83410424e-02, -1.14614973e-02, -1.38135672e-01,\n",
       "       -2.01837197e-01, -4.67055924e-02, -9.99320671e-02, -2.49767691e-01,\n",
       "        2.34003603e-01, -3.08610976e-01,  5.94545528e-02, -1.53504878e-01,\n",
       "        2.65017301e-01,  3.01959994e-03, -1.05429068e-01,  1.93159595e-01,\n",
       "        3.11240494e-01,  3.94329935e-01, -1.93248559e-02,  4.99086589e-01,\n",
       "        1.55235240e-02, -1.99357420e-01,  5.28701639e-04,  4.31942135e-01,\n",
       "        7.14856898e-03, -1.23075522e-01,  8.09214357e-03, -1.80046067e-01,\n",
       "        6.30259840e-03, -3.00480593e-02, -3.72297019e-01,  1.83589578e-01,\n",
       "        2.57175624e-01, -1.55412167e-01,  1.24235354e-01,  1.37525707e-01,\n",
       "       -1.35491267e-01,  3.29673998e-02, -9.26109329e-02, -5.65365195e-01,\n",
       "        2.80102491e-02, -2.07512379e-02, -1.69507325e-01, -2.20879644e-01,\n",
       "       -2.19279394e-01, -2.83492446e-01, -4.83236074e-01, -3.42599332e-01,\n",
       "       -9.17721614e-02,  2.96830237e-01, -5.98578993e-03,  6.14565946e-02,\n",
       "       -1.05392493e-01,  1.58028528e-01,  4.33737636e-02,  2.40767151e-01,\n",
       "       -3.02058756e-01, -2.03180507e-01,  3.31530333e-01, -3.77642363e-01,\n",
       "       -2.81263560e-01,  1.91836596e-01, -1.27187788e-01,  1.78842291e-01,\n",
       "       -2.64506638e-01,  1.23102041e-02, -1.61026523e-01,  1.34969994e-01,\n",
       "       -8.89986604e-02, -4.67514731e-02,  4.90023911e-01,  7.38462359e-02,\n",
       "       -1.30986691e-01, -3.05827111e-01, -1.67545646e-01,  1.94467813e-01,\n",
       "        1.63925290e-01,  1.95639074e-01,  2.50459850e-01, -4.28531021e-01,\n",
       "        3.45136202e-03, -2.58735657e-01,  5.29080629e-01, -3.74269754e-01,\n",
       "        1.52396157e-01, -1.04267478e-01,  5.28327078e-02,  6.97041228e-02,\n",
       "        3.10416311e-01,  1.34908512e-01, -1.46409616e-01,  8.79695937e-02,\n",
       "       -2.16057539e-01, -5.98213822e-03,  1.46351337e-01,  1.00754820e-01,\n",
       "       -3.56721848e-01,  2.37128615e-01, -2.08308592e-01, -1.37768105e-01,\n",
       "        1.87474936e-01, -1.37022138e-01,  1.79654598e-01,  9.50282216e-02,\n",
       "        3.05512726e-01, -2.35115271e-03, -5.99397123e-02,  3.43031466e-01,\n",
       "        2.22358793e-01,  3.86910379e-01, -4.61395569e-02, -5.23233414e-01,\n",
       "       -1.88939556e-01, -3.29894423e-02,  1.58315703e-01, -6.72143698e-02,\n",
       "        1.70431644e-01, -1.60779819e-01, -1.32888198e-01,  1.94981799e-01,\n",
       "       -7.49424323e-02,  1.33112699e-01, -3.46186385e-02, -3.98084037e-02,\n",
       "        1.55843034e-01,  7.61214495e-02,  6.12081923e-02,  1.30053878e-01,\n",
       "       -4.20598686e-01, -8.50357860e-02,  7.93772265e-02,  1.17576487e-01,\n",
       "        1.19341966e-02, -8.69094860e-03,  1.18011624e-01, -3.85569632e-01,\n",
       "       -1.99203730e-01,  3.17576230e-01,  6.12181202e-02, -1.49611905e-01,\n",
       "       -8.59779790e-02, -3.21716629e-02,  1.85915381e-01, -1.35080367e-01,\n",
       "        3.26779842e-01,  1.11499682e-01,  2.00124830e-01, -1.81170076e-01,\n",
       "        9.46173631e-03,  2.59242088e-01, -8.62893164e-02,  1.24218024e-01,\n",
       "       -2.26192072e-01,  1.87308297e-01, -6.76105395e-02,  1.09886266e-01,\n",
       "        7.81963617e-02,  1.59899145e-01,  4.34805304e-02,  3.77582192e-01,\n",
       "        2.00292803e-02,  3.12313020e-01,  3.17891955e-01,  3.18761989e-02,\n",
       "        1.84716880e-01,  1.02976911e-01, -1.29829776e-02, -5.33965826e-01,\n",
       "       -4.15462907e-03, -9.74933282e-02,  2.92788059e-01, -1.68569423e-02,\n",
       "       -3.65061045e-01,  2.62162805e-01, -1.99976206e-01, -1.79652378e-01,\n",
       "       -6.74350858e-02, -7.36469775e-02,  7.99695402e-03, -8.52290317e-02,\n",
       "        3.02015811e-01,  7.65382171e-01,  1.86538041e-01,  9.91606191e-02,\n",
       "       -3.15705091e-02, -2.39601418e-01,  3.49765509e-01, -3.79434228e-01,\n",
       "        4.37371314e-01, -3.03044796e-01,  3.50981578e-02, -1.36657637e-02,\n",
       "       -3.92118841e-02,  1.74251482e-01,  2.19215915e-01,  3.65043953e-02,\n",
       "        1.70673028e-01,  1.96939483e-01, -1.31071076e-01, -4.28890586e-02,\n",
       "        1.75453767e-01, -4.72446084e-02,  6.98638782e-02,  3.11690215e-02,\n",
       "        3.22513998e-01,  4.49009001e-01,  1.86776906e-01, -1.16196573e-02,\n",
       "       -1.47021487e-01, -2.00406447e-01,  7.67487958e-02, -1.27667904e-01,\n",
       "       -6.29130676e-02, -4.80403572e-01,  1.54105708e-01, -9.61350277e-02,\n",
       "       -2.31544882e-01,  3.21784280e-02, -2.23328322e-01, -9.49404109e-03,\n",
       "        1.23602584e-01, -1.67446643e-01,  2.84745991e-01,  1.42777031e-02,\n",
       "       -2.71191090e-01, -3.30283552e-01,  3.32764149e-01,  1.96248323e-01,\n",
       "       -2.55561173e-01,  1.17187046e-01,  4.77881253e-01, -4.56429459e-02,\n",
       "       -1.86917365e-01, -2.67586559e-01,  1.55057386e-01,  4.42822933e-01,\n",
       "        3.23592216e-01,  2.25058690e-01,  4.15321998e-02, -2.00825393e-01,\n",
       "        1.77915126e-01,  3.05669188e-01,  2.31600404e-01, -3.19247186e-01,\n",
       "       -1.18139103e-01,  1.34351820e-01,  2.80499399e-01, -2.21151099e-01,\n",
       "        5.30998521e-02,  1.29904285e-01,  6.53698072e-02, -1.18015241e-02,\n",
       "        6.73178434e-02,  8.00407529e-02, -5.13182700e-01, -5.82332797e-02,\n",
       "        6.54615536e-02,  2.76209116e-01, -1.83698051e-02,  2.94542342e-01,\n",
       "       -3.07798773e-01,  1.83834076e-01,  1.59030885e-01,  4.07141924e-01,\n",
       "       -1.66562304e-01, -4.79783148e-01, -2.10012928e-01, -4.13606107e-01,\n",
       "        5.92363104e-02,  1.54403865e-01,  6.57917524e-04,  2.10361034e-01,\n",
       "        2.83089578e-01,  3.63212079e-01,  1.09330714e-01, -5.22614777e-01,\n",
       "       -1.22006446e-01,  1.48909390e-02,  8.16330984e-02,  9.79117081e-02,\n",
       "       -1.71466395e-01, -1.19785875e-01,  3.07113677e-01,  2.41553932e-01,\n",
       "        1.07853256e-01, -1.99582592e-01, -3.44078898e-01, -6.04018830e-02,\n",
       "        5.21590225e-02,  3.28596123e-02, -3.27362958e-03,  1.36293754e-01,\n",
       "       -3.81064005e-02, -2.55616546e-01,  1.35476470e-01, -2.36675397e-01,\n",
       "       -4.05684918e-01,  2.38533631e-01,  4.29497212e-02,  1.72240529e-02,\n",
       "       -2.48771071e-01, -5.33275530e-02, -3.07872128e-02,  5.81808165e-02,\n",
       "       -1.23233385e-01,  2.18563285e-02,  2.29185984e-01,  9.34008956e-02,\n",
       "       -2.54486620e-01, -1.76820964e-01,  1.78003520e-01, -1.88910052e-01,\n",
       "       -2.32188642e-01,  1.38992473e-01,  8.63836035e-02,  1.66123390e-01,\n",
       "       -1.26168072e-01,  4.47001532e-02, -2.57232529e-03,  9.59318504e-02,\n",
       "        1.70473605e-01,  4.11361121e-02,  3.73511106e-01, -2.45751396e-01,\n",
       "        8.69028196e-02, -3.60793263e-01, -1.35020286e-01,  2.28721783e-01,\n",
       "        5.50211184e-02,  2.56113142e-01, -2.00420655e-02,  1.00338824e-01,\n",
       "        2.35083587e-02, -5.19269034e-02,  1.96859017e-01, -3.61611397e-04,\n",
       "        3.07785898e-01, -1.46380290e-01,  9.31808129e-02,  1.40383795e-01,\n",
       "        1.81080885e-02, -1.38114452e-01,  4.64578792e-02,  5.93974218e-02,\n",
       "        4.88918871e-02,  2.51312405e-01, -8.47727880e-02,  7.51709491e-02,\n",
       "        1.41400155e-02,  3.21199000e-01,  1.87376946e-01,  3.38847190e-01,\n",
       "        1.51105061e-01,  3.21048081e-01,  1.62717119e-01, -4.25226092e-01,\n",
       "       -3.60833555e-01,  4.96277846e-02,  1.51703164e-01, -2.27194116e-01,\n",
       "       -1.19753860e-01, -2.01473087e-02, -2.40545928e-01,  5.62719293e-02,\n",
       "        3.93154807e-02,  1.62902772e-01,  4.60221060e-02,  1.69599175e-01,\n",
       "       -1.60548106e-01, -2.60249199e-03, -9.23942104e-02, -4.32310522e-01,\n",
       "        9.29701477e-02,  3.15057278e-01,  1.51550733e-02,  4.36366163e-02,\n",
       "       -2.50602722e-01, -8.28457847e-02,  1.22859351e-01,  3.40397246e-02,\n",
       "        1.75262973e-01, -1.60563320e-01, -3.39263707e-01,  8.57213438e-02,\n",
       "        7.73878843e-02, -1.93213850e-01,  1.34666190e-01,  3.19205085e-03,\n",
       "        2.99942374e-01, -2.12175138e-02,  1.68446496e-01,  3.32506210e-01,\n",
       "       -2.90306896e-01, -2.65654176e-02,  1.57836169e-01, -1.45967975e-01,\n",
       "        1.02216974e-01, -3.66670966e-01, -1.05406910e-01,  8.61347318e-02,\n",
       "       -2.02301443e-01,  3.80773805e-02, -1.82997838e-01, -1.71337470e-01,\n",
       "       -1.67108074e-01, -4.81708020e-01, -3.76028977e-02, -2.37805545e-01,\n",
       "        1.88101396e-01, -5.88414930e-02,  5.97653806e-01,  2.54528522e-01,\n",
       "        3.43906358e-02,  3.61725464e-02, -3.01713407e-01, -3.13887179e-01,\n",
       "       -2.44420599e-02,  3.54958735e-02, -1.56710073e-01, -3.16900641e-01,\n",
       "        2.10859533e-02,  2.57124722e-01,  4.08265084e-01,  1.50323004e-01,\n",
       "       -6.00401917e-03, -1.62305832e-01,  3.02282244e-01, -2.29149416e-01,\n",
       "        1.85533658e-01,  9.38911662e-02,  4.12931032e-02, -1.50901020e-01,\n",
       "       -1.33867323e-01,  2.03006327e-01, -2.04597056e-01,  3.01504135e-01,\n",
       "        2.38587379e-01,  6.47758693e-02,  1.75633207e-01,  2.81314194e-01,\n",
       "        1.58511877e-01,  2.10825074e-03,  3.89198571e-01, -2.64083624e-01,\n",
       "       -2.38809377e-01,  2.06713349e-01,  1.16575621e-01, -1.77012816e-01,\n",
       "       -2.77637225e-02,  1.83658719e-01,  2.25406319e-01, -8.78800228e-02,\n",
       "       -1.43584460e-01,  2.10636601e-01,  1.69541448e-01, -5.84906840e-04,\n",
       "       -3.66570540e-02, -3.57494950e-01,  2.06115052e-01, -1.50764823e-01,\n",
       "       -8.18619803e-02,  3.86624373e-02,  1.66414812e-01,  1.40700769e-02,\n",
       "       -2.76515305e-01, -1.28965646e-01, -6.98805898e-02,  2.13923261e-01,\n",
       "       -2.81380624e-01, -3.66245881e-02, -1.43629074e-01,  6.90279976e-02,\n",
       "       -7.71775246e-02,  1.96927145e-01, -2.78328776e-01, -4.52038497e-02,\n",
       "       -1.19244494e-01, -3.84129345e-01,  8.88781548e-02,  4.29855347e-01,\n",
       "        2.08253354e-01, -3.37734908e-01, -2.85533398e-01,  9.70599502e-02,\n",
       "        2.04244450e-01, -6.10269755e-02, -1.66054562e-01, -2.67020494e-01],\n",
       "      dtype=float32)"
      ]
     },
     "execution_count": 7,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "embedding"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 12,
   "id": "c3bff872-5f7b-459e-ad2c-905a02970833",
   "metadata": {},
   "outputs": [
    {
     "data": {
      "application/vnd.jupyter.widget-view+json": {
       "model_id": "88430642b3bd4b5597474782b3851e99",
       "version_major": 2,
       "version_minor": 0
      },
      "text/plain": [
       "  0%|          | 0/300 [00:00<?, ?it/s]"
      ]
     },
     "metadata": {},
     "output_type": "display_data"
    }
   ],
   "source": [
    "\n",
    "# Function to compute similarity between original and LLM-generated answers\n",
    "def compute_similarity(record):\n",
    "    answer_orig = record['answer_orig']\n",
    "    answer_llm = record['answer_llm']\n",
    "    \n",
    "    # Generate embeddings for both original and LLM answers\n",
    "    v_orig = embedding_model.encode(answer_orig)\n",
    "    v_llm = embedding_model.encode(answer_llm)\n",
    "    \n",
    "    # Compute the dot product between the two embeddings\n",
    "    return np.dot(v_orig, v_llm)\n",
    "\n",
    "# Compute similarities for all records\n",
    "similarity_scores = []\n",
    "\n",
    "# Iterate over each record in the dataframe and compute similarity\n",
    "for _, record in tqdm(df.iterrows(), total=len(df)):\n",
    "    similarity = compute_similarity(record)\n",
    "    similarity_scores.append(similarity)\n",
    "\n",
    "df['cosine'] = similarity_scores\n",
    "\n",
    "\n",
    "percentile_75 = np.percentile(similarity_scores, 75)\n",
    "\n"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 13,
   "id": "ad6d78e7-f514-49f1-92de-68085d563d58",
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "np.float32(31.674309)"
      ]
     },
     "execution_count": 13,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "percentile_75"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 14,
   "id": "94eb539d-3d6f-4b39-9a07-f13808ccdf20",
   "metadata": {},
   "outputs": [
    {
     "data": {
      "application/vnd.jupyter.widget-view+json": {
       "model_id": "d02867f21a2f42f6a5c2ec746c952483",
       "version_major": 2,
       "version_minor": 0
      },
      "text/plain": [
       "  0%|          | 0/300 [00:00<?, ?it/s]"
      ]
     },
     "metadata": {},
     "output_type": "display_data"
    }
   ],
   "source": [
    "\n",
    "def normalize_vector(v):\n",
    "    norm = np.sqrt(np.sum(v * v))\n",
    "    return v / norm\n",
    "\n",
    "\n",
    "def compute_cosine_similarity(record):\n",
    "    answer_orig = record['answer_orig']\n",
    "    answer_llm = record['answer_llm']\n",
    "    \n",
    "   \n",
    "    v_orig = embedding_model.encode(answer_orig)\n",
    "    v_llm = embedding_model.encode(answer_llm)\n",
    "    \n",
    "    # Normalize both vectors\n",
    "    v_orig_norm = normalize_vector(v_orig)\n",
    "    v_llm_norm = normalize_vector(v_llm)\n",
    "    \n",
    "\n",
    "    cosine_similarity = np.dot(v_orig_norm, v_llm_norm)\n",
    "    \n",
    "    return cosine_similarity\n",
    "\n",
    "\n",
    "cosine_scores = []\n",
    "\n",
    "\n",
    "for _, record in tqdm(df.iterrows(), total=len(df)):\n",
    "    cosine_similarity = compute_cosine_similarity(record)\n",
    "    cosine_scores.append(cosine_similarity)\n",
    "\n",
    "\n",
    "df['cosine'] = cosine_scores\n",
    "\n",
    "\n",
    "percentile_75 = np.percentile(cosine_scores, 75)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 15,
   "id": "b8fbea8c-1b1b-40e4-b12a-8c48d0f84f1e",
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "np.float32(0.8362349)"
      ]
     },
     "execution_count": 15,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "percentile_75"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 16,
   "id": "3a044bfa-2fc6-46f6-96de-aa429bf0429f",
   "metadata": {},
   "outputs": [
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid deadlocks...\n",
      "To disable this warning, you can either:\n",
      "\t- Avoid using `tokenizers` before the fork if possible\n",
      "\t- Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true | false)\n"
     ]
    },
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "Collecting rouge\n",
      "  Downloading rouge-1.0.1-py3-none-any.whl.metadata (4.1 kB)\n",
      "Requirement already satisfied: six in /home/codespace/.local/lib/python3.10/site-packages (from rouge) (1.16.0)\n",
      "Downloading rouge-1.0.1-py3-none-any.whl (13 kB)\n",
      "Installing collected packages: rouge\n",
      "Successfully installed rouge-1.0.1\n",
      "\n",
      "\u001b[1m[\u001b[0m\u001b[34;49mnotice\u001b[0m\u001b[1;39;49m]\u001b[0m\u001b[39;49m A new release of pip is available: \u001b[0m\u001b[31;49m24.1.2\u001b[0m\u001b[39;49m -> \u001b[0m\u001b[32;49m24.2\u001b[0m\n",
      "\u001b[1m[\u001b[0m\u001b[34;49mnotice\u001b[0m\u001b[1;39;49m]\u001b[0m\u001b[39;49m To update, run: \u001b[0m\u001b[32;49mpython3 -m pip install --upgrade pip\u001b[0m\n",
      "Note: you may need to restart the kernel to use updated packages.\n"
     ]
    }
   ],
   "source": [
    "# pip install rouge"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 17,
   "id": "83ce8954-cf66-4d9b-8956-d21bd392cc2b",
   "metadata": {},
   "outputs": [],
   "source": [
    "from rouge import Rouge"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 19,
   "id": "80d29796-2226-4d9e-91f2-89f8c0b1c94d",
   "metadata": {},
   "outputs": [],
   "source": [
    "# Select the specific record at index 10\n",
    "r = df.iloc[10]"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 20,
   "id": "e1424d61-a6df-41e9-ad7c-3be1bd96f752",
   "metadata": {},
   "outputs": [],
   "source": [
    "\n",
    "rouge_scorer = Rouge()\n",
    "scores = rouge_scorer.get_scores(r['answer_llm'], r['answer_orig'])[0]\n",
    "\n",
    "rouge_1_f1 = scores['rouge-1']['f']"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 21,
   "id": "ed473c45-0278-41b2-a650-18f633a777b4",
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "0.45454544954545456"
      ]
     },
     "execution_count": 21,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "rouge_1_f1"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 23,
   "id": "c9220884-384b-4869-99b4-cc2a1b3fefac",
   "metadata": {},
   "outputs": [],
   "source": [
    "\n",
    "rouge_1_f1 = scores['rouge-1']['f']\n",
    "rouge_2_f1 = scores['rouge-2']['f']\n",
    "rouge_l_f1 = scores['rouge-l']['f']\n",
    "\n",
    "# Compute the average F1 score\n",
    "average_f1 = (rouge_1_f1 + rouge_2_f1 + rouge_l_f1) / 3\n"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 24,
   "id": "c759e757-23c4-45ce-b58c-bf3020bce520",
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "0.35490034990035496"
      ]
     },
     "execution_count": 24,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "average_f1"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 25,
   "id": "89b3423f-c0f1-4cd8-b135-4cc922eef466",
   "metadata": {},
   "outputs": [
    {
     "data": {
      "application/vnd.jupyter.widget-view+json": {
       "model_id": "1f854d1e0552480dbdb8f2de5dcd872c",
       "version_major": 2,
       "version_minor": 0
      },
      "text/plain": [
       "  0%|          | 0/300 [00:00<?, ?it/s]"
      ]
     },
     "metadata": {},
     "output_type": "display_data"
    }
   ],
   "source": [
    "\n",
    "rouge_1_f1_scores = []\n",
    "rouge_2_f1_scores = []\n",
    "rouge_l_f1_scores = []\n",
    "\n",
    "\n",
    "for _, row in tqdm(df.iterrows(), total=len(df)):\n",
    "    scores = rouge_scorer.get_scores(row['answer_llm'], row['answer_orig'])[0]\n",
    "    \n",
    "    \n",
    "    rouge_1_f1_scores.append(scores['rouge-1']['f'])\n",
    "    rouge_2_f1_scores.append(scores['rouge-2']['f'])\n",
    "    rouge_l_f1_scores.append(scores['rouge-l']['f'])\n",
    "\n",
    "\n",
    "f1_scores_df = pd.DataFrame({\n",
    "    'rouge_1_f1': rouge_1_f1_scores,\n",
    "    'rouge_2_f1': rouge_2_f1_scores,\n",
    "    'rouge_l_f1': rouge_l_f1_scores\n",
    "})\n",
    "\n",
    "\n",
    "average_rouge_2_f1 = f1_scores_df['rouge_2_f1'].mean()"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 26,
   "id": "fb29a453-4c22-4b9a-baca-d9dd01dd4e73",
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "np.float64(0.20696501983423318)"
      ]
     },
     "execution_count": 26,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "average_rouge_2_f1"
   ]
  }
 ],
 "metadata": {
  "kernelspec": {
   "display_name": "Python 3 (ipykernel)",
   "language": "python",
   "name": "python3"
  },
  "language_info": {
   "codemirror_mode": {
    "name": "ipython",
    "version": 3
   },
   "file_extension": ".py",
   "mimetype": "text/x-python",
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython3",
   "version": "3.10.13"
  }
 },
 "nbformat": 4,
 "nbformat_minor": 5
}