{
 "cells": [
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "# Анализа текстуалних података - припрема текста са блога и/ли сајта"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Податке које генеришемо и/ли желимо да обрадимо и анализирамо често су у текстуалном формату (помислите само на извештаје лекара, текстове закона, текстове порука размењених на друштвеним мрежама...), због чега ћемо се у наредном сегменту позабавити и анализом текста. Ова област је изузетно велика и активна (нове методе и алгоритми генеришу се готово на дневном нивоу), те не претендујемо да овде одговоримо на сва питања у вези са текстом већ да отворимо нека почетна питања и понудимо неке од алата за једноставне анализе, које ће, надамо се, послужити као мотивација за нека будућа истраживања.\n",
    "\n",
    "Ова радна свеска служи да се прикупе текстуални подаци са веб страна и сачувају у *csv* фајл тако да можемо да се бавимо анализом како смо и до сада навикли. Савладавање ове радне свеске није неопходно за праћење остатка, она више служи за инспирацију уколико будете желели да преузмете и анализирате неки други текст са интернета. У наставку ћемо показати како се:\n",
    "- преузима текст са веб стране\n",
    "- користе библиотеке *requests* и *beautifulsoup* за издвајање корисних и текстуалних података из *html* фајла"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 1,
   "metadata": {},
   "outputs": [],
   "source": [
    "# библиотеке које ћемо користити за преузимање текста са веб страна\n",
    "import requests\n",
    "import bs4 as bs\n",
    "\n",
    "# библиотека функција за баратање стринговима, од користи за анализу текста\n",
    "import string\n",
    "\n",
    "# претходно коришћене библиотеке за манипулацију подацима и цртање\n",
    "import numpy as np\n",
    "import matplotlib.pyplot as plt\n",
    "import pandas as pd"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "У овој радној свесци преузећемо текстове са ових веб адреса:\n",
    "\n",
    "https://petlja.org/petlja/fondacija\n",
    "\n",
    "https://petlja.org/petlja/foundation/"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "У оквиру библиотеке [**requests**](https://requests.readthedocs.io/en/master/) налази се функција **get** уз помоћ које ћемо преузети садржај са жељене веб адресе:"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 2,
   "metadata": {},
   "outputs": [],
   "source": [
    "url = 'https://petlja.org/petlja/fondacija'\n",
    "stranica = requests.get(url)\n",
    "#stranica.text"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "У *stranici* је сада садржај ове веб стране, а ако нас занима само текст, то можемо проверити користећи **stranica.text**, међутим тако ћемо бити затрпани *html* кодом у мање читљивом формату (пробајте!). Како би нам преузети сарджај био читљивији, од помоћи ће нам бити функција [**BeautifulSoup**](https://www.crummy.com/software/BeautifulSoup/bs4/doc/) која ће дати садржај разложити препознајући *html* структуру и раздвојити све тагове у нове редове (упоредите садржај soup и stranica.text)."
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 3,
   "metadata": {},
   "outputs": [],
   "source": [
    "soup = bs.BeautifulSoup(stranica.text,\"html.parser\")\n",
    "#soup"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Следећа линија кода је тренутно искоментарисана зато што је њен исход велика количина html кода, која нам служи за брзу претрагу и уочавање уз који таг се налази текст са сајта који желимо да преузмемо. \n",
    "\n",
    "Постоје алтернативни начини да ово потражите користећи свој претраживач (углавном користећи Developer алате у свом претраживачу), али овде се фокусирамо на претрагу у оквиру ове радне свеске. \n",
    "Једноставно речено, циљ нам је да у прегршти текста који ће бити исписан када се наредна линија покрене, препознамо html структуру, то јест да су информације углавном оивичене таговима, нпр. ```<body>``` и ```<\\body>```. Циљ нам је да нађемо блок текста на српском, односно енглеском и да видимо који таг је искоришћен да тај текст означи."
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 4,
   "metadata": {
    "scrolled": false
   },
   "outputs": [],
   "source": [
    "#print(soup.prettify())"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Претходном претрагом у позадини наше жељене веб стране дошли смо до тага уз текст који пратимо ```<p>``` и ```<\\p>```, као и да је атрибут који прати тај таг ```{'class':'mb-3'}```.\n",
    "Практична ствар је што са библиотеком коју користимо не морамо да пишемо функцију која ће пронаћи сва појављивања овог тага са одређеним атрибутом, та функција већ постоји: **find_all**. Њеним позивањем добићемо све сегменте претходног html кода који су оивичени задатим тагом."
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 5,
   "metadata": {},
   "outputs": [],
   "source": [
    "potencijalnitekst = soup.find_all('p',attrs={'class':'mb-3'})\n",
    "#potencijalnitekst"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Ако последњу линију покренете, приметићете да је *potencijalnitekst* заправо листа, те ћемо у наставку проверити њену дужину и преузети садржај свих елемената."
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Уколико желите да анализирате текстове са неких других веб страна, претходни процес ће најчешће бити ствар коју ћете морати да измените у коду пошто различити аутори веб страна уз другачије тагове пакују текст, нпр. ако желите да преузмете текстове популарних музичких песама са нпр. [овог сајта](https://lyrics.fandom.com/wiki/ABBA:Dancing_Queen) текст ћете наћи уз таг ```div```, ca атрибутом ```{'class':'lyricsbox'}```. Оба ова тага су у складу са очекивањима, p долази од речи параграф (енг. *paragrah*), док је div сегмент (енг. *division*)."
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Видимо да су сви параграфи текста преузети (што можемо проверити и одласком на дату веб страну), али су тагови још увек ту, и има више сегментата, текста, тачније:"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 6,
   "metadata": {
    "scrolled": true
   },
   "outputs": [
    {
     "data": {
      "text/plain": [
       "7"
      ]
     },
     "execution_count": 6,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "len(potencijalnitekst)"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Како је potencijalnitekst листа, можемо погледати садржај првог елемента:"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 7,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "<p class=\"mb-3 \">\n",
       "                    Smatramo da je razumevanje algoritama i umeće algoritamskog izražavanja potrebno svima, a takođe je važno da oni koji su talentovani za programiranje svoj talenat prepoznaju i razvijaju.<br/><br/>\n",
       "\n",
       "                    Za sticanja algoritamske pismenosti neophodan je neki vid programiranja, isto kao što se bez praktikovanja pismenog izražavanja ne može steći klasična pismenost. Programiranje ne mora biti komplikovano, rezervisano za stručnjake, a suvoparno i dosadno ostalima. Naša želja je da programiranje približimo svima: deci i njihovim roditeljima, učenicima i njihovim nastavnicima, radoznalim korisnicima tehnologije i svim ljudima koji se pitanju šta je sledeće što treba da nauče.\n",
       "                </p>"
      ]
     },
     "execution_count": 7,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "potencijalnitekst[0]"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Видимо да овај први елемент листе и даље садржи html тагове, стога ћемо користити опцију **text** да издвојимо текст:"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 8,
   "metadata": {
    "scrolled": true
   },
   "outputs": [
    {
     "data": {
      "text/plain": [
       "'\\r\\n                    Smatramo da je razumevanje algoritama i umeće algoritamskog izražavanja potrebno svima, a takođe je važno da oni koji su talentovani za programiranje svoj talenat prepoznaju i razvijaju.\\r\\n\\r\\n                    Za sticanja algoritamske pismenosti neophodan je neki vid programiranja, isto kao što se bez praktikovanja pismenog izražavanja ne može steći klasična pismenost. Programiranje ne mora biti komplikovano, rezervisano za stručnjake, a suvoparno i dosadno ostalima. Naša želja je da programiranje približimo svima: deci i njihovim roditeljima, učenicima i njihovim nastavnicima, radoznalim korisnicima tehnologije i svim ljudima koji se pitanju šta je sledeće što treba da nauče.\\r\\n                '"
      ]
     },
     "execution_count": 8,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "potencijalnitekst[0].text"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Како је ово потребно урадити за све преузете параграфе (или један када их нема више на сајту са кога преузимате текст), у наставку је пар линија кода да то аутоматизовано пречистимо. Oзнаке за нове редове и сличне редундантне размаке уклањамо користећи функцију **strip**."
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 9,
   "metadata": {
    "scrolled": true
   },
   "outputs": [],
   "source": [
    "tekst=[]\n",
    "for segment in potencijalnitekst:\n",
    "    tekst.append(segment.text.strip())\n",
    "#tekst"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Коначно текст који је подељен у параграфе (који су елементи листе) можемо повезати на следећи начин користећи функцију **join**:"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 10,
   "metadata": {},
   "outputs": [],
   "source": [
    "textzaanalizu_srb=' '.join(tekst)"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Првих 10 карактера можемо проверити на следећи начин:"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 11,
   "metadata": {
    "scrolled": true
   },
   "outputs": [
    {
     "data": {
      "text/plain": [
       "'Smatramo d'"
      ]
     },
     "execution_count": 11,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "textzaanalizu_srb[:10]"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "У наставку ћемо истом серијом наредби преузети и исти текст на енглеском са истог сајта:"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 12,
   "metadata": {},
   "outputs": [],
   "source": [
    "url = 'https://petlja.org/petlja/foundation/'\n",
    "page = requests.get(url)\n",
    "soup = bs.BeautifulSoup(page.text,\"html.parser\")"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Добра пракса је проверити тагове (у претраживачу или овде), иако је за претпоставити да су аутори сајта решили текстове на конзистентан начин, неретко се дешава да то није тако. У овом случају, текст је поново оивичен истим таговима тако да ћемо брзо преузети све информације и на српском језику:"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 13,
   "metadata": {},
   "outputs": [],
   "source": [
    "potencijalnitekst = soup.find_all('p',attrs={'class':'mb-3'})\n",
    "#potencijalnitekst"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 14,
   "metadata": {
    "scrolled": true
   },
   "outputs": [],
   "source": [
    "tekst=[]\n",
    "for segment in potencijalnitekst:\n",
    "    tekst.append(segment.text.strip())\n",
    "#tekst"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 15,
   "metadata": {
    "scrolled": true
   },
   "outputs": [
    {
     "data": {
      "text/plain": [
       "'We believe'"
      ]
     },
     "execution_count": 15,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "textzaanalizu_eng=' '.join(tekst)\n",
    "textzaanalizu_eng[:10]"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Како нам је циљ да дођемо до листе речи за даљу анализу, елиминисаћео све знаке интерпункције. За то ћемо направити кратку функцију у наставку."
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "У оквиру библиотеке *string* знаци интерпункције су:"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 16,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "'!\"#$%&\\'()*+,-./:;<=>?@[\\\\]^_`{|}~'"
      ]
     },
     "execution_count": 16,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "string.punctuation"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Додаћемо још неке знаке навода који се често појављују у текстовима а нису у претходној листи карактера:"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 17,
   "metadata": {},
   "outputs": [],
   "source": [
    "znaci_interpunkcije = string.punctuation + '”“’‘—'"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "У оквиру функције у наставку, користићемо фунцкију **replace** да свако појављивање знака интерпункције заменимо размаком. Алтернативно, могуће је само уклонити знаке интерпункције без додавања нових размака, али због могућности да су знаци негде залепљени за речи (нпр. када није остављен размак након тачке), додаћемо размаке.\n",
    "\n",
    "*Вреди размислити о другачијем третирању карактера **'**, тренутно, додавањем размака уместо њега речи попут \"don't\" делимо на \"don\" и \"t\" - слободно поправљајте функцију.*"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 18,
   "metadata": {
    "scrolled": true
   },
   "outputs": [],
   "source": [
    "def ukloni_znake_interpunkcije(text):\n",
    "    for znak in znaci_interpunkcije:\n",
    "        text=text.replace(znak,' ')\n",
    "    return text"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Тестирајмо функцију на првих 150 карактера:"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 19,
   "metadata": {},
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "Smatramo da je razumevanje algoritama i umeće algoritamskog izražavanja potrebno svima, a takođe je važno da oni koji su talentovani za programiranje \n",
      "Smatramo da je razumevanje algoritama i umeće algoritamskog izražavanja potrebno svima  a takođe je važno da oni koji su talentovani za programiranje \n"
     ]
    }
   ],
   "source": [
    "print(textzaanalizu_srb[:150]+'\\n'+ukloni_znake_interpunkcije(textzaanalizu_srb[:150]))"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Сачуваћемо верзије текста без знака интерпункције:"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 20,
   "metadata": {},
   "outputs": [],
   "source": [
    "textzaanalizu_eng = ukloni_znake_interpunkcije(textzaanalizu_eng)\n",
    "textzaanalizu_srb = ukloni_znake_interpunkcije(textzaanalizu_srb)"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Коначно, можемо поделити текст на речи (групе карактера између два размака) користећи функцију **split**:"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 21,
   "metadata": {
    "scrolled": true
   },
   "outputs": [],
   "source": [
    "listareci_eng = textzaanalizu_eng.split()\n",
    "listareci_srb = textzaanalizu_srb.split()"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Првих пет речи у оба текста су у наставку:"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 22,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "['Smatramo', 'da', 'je', 'razumevanje', 'algoritama']"
      ]
     },
     "execution_count": 22,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "listareci_srb[:5]"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 23,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "['We', 'believe', 'that', 'understanding', 'algorithms']"
      ]
     },
     "execution_count": 23,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "listareci_eng[:5]"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Можемо проверити и да ли се дужине ових листа разликују:"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 24,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "(578, 433)"
      ]
     },
     "execution_count": 24,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "(len(listareci_eng),len(listareci_srb))"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Коначно, направићемо једноставне табеле (колони реч доделићемо садржај листе речи):"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 25,
   "metadata": {},
   "outputs": [],
   "source": [
    "df_eng = pd.DataFrame(listareci_eng,columns={'Rec'})\n",
    "df_srb = pd.DataFrame(listareci_srb,columns={'Rec'})"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 26,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>Rec</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>0</th>\n",
       "      <td>Smatramo</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1</th>\n",
       "      <td>da</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div>"
      ],
      "text/plain": [
       "        Rec\n",
       "0  Smatramo\n",
       "1        da"
      ]
     },
     "execution_count": 26,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "df_srb.head(2)"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Можемо додати колону у којој је дужина речи примењујући типичну функцију за дужину **len**. Да бисмо је применили на садржај сваке од ћелија у колони, користимо **apply**:"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 27,
   "metadata": {},
   "outputs": [],
   "source": [
    "df_eng['Duzina_reci'] = df_eng['Rec'].apply(len)\n",
    "df_srb['Duzina_reci'] = df_srb['Rec'].apply(len)"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Сачуваћемо ове табеле за даљу анализу:"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 28,
   "metadata": {},
   "outputs": [],
   "source": [
    "df_eng.to_csv('petlja_eng_reci.csv',index=False)\n",
    "df_srb.to_csv('petlja_srb_reci.csv',index=False)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": []
  }
 ],
 "metadata": {
  "kernelspec": {
   "display_name": "Python 3",
   "language": "python",
   "name": "python3"
  },
  "language_info": {
   "codemirror_mode": {
    "name": "ipython",
    "version": 3
   },
   "file_extension": ".py",
   "mimetype": "text/x-python",
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython3",
   "version": "3.9.1"
  }
 },
 "nbformat": 4,
 "nbformat_minor": 2
}