# CMS-datan jaottelu ja histogrammien vertailu 

Tässä harjoituksessa analysoidaan CERNin julkaisemaa avointa dataa Jupyter Notebook -sovelluksen avulla.

Valitse analysoitava datatiedosto osoitteesta [opendata.cern.ch](http://opendata.cern.ch/record/545). Tässä esimerkissä käytetään tiedostoa *Dimuon_DoubleMu.csv*, jossa on dataa sellaisista törmäystapahtumista, joissa on havaittu kaksi myonia. Myös muita tiedostoja voidaan käyttää, kunhan niiden tiedostotyyppi on *.csv*. Voit käyttää haluamaasi datatiedostoa tässä notebookissa esimerkiksi kopioimalla datatiedoston URL-osoitteen ja käyttämällä sitä dataa luettaessa.

![](../../Kuvat/data_url.png)

Osoitteen voit kopioida painamalla datasetin nimen vieressä olevaa "Download"-painiketta hiiren oikealla painikkeella ja valitsemalla "Copy link location".

Ruvetaas hommiin! Otetaan ensimmäiseksi käyttöön paketit pandas ja matplotlib.pyplot, jotta voimme lukea tiedostoja ja piirtää kuvaajia.

In [None]:
import pandas
import matplotlib.pyplot as plt

Koodisolu voidaan suorittaa *Run*-painikkeella yläpalkista tai näppäinyhdistelmällä *Ctrl+Enter*. Hakasulkujen `In[ ]` sisään ilmestyvä tähti on merkki siitä, että koodia suoritetaan. Etene vasta sitten, kun tähden tilalle on tullut numero eli kun koodi on suoritettu. Numero kertoo, kuinka monta kertaa koodisoluja on suoritettu.

Tallennetaan data muuttujaan *datasetti* ja tarkistetaan ensimmäisten viiden rivin sisältö.

In [None]:
datasetti = pandas.read_csv('http://opendata.cern.ch/record/545/files/Dimuon_DoubleMu.csv')

datasetti.head()

Tässä harjoituksessa olemme kiinnostuneita hiukkasten invariantista massasta. Tallennetaan datasetin invarianttia massaa vastaava sarake muuttujaan *invariantti_massa* viittaamalla sarakkeen otsakkeeseen siten, kuin se esiintyy taulukossa (esim. *M*). Jos datasetistäsi puuttuu invariantin massan sarake, sen voi myös laskea itse (ks. demo "Laske-invariantti-massa"). Piirretään histogrammi kertomalla ohjelmalle piirrettävä muuttuja, pylväiden (bins) lukumäärä sekä haluttu piirtoväli (range). Alla olevassa esimerkissä piirretään invariantin massan histogrammi välillä 0-200 GeV ja 50 pylväällä. 

In [None]:
invariantti_massa = datasetti['M']

plt.hist(invariantti_massa, bins=50, range=(0,200))
plt.show()

Piirtoväliä ja pylväiden lukumäärää voidaan muuttaa tarkemman analyysin tekemiseksi.
Yllä olevasta kuvaajasta voidaan erottaa piikki noin 90 GeV:n kohdalla.

Alla piirretään sama kuvaaja uudestaan siten, että akselit on nimetty ja kuvaajalla on otsikko ja piirtoväliksi valittu 80 GeV - 100 Gev, joka vastaa havaitsemamme piikin ympäristöä.

In [None]:
plt.xlabel('Invariantti massa [GeV]')
plt.ylabel('Tapahtumien lukumäärä')
plt.title('Kahden myonin invariantin massan histogrammi \n')

plt.hist(invariantti_massa, bins=50, range=(80,100))
plt.show()

Dataa voidaan käsitellä matemaattisilla operaattoreilla, kuten yhteen- ja vähennyslaskulla. Datan lajittelu onnistuu luomalla uusi muuttuja, johon talletetaan vain tietyn ehdon täyttävät arvot. Seuraavassa esimerkissä alkuperäisen datan tapahtumat jaetaan kahteen uuteen datasettiin hiukkasten energian perusteella. Datasetit nimetään ja lajitellaan korkeaan energiaan (> 150 GeV) ja matalaan energiaan (< 150 GeV). Jaottelu tehdään siten, että lasketaan kussakin tapahtumassa olevien myonien energiat yhteen ja katsotaan onko se suurempi vai pienempi kuin 150 GeV.

In [None]:
uusiSettiKorkeaE = datasetti[ datasetti.E1 + datasetti.E2 > 150 ]
uusiSettiMatalaE = datasetti[ datasetti.E1 + datasetti.E2 < 150 ]

Uudet datasetit voidaan piirtää erikseen, kuten tehtiin aiemmin, tai sovittaa yhteen kuvaajaan. Kaksi histogrammia voidaan piirtää päällekkäin säätämällä niiden läpinäkyvyyttä komennolla *alpha*. Histogrammien selitteet tulostetaan kuvaajan oikeaan yläkulmaan selvyyden vuoksi. Lisäksi kuvaajan piirtoväli (range) voidaan rajata analyysin kannalta kiinnostavalle alueelle (piikki 90 GeV:n tuntumassa). 

In [None]:
plt.xlabel('Invariantti massa [GeV]')
plt.ylabel('Tapahtumien lukumäärä')
plt.title('Kahden myonin invariantti massa, vertailu energian perusteella \n')
plt.hist(uusiSettiMatalaE ['M'], bins=50, range=(80,100), alpha=0.5, label='Matala E')
plt.hist(uusiSettiKorkeaE ['M'], bins=50, range=(80,100), alpha=0.5, label='Korkea E')
plt.legend (loc='upper right')
plt.show()

Mitä tapahtuu, jos muutat energiarajan arvoa? Kokeile energiarajan muuttamista luodessasi muuttujat *uusiSettiKorkeaE* ja *uusiSettiMatalaE*. Millä muulla ehdolla voisit lajitella datan?