{"cells":[{"cell_type":"markdown","source":["#

_Tytuł projektu_

\n

_Informacje o składzie grupy, terminie_

"],"metadata":{}},{"cell_type":"markdown","source":["## Zbiór danych\n

\nInformacje o zbiorze danych:\n

\n

"],"metadata":{}},{"cell_type":"code","source":["# opcjonalny kod (importy itp)\n# ..."],"metadata":{},"outputs":[],"execution_count":3},{"cell_type":"markdown","source":["## Analiza danych\n

Analiza powinna prowadzona być z biznesowego punktu widzenia (Apache Spark traktowany jest tylko jako narzędzie ułatwiające rozwiązanie problemu).

"],"metadata":{}},{"cell_type":"markdown","source":["### _Zadanie 1 (Import danych)_"],"metadata":{}},{"cell_type":"markdown","source":["#### Załadowanie danych do RDD\n

Należy załadować zbiór danych do formatu RDD.

"],"metadata":{}},{"cell_type":"code","source":["# kod tutaj\n# ..."],"metadata":{},"outputs":[],"execution_count":7},{"cell_type":"markdown","source":["#### Załadowanie danych do DataFrame (moduł Apache Spark SQL)\n

Należy załadować zbiór danych do obiektu typu DataFrame (dowolny sposób). Proszę zwrócić uwagę na typy kolumn (schema). Pomocny [materiał](https://www.datacamp.com/community/tutorials/apache-spark-tutorial-machine-learning).

"],"metadata":{}},{"cell_type":"code","source":["# kod tutaj\n# ..."],"metadata":{},"outputs":[],"execution_count":9},{"cell_type":"code","source":["# kod tutaj\n# ...."],"metadata":{},"outputs":[],"execution_count":10},{"cell_type":"markdown","source":["### _Zadanie 2 (Agregacja)_\n

Sekcja opisująca 2 hipotezy które chcemy zwalidować za pomocą danych.\n\nNa podstawie ramki RDD i DSL DataFrame należy wykonać funkcje agregującą dane (dwie różne, nie trywialne) i opisać uzyskane wyniki.

"],"metadata":{}},{"cell_type":"code","source":["# agregacja danych z wykorzystaniem RDD\n..."],"metadata":{},"outputs":[],"execution_count":12},{"cell_type":"code","source":["# agregacja danych z wykorzystaniem DSL Apache Spark SQL (DataFrame)\n..."],"metadata":{},"outputs":[],"execution_count":13},{"cell_type":"markdown","source":["_

Opis wyników uzyskanych w obu przypadkach

_"],"metadata":{}},{"cell_type":"markdown","source":["### _Zadanie 3 (SQL)_\n

Sekcja opisująca hipotezę którą chcemy zwalidować za pomocą danych (podobnie jak punkt wyżej). Obiekt DataFrame należy zapisać jako tabela w pamięci, wykonać zapytanie SQL w komórce i **zwizualizować wynik**.

"],"metadata":{}},{"cell_type":"code","source":["# kod tutaj\n# ..."],"metadata":{},"outputs":[],"execution_count":16},{"cell_type":"markdown","source":["_

Opis uzyskanych wyników

_"],"metadata":{}},{"cell_type":"markdown","source":["### _Zadanie 4 (UDF)_\n

Sekcja opisująca hipotezę którą chcemy zwalidować za pomocą danych. Należy utworzyć i wywołać własną funkcję UDF odpowiednio transformującą daną kolumnę, zaprezentować i opisać rezultat.

"],"metadata":{}},{"cell_type":"code","source":["# kod tutaj\n# ..."],"metadata":{},"outputs":[],"execution_count":19},{"cell_type":"markdown","source":["_

Opis uzyskanych wyników

_"],"metadata":{}},{"cell_type":"markdown","source":["### _Zadanie 5 (MLlib)_\n

Należy wywołać dowolny algorytm (klasyfikacja, regresja, rekomendacja) z pakietu MLlib w celu przeprowadzenia analizy predyktywnej na istniejących danych.

"],"metadata":{}},{"cell_type":"code","source":["# podział na zbiory testowe/treningowe\n# deklaracja alogrytmu\n# zadeklarowana siatka parametrów dla testowania krzyżowego\n# obliczenie metryk dla zbioru testowego\n\n# kod tutaj\n# ..."],"metadata":{},"outputs":[],"execution_count":22},{"cell_type":"markdown","source":["_

Opis uzyskanych wyników

_"],"metadata":{}},{"cell_type":"markdown","source":["## Podsumowanie\n_

Krótki wnioski z przeprowadzonej analizy.

_\n\n### Dystrybucja notatnika\n1. Wyeksportować notatnik do formatu `IPython Notebook`\n2. Utworzyć archiwum ZIP zawierająca ww. notatnik i plik z użytymi danymi\n3. Archiwum powinno być zawierać numery indeksów autorów projektu (np. `XXX_YYY.zip`)\n4. Archiwum należy wysłać pod adres `norbert.kozlowski@pwr.edu.pl`."],"metadata":{}}],"metadata":{"name":"project_template","notebookId":523591778076289},"nbformat":4,"nbformat_minor":0}