{"cells":[{"cell_type":"markdown","source":["#<p style=\"color: red\">_Tytuł projektu_</p>\n<p style=\"color: red\">_Informacje o składzie grupy, terminie_</p>"],"metadata":{}},{"cell_type":"markdown","source":["## Zbiór danych\n<p style=\"color: red\">\nInformacje o zbiorze danych:\n<ul style=\"color: red\">\n<li>opis (cel analizy),</li>\n  <li>skąd pochodzi (link), w jaki sposób załadowany</li>\n  <li>ilość danych (powinno być ok 50 000),</li>\n  <li>co oznaczają poszczególne kolumny i jakiego są typu</li>\n</ul>\n</p>"],"metadata":{}},{"cell_type":"code","source":["# opcjonalny kod (importy itp)\n# ..."],"metadata":{},"outputs":[],"execution_count":3},{"cell_type":"markdown","source":["## Analiza danych\n<p style=\"color: red\">Analiza powinna prowadzona być z biznesowego punktu widzenia (Apache Spark traktowany jest tylko jako narzędzie ułatwiające rozwiązanie problemu).</p>"],"metadata":{}},{"cell_type":"markdown","source":["### _Zadanie 1 (Import danych)_"],"metadata":{}},{"cell_type":"markdown","source":["#### Załadowanie danych do RDD\n<p style=\"color: red\">Należy załadować zbiór danych do formatu RDD.</p>"],"metadata":{}},{"cell_type":"code","source":["# kod tutaj\n# ..."],"metadata":{},"outputs":[],"execution_count":7},{"cell_type":"markdown","source":["#### Załadowanie danych do DataFrame (moduł Apache Spark SQL)\n<p style=\"color: red\">Należy załadować zbiór danych do obiektu typu DataFrame (dowolny sposób). Proszę zwrócić uwagę na typy kolumn (schema). Pomocny [materiał](https://www.datacamp.com/community/tutorials/apache-spark-tutorial-machine-learning).</p>"],"metadata":{}},{"cell_type":"code","source":["# kod tutaj\n# ..."],"metadata":{},"outputs":[],"execution_count":9},{"cell_type":"code","source":["# kod tutaj\n# ...."],"metadata":{},"outputs":[],"execution_count":10},{"cell_type":"markdown","source":["### _Zadanie 2 (Agregacja)_\n<p style=\"color: red\">Sekcja opisująca 2 hipotezy które chcemy zwalidować za pomocą danych.\n\nNa podstawie ramki RDD i DSL DataFrame należy wykonać funkcje agregującą dane (dwie różne, nie trywialne) i opisać uzyskane wyniki.</p>"],"metadata":{}},{"cell_type":"code","source":["# agregacja danych z wykorzystaniem RDD\n..."],"metadata":{},"outputs":[],"execution_count":12},{"cell_type":"code","source":["# agregacja danych z wykorzystaniem DSL Apache Spark SQL (DataFrame)\n..."],"metadata":{},"outputs":[],"execution_count":13},{"cell_type":"markdown","source":["_<p style=\"color: red\">Opis wyników uzyskanych w obu przypadkach</p>_"],"metadata":{}},{"cell_type":"markdown","source":["### _Zadanie 3 (SQL)_\n<p style=\"color: red\">Sekcja opisująca hipotezę którą chcemy zwalidować za pomocą danych (podobnie jak punkt wyżej). Obiekt DataFrame należy zapisać jako tabela w pamięci, wykonać zapytanie SQL w komórce i **zwizualizować wynik**.</p>"],"metadata":{}},{"cell_type":"code","source":["# kod tutaj\n# ..."],"metadata":{},"outputs":[],"execution_count":16},{"cell_type":"markdown","source":["_<p style=\"color: red\">Opis uzyskanych wyników</p>_"],"metadata":{}},{"cell_type":"markdown","source":["### _Zadanie 4 (UDF)_\n<p style=\"color: red\">Sekcja opisująca hipotezę którą chcemy zwalidować za pomocą danych. Należy utworzyć i wywołać własną funkcję UDF odpowiednio transformującą daną kolumnę, zaprezentować i opisać rezultat.</p>"],"metadata":{}},{"cell_type":"code","source":["# kod tutaj\n# ..."],"metadata":{},"outputs":[],"execution_count":19},{"cell_type":"markdown","source":["_<p style=\"color: red\">Opis uzyskanych wyników</p>_"],"metadata":{}},{"cell_type":"markdown","source":["### _Zadanie 5 (MLlib)_\n<p style=\"color: red\">Należy wywołać dowolny algorytm (klasyfikacja, regresja, rekomendacja) z pakietu MLlib w celu przeprowadzenia analizy predyktywnej na istniejących danych.</p>"],"metadata":{}},{"cell_type":"code","source":["# podział na zbiory testowe/treningowe\n# deklaracja alogrytmu\n# zadeklarowana siatka parametrów dla testowania krzyżowego\n# obliczenie metryk dla zbioru testowego\n\n# kod tutaj\n# ..."],"metadata":{},"outputs":[],"execution_count":22},{"cell_type":"markdown","source":["_<p style=\"color: red\">Opis uzyskanych wyników</p>_"],"metadata":{}},{"cell_type":"markdown","source":["## Podsumowanie\n_<p style=\"color: red\">Krótki wnioski z przeprowadzonej analizy.</p>_\n\n### Dystrybucja notatnika\n1. Wyeksportować notatnik do formatu `IPython Notebook`\n2. Utworzyć archiwum ZIP zawierająca ww. notatnik i plik z użytymi danymi\n3. Archiwum powinno być zawierać numery indeksów autorów projektu (np. `XXX_YYY.zip`)\n4. Archiwum należy wysłać pod adres `norbert.kozlowski@pwr.edu.pl`."],"metadata":{}}],"metadata":{"name":"project_template","notebookId":523591778076289},"nbformat":4,"nbformat_minor":0}