dr Mariusz Rafało
Hadoop & Spark
Zaliczenie i zasady
# | Tematyka | Slajdy | Kod |
---|---|---|---|
1 | Wprowadzenie do ekosystemu Apache Hadoop | cz.1 cz.2 | |
2 | Ekosystem Apache Spark | Kod | |
3 | Technologie przetwarzania danych | cz.1 cz.2 | |
4 | Technologie automatyzacji | ||
5 | Technologie składowania danych | ||
6 | Technologie administrowania | ||
7 | Formaty plików | cz.1cz.2cz.3 | |
8 | Big data a hurtownia danych | ||
9 | Analiza danych w czasie rzeczywistym | ||
10 | Technologie real-time | ||
11 | Bezpieczeństwo | ||
12 | Ćwiczenia: Formaty plików | ||
13 | Ćwiczenia: flight delays | ||
14 | Czyszczenie środowiska Databricks (QUOTA_EXCEEDED) | html |
Dane, z których korzystamy:
# | Zbiór danych | Plik | Źródło |
---|---|---|---|
1 | Zgłoszenia incydentów na policję | police-department-incidents.zip | kaggle.com |
2 | Airline On-Time Performance and Causes of Flight Delays | delays.zip | data.gov |