Opis
Moduł „Big Data” zajmuje się badaniem przetwarzania i analizy dużych ilości danych w kontekście Data Science.
Big Data różni się od tradycyjnych zbiorów danych kilkoma cechami: ilością danych, faktem, że dane są generalnie nieustrukturyzowane, ponieważ pochodzą z różnych źródeł i form oraz, w przypadku przesyłania strumieniowego w czasie rzeczywistym, szybkością, z jaką dane docierają.
W nauce o danych wprowadzono nowe technologie, które zajmują się zarządzaniem i analizą dużych danych, przezwyciężając ograniczenia tradycyjnych systemów zarządzania danymi, takich jak relacyjne DBMS (system zarządzania bazami danych).
Moduł „Big Data” wykorzystuje Apache Spark, framework typu open source, który obsługuje obliczenia równoległe w pamięci w celu optymalizacji wydajności aplikacji analizujących duże zbiory danych.
Jest on używany przez wiele organizacji na całym świecie, w tym IBM, NASA, Samsung i Yahoo!, a jego zastosowanie stale rośnie.