Popis předmětu

Hlavní stránka | Seznam oborů/specializací | Seznam všech skupin předmětů | Seznam všech předmětů | Seznam rolí Návod

Předmět je základní jednotka výuky, jejímž prostřednictvím si student osvojí ucelenou část souboru znalostí a dovedností, potřebnou pro zvládnutí studijního oboru/specializace. Za věcný obsah předmětu zodpovídá garant předmětu. Časovou náročnost předmětu zhruba vyjadřuje atribut předmětu rozsah kontaktní výuky. Například rozsah = 2+2 značí, že předmět bude mít týdně dvě hodiny přednášek a dvě hodiny cvičení týdně. Na závěr semestru musí vyučující provést vyhodnocení, nakolik si ten který student osvojil poznatky a dovednosti, kterých měl během výuky nabýt. Jakým způsobem toto hodnocení vyučující provedou určuje atribut způsob zakončení. U předmětu lze definovat, že předmět je zakončen pouze zápočtem(Z), klasifikovaným zápočtem(KZ), pouze zkouškou(ZK), nebo zápočtem a zkouškou(Z,ZK). Náročnost úspěšného absolvování předmětu je vyjádřena ECTS kreditními body. Výuka předmětu probíhá během semestru. Opakovaně se předmět vyučuje vždy v zimním(Z), nebo v letním(L) semestru každého akademického roku. Výjimečně může předmět být nabízen studentům v obou semestrech(Z,L). Za organizační zajištění výuky zodpovídá přiřazená katedra, která zejména vytvoří časový rozvrh předmětu a zajistí pro předmět vyučující. Někteří přednáší a zkouší, jiní vedou cvičení a udělují zápočty.
Obsahová náplň a další organizační informace, týkající se předmětu je popsána pomocí různých popisných textů(anotace, týdenní osnova, literatura, apod.)
$DODATEK_POPIS

NI-DDM	Distribuovaný data mining			Rozsah kontaktní výuky:	3C
Vyučující:				Způsob zakončení:	KZ
Zodpovědná katedra:	18105	ECTS Kredity:	4	Semestr:	L

Anotace:
Kurz se zaměřuje na state-of-the-art přístupy k distribuovanému data miningu a k paralelizaci algoritmů strojového učení. Studenti získají praktickou zkušenost s frameworkem pro škálovatelné zpracování velkých data Apache Spark a s existujícími distribuovanými algoritmy strojového učení a data miningu. Seznámí se s principy jejich paralelní implementace a budou schopni navrhovat paralelizaci dalších algoritmů.

Osnovy přednášek:
Předmět nemá přednášky.

Osnovy cvičení:

1) Úvod do Map Reduce, frameworku Apache Spark a infrastruktury výpočetního clusteru

2) Datové struktury frameworku Apache Spark: RDDs, Dataframes, Datasets

3) Apache Spark ML pipelines, ML Lib

4) Distribuovaná data, datová explorace, základní statistiky

5) Distribuované předzpracování dat (extrakce, transformace a selekce příznaků, redukce dimenzionality)

6) Asociační pravidla, kolaborativní filtrování, alternating least squares

7) Distribuované algoritmy pro klasifikaci a regresi

8) Distribuované algoritmy pro shlukování

9) Distribuované ensembly

10) Algoritmy pro information retrieval a text mining

11) Hluboké učení a umělé neuronové sítě

12) Stream processing a online algoritmy

Literatura:
Pentreath, Nick. Machine Learning with Spark. Packt Publishing Ltd, 2015.

Požadavky:
Znalost programování v alespoň jednom z jazyků Python, Java nebo Scala. Znalost principů základních algoritmů strojového učení.

Informace o předmětu a výukové materiály naleznete na https://courses.fit.cvut.cz/MI-DDM/

Předmět je zahrnut do těchto studijních plánů:

Plán Obor Role Dop. semestr

BI-SPOL.21 Nespecifikovaný/á obor/specializace studia - Unspecified Branch/Specialisation of Study V Není

BI-PI.21 Počítačové inženýrství 2021 V Není

BI-PG.21 Počítačová grafika 2021 V Není

BI-MI.21 Manažerská informatika 2021 V Není

BI-IB.21 Informační bezpečnost 2021 V Není

BI-PS.21 Počítačové sítě a Internet 2021 V Není

BI-PV.21 Počítačové systémy a virtualizace 2021 V Není

BI-SI.21 Softwarové inženýrství 2021 V Není

BI-TI.21 Teoretická informatika 2021 V Není

BI-UI.21 Umělá inteligence 2021 V Není

BI-WI.21 Webové inženýrství 2021 V Není

BI-SPOL.2015 Nespecifikovaný/á obor/specializace studia - Unspecified Branch/Specialisation of Study V Není

BI-WSI-PG.2015 Webové a softwarové inženýrství V Není

BI-WSI-WI.2015 Webové a softwarové inženýrství V Není

BI-WSI-SI.2015 Webové a softwarové inženýrství V Není

BI-ISM.2015 Informační systémy a management V Není

BI-ZI.2018 Znalostní inženýrství V Není

BI-PI.2015 Počítačové inženýrství V Není

BI-TI.2015 Teoretická informatika V Není

BI-BIT.2015 Bezpečnost a informační technologie V Není

NI-PB.2020 Počítačová bezpečnost V 1

NI-ZI.2020 Znalostní inženýrství V 1

NI-SPOL.2020 Nespecifikovaný/á obor/specializace studia - Unspecified Branch/Specialisation of Study V 1

NI-TI.2020 Teoretická informatika V 1

NI-TI.2023 Teoretická informatika V 1

NI-NPVS.2020 Návrh a programování vestavných systémů V 1

NI-PSS.2020 Počítačové systémy a sítě V 1

NI-MI.2020 Manažerská informatika V 1

NI-SI.2020 Softwarové inženýrství V 1

NI-SP.2020 Systémové programování V 1

NI-WI.2020 Webové inženýrství V 1

NI-SP.2023 Systémové programování V 1

Stránka vytvořena 20. 4. 2024, semestry: L/2022-3, L/2023-4, L/2021-2, Z/2023-4, Z/2022-3, L/2020-1, Z/2021-2, Z/2019-20, Z/2020-1, Z/2024-5, L/2019-20, připomínky k informační náplni zasílejte správci studijních plánů

Návrh a realizace: J. Novák, I. Halaška

1)		Úvod do Map Reduce, frameworku Apache Spark a infrastruktury výpočetního clusteru
2)		Datové struktury frameworku Apache Spark: RDDs, Dataframes, Datasets
3)		Apache Spark ML pipelines, ML Lib
4)		Distribuovaná data, datová explorace, základní statistiky
5)		Distribuované předzpracování dat (extrakce, transformace a selekce příznaků, redukce dimenzionality)
6)		Asociační pravidla, kolaborativní filtrování, alternating least squares
7)		Distribuované algoritmy pro klasifikaci a regresi
8)		Distribuované algoritmy pro shlukování
9)		Distribuované ensembly
10)		Algoritmy pro information retrieval a text mining
11)		Hluboké učení a umělé neuronové sítě
12)		Stream processing a online algoritmy