Předmět je základní jednotka výuky, jejímž prostřednictvím si student osvojí ucelenou část souboru znalostí a dovedností, potřebnou pro zvládnutí studijního oboru/specializace. Za věcný obsah předmětu zodpovídá garant předmětu. Časovou náročnost předmětu zhruba vyjadřuje atribut předmětu rozsah kontaktní výuky. Například rozsah = 2+2 značí, že předmět bude mít týdně dvě hodiny přednášek a dvě hodiny cvičení týdně. Na závěr semestru musí vyučující provést vyhodnocení, nakolik si ten který student osvojil poznatky a dovednosti, kterých měl během výuky nabýt. Jakým způsobem toto hodnocení vyučující provedou určuje atribut způsob zakončení. U předmětu lze definovat, že předmět je zakončen pouze zápočtem(Z), klasifikovaným zápočtem(KZ), pouze zkouškou(ZK), nebo zápočtem a zkouškou(Z,ZK). Náročnost úspěšného absolvování předmětu je vyjádřena ECTS kreditními body. Výuka předmětu probíhá během semestru. Opakovaně se předmět vyučuje vždy v zimním(Z), nebo v letním(L) semestru každého akademického roku. Výjimečně může předmět být nabízen studentům v obou semestrech(Z,L). Za organizační zajištění výuky zodpovídá přiřazená katedra, která zejména vytvoří časový rozvrh předmětu a zajistí pro předmět vyučující. Někteří přednáší a zkouší, jiní vedou cvičení a udělují zápočty.
Obsahová náplň a další organizační informace, týkající se předmětu je popsána pomocí různých popisných textů(anotace, týdenní osnova, literatura, apod.)
$DODATEK_POPIS
NI-DDM | Distribuovaný data mining | Rozsah kontaktní výuky: | 3C | ||
---|---|---|---|---|---|
Vyučující: | Způsob zakončení: | KZ | |||
Zodpovědná katedra: | 18105 | ECTS Kredity: | 4 | Semestr: | L |
Anotace:
Kurz se zaměřuje na state-of-the-art přístupy k distribuovanému data miningu a k paralelizaci algoritmů strojového učení. Studenti získají praktickou zkušenost s frameworkem pro škálovatelné zpracování velkých data Apache Spark a s existujícími distribuovanými algoritmy strojového učení a data miningu. Seznámí se s principy jejich paralelní implementace a budou schopni navrhovat paralelizaci dalších algoritmů.
Osnovy přednášek:
Předmět nemá přednášky.
Osnovy cvičení:
1) | Úvod do Map Reduce, frameworku Apache Spark a infrastruktury výpočetního clusteru | |
2) | Datové struktury frameworku Apache Spark: RDDs, Dataframes, Datasets | |
3) | Apache Spark ML pipelines, ML Lib | |
4) | Distribuovaná data, datová explorace, základní statistiky | |
5) | Distribuované předzpracování dat (extrakce, transformace a selekce příznaků, redukce dimenzionality) | |
6) | Asociační pravidla, kolaborativní filtrování, alternating least squares | |
7) | Distribuované algoritmy pro klasifikaci a regresi | |
8) | Distribuované algoritmy pro shlukování | |
9) | Distribuované ensembly | |
10) | Algoritmy pro information retrieval a text mining | |
11) | Hluboké učení a umělé neuronové sítě | |
12) | Stream processing a online algoritmy |
Literatura:
Pentreath, Nick. Machine Learning with Spark. Packt Publishing Ltd, 2015.
Požadavky:
Znalost programování v alespoň jednom z jazyků Python, Java nebo Scala. Znalost principů základních algoritmů strojového učení.
|
Předmět je zahrnut do těchto studijních plánů:
Stránka vytvořena 20. 4. 2024, semestry: L/2022-3, L/2023-4, L/2021-2, Z/2023-4, Z/2022-3, L/2020-1, Z/2021-2, Z/2019-20, Z/2020-1, Z/2024-5, L/2019-20, připomínky k informační náplni zasílejte správci studijních plánů | Návrh a realizace: J. Novák, I. Halaška |