Popis předmětu

Hlavní stránka | Seznam oborů/specializací | Seznam všech skupin předmětů | Seznam všech předmětů | Seznam rolí Návod

Předmět je základní jednotka výuky, jejímž prostřednictvím si student osvojí ucelenou část souboru znalostí a dovedností, potřebnou pro zvládnutí studijního oboru/specializace. Za věcný obsah předmětu zodpovídá garant předmětu. Časovou náročnost předmětu zhruba vyjadřuje atribut předmětu rozsah kontaktní výuky. Například rozsah = 2+2 značí, že předmět bude mít týdně dvě hodiny přednášek a dvě hodiny cvičení týdně. Na závěr semestru musí vyučující provést vyhodnocení, nakolik si ten který student osvojil poznatky a dovednosti, kterých měl během výuky nabýt. Jakým způsobem toto hodnocení vyučující provedou určuje atribut způsob zakončení. U předmětu lze definovat, že předmět je zakončen pouze zápočtem(Z), klasifikovaným zápočtem(KZ), pouze zkouškou(ZK), nebo zápočtem a zkouškou(Z,ZK). Náročnost úspěšného absolvování předmětu je vyjádřena ECTS kreditními body. Výuka předmětu probíhá během semestru. Opakovaně se předmět vyučuje vždy v zimním(Z), nebo v letním(L) semestru každého akademického roku. Výjimečně může předmět být nabízen studentům v obou semestrech(Z,L). Za organizační zajištění výuky zodpovídá přiřazená katedra, která zejména vytvoří časový rozvrh předmětu a zajistí pro předmět vyučující. Někteří přednáší a zkouší, jiní vedou cvičení a udělují zápočty.
Obsahová náplň a další organizační informace, týkající se předmětu je popsána pomocí různých popisných textů(anotace, týdenní osnova, literatura, apod.)
$DODATEK_POPIS

MI-PDM	Praktický data mining			Rozsah kontaktní výuky:	2P+1C
Vyučující:				Způsob zakončení:	Z,ZK
Zodpovědná katedra:	18105	ECTS Kredity:	5	Semestr:	L

Anotace:
Studenti se seznámí se základními postupy při vytěžování znalostí z dat. Konkrétně se naučí základní techniky předzpracování dat, vizualizace dat, statistické techniky transformace dat, základní principy metod pro vytěžování znalostí. V předmětu se extenzivně využívá vytěžovací software. Studenti budou schopni kvalifikovaně použít základní nástroje data miningu na nejčastěji se vyskytujících problémech (klasifikace, regrese, shlukování).

Osnovy přednášek:

1) Úvodní a přehledová přednáška

2) Rozhodovací stromy

3) Clustering (K-means, hierarchical clustering)

4) K-NN

5) Naivní Bayes

6) Lineární regrese

7) Logistická regrese

8) Redukce dimenzionality (SVD, PCA)

9) strojové zpracování přirozeného jazyka NLP

Až 4 přednášky mohou být vyplněny přednáškami lidí z praxe.

Osnovy cvičení:

1) Jupyter Notebook a knihovny panda, numpy a scikit-learn

2) Vizualizace dat

3) Rozhodovací stromy v scikit-learn

4) Clusterování

5) Lineární regrese

6) PCA

Literatura:

1. Larose, D. T. Discovering Knowledge in Data: An Introduction to Data Mining. Wiley-Interscience, 2004.

2. Hastie T.,Tibshirani R.,Friedman J., The Elements of Statistical Learning, Data Mining, Inference and Prediction, Springer, 2011

Požadavky:
Fundamentals of algebra, statistics, programming

Informace o předmětu a výukové materiály naleznete na https://courses.fit.cvut.cz/MI-PDM/

Předmět je zahrnut do těchto studijních plánů:

Plán Obor Role Dop. semestr

MI-WSI-ISM.2016 Webové a softwarové inženýrství PZ 2

Stránka vytvořena 2. 5. 2024, semestry: Z/2020-1, L/2023-4, L/2021-2, L/2019-20, Z/2021-2, Z/2023-4, L/2020-1, Z/2019-20, L/2022-3, Z/2024-5, Z/2022-3, připomínky k informační náplni zasílejte správci studijních plánů

Návrh a realizace: J. Novák, I. Halaška

1)		Úvodní a přehledová přednáška
2)		Rozhodovací stromy
3)		Clustering (K-means, hierarchical clustering)
4)		K-NN
5)		Naivní Bayes
6)		Lineární regrese
7)		Logistická regrese
8)		Redukce dimenzionality (SVD, PCA)
9)		strojové zpracování přirozeného jazyka NLP

1)		Jupyter Notebook a knihovny panda, numpy a scikit-learn
2)		Vizualizace dat
3)		Rozhodovací stromy v scikit-learn
4)		Clusterování
5)		Lineární regrese
6)		PCA

1.		Larose, D. T. Discovering Knowledge in Data: An Introduction to Data Mining. Wiley-Interscience, 2004.
2.		Hastie T.,Tibshirani R.,Friedman J., The Elements of Statistical Learning, Data Mining, Inference and Prediction, Springer, 2011