Popis předmětu - BIK-BIG.21

Hlavní stránka | Seznam oborů/specializací | Seznam všech skupin předmětů | Seznam všech předmětů | Seznam rolí Návod

Předmět je základní jednotka výuky, jejímž prostřednictvím si student osvojí ucelenou část souboru znalostí a dovedností, potřebnou pro zvládnutí studijního oboru/specializace. Za věcný obsah předmětu zodpovídá garant předmětu. Časovou náročnost předmětu zhruba vyjadřuje atribut předmětu rozsah kontaktní výuky. Například rozsah = 2+2 značí, že předmět bude mít týdně dvě hodiny přednášek a dvě hodiny cvičení týdně. Na závěr semestru musí vyučující provést vyhodnocení, nakolik si ten který student osvojil poznatky a dovednosti, kterých měl během výuky nabýt. Jakým způsobem toto hodnocení vyučující provedou určuje atribut způsob zakončení. U předmětu lze definovat, že předmět je zakončen pouze zápočtem(Z), klasifikovaným zápočtem(KZ), pouze zkouškou(ZK), nebo zápočtem a zkouškou(Z,ZK). Náročnost úspěšného absolvování předmětu je vyjádřena ECTS kreditními body. Výuka předmětu probíhá během semestru. Opakovaně se předmět vyučuje vždy v zimním(Z), nebo v letním(L) semestru každého akademického roku. Výjimečně může předmět být nabízen studentům v obou semestrech(Z,L). Za organizační zajištění výuky zodpovídá přiřazená katedra, která zejména vytvoří časový rozvrh předmětu a zajistí pro předmět vyučující. Někteří přednáší a zkouší, jiní vedou cvičení a udělují zápočty.
Obsahová náplň a další organizační informace, týkající se předmětu je popsána pomocí různých popisných textů(anotace, týdenní osnova, literatura, apod.)
$DODATEK_POPIS

BIK-BIG.21	DB technologie pro Big Data			Rozsah kontaktní výuky:	14KP+4KC
Vyučující:	Gattermayer J.			Způsob zakončení:	KZ
Zodpovědná katedra:	18102	ECTS Kredity:	5	Semestr:	L

Anotace:
Studenti budou uvedeni do oboru zpracování velkých dat (Big Data), kde se dnes typicky používají nerelační (NoSQL) databázové stroje. Předmět je zaměřen prakticky, aby studenti po jeho absolvování byli schopni vybrat vhodné nástroje (většinou open source) a postupy, navrhnout a implementovat jednodušší opakovatelný proces zpracování dat (sběr dat, transformace/agregace, prezentace). Studenti budou seznámeni s různými architekturami pro zpracování a uložení velkých dat. Teoretický výklad a prezentace konkrétních technologií budou doplněny případovými studiemi.

Osnovy přednášek:

1. Úvod do zpracování velkých dat, pojem Big Data a jeho vymezení, CAP teorém.

2. Případová studie.

3. [2] Sloupcové (column-oriented) databázové stroje (Cassandra).

5. Dokumentově orientované databáze (MongoDB).

6. [2] Platformy pro zpracování velkých dat založené na předávání dat přes souborový systém (Hadoop).

8. [2] Platformy pro zpracování velkých dat založené na předávání dat přes operační paměť (Spark).

10. Indexování nestrukturovaných a semistrukturovaných dat (ElasticSearch, Solr).

11. Nástroje pro vizualizaci a prezentaci dat (Kibana).

12. [2] Případové studie.

Osnovy cvičení:

1. Seznámení s prostředím laboratoře

2. Úvod do práce s Cassandra Clusterem

3. Hadoop MapReduce

4. Cassandra UseCase 1 - 1. část

5. Cassandra UseCase 1 - 2. část

6. Cassandra UseCase 2 - 1. část (Využití Hive / Pig)

7. Cassandra UseCase 2 - 1. část

8. Cassandra UseCase 3 - 1. část (Využíti Solr)

9. Cassandra UseCase 3 - 2. část

10. Cassandra UseCase 4 - 1. část (Komplexní řešení)

11. Cassandra UseCase 4 - 2. část

12. Odevzdání semestrální práce, zápočet

13. Rezerva

Literatura:
Zikopoulos, Paul, and Chris Eaton. Understanding big data: Analytics for enterprise class hadoop and streaming data. McGraw-Hill Osborne Media, 2011.

Požadavky:
Vstupní znalosti: Základní znalost relačních databází, práce s příkazovou řádkou.

Informace o předmětu a výukové materiály naleznete na https://courses.fit.cvut.cz/BI-BIG/

Předmět je zahrnut do těchto studijních plánů:

Plán Obor Role Dop. semestr

BIK-PV.21 Počítačové systémy a virtualizace 2021 PV 6

Stránka vytvořena 29. 4. 2024, semestry: Z/2023-4, Z/2019-20, L/2021-2, L/2020-1, L/2022-3, Z/2021-2, L/2019-20, Z/2022-3, Z/2020-1, L/2023-4, Z/2024-5, připomínky k informační náplni zasílejte správci studijních plánů

Návrh a realizace: J. Novák, I. Halaška

1.		Úvod do zpracování velkých dat, pojem Big Data a jeho vymezení, CAP teorém.
2.		Případová studie.
3.		[2] Sloupcové (column-oriented) databázové stroje (Cassandra).
5.		Dokumentově orientované databáze (MongoDB).
6.		[2] Platformy pro zpracování velkých dat založené na předávání dat přes souborový systém (Hadoop).
8.		[2] Platformy pro zpracování velkých dat založené na předávání dat přes operační paměť (Spark).
10.		Indexování nestrukturovaných a semistrukturovaných dat (ElasticSearch, Solr).
11.		Nástroje pro vizualizaci a prezentaci dat (Kibana).
12.		[2] Případové studie.

1.		Seznámení s prostředím laboratoře
2.		Úvod do práce s Cassandra Clusterem
3.		Hadoop MapReduce
4.		Cassandra UseCase 1 - 1. část
5.		Cassandra UseCase 1 - 2. část
6.		Cassandra UseCase 2 - 1. část (Využití Hive / Pig)
7.		Cassandra UseCase 2 - 1. část
8.		Cassandra UseCase 3 - 1. část (Využíti Solr)
9.		Cassandra UseCase 3 - 2. část
10.		Cassandra UseCase 4 - 1. část (Komplexní řešení)
11.		Cassandra UseCase 4 - 2. část
12.		Odevzdání semestrální práce, zápočet
13.		Rezerva