Lehr- und Forschungseinheit für Datenbanksysteme
print


Breadcrumb Navigation


Content

Knowledge Discovery and Data Mining I (WS 2018/19)

Aktuelles

  • [07.11.18] Please note: The lecture is being recorded. You can find the videos here.
  • [02.11.18] We have edited the slide template, such that the slide numbers are slightly shifted. References to slide numbers have been updated accordingly.
  • [25.10.18] We have uploaded an additional programming exercise on data exploration. Please note: The programming exercises will not be presented in live coding sessions, but there will be time in the tutorials for you to ask and discuss questions.
  • [24.10.18] There are no tutorials on 01/02. November due to All saints' Day.
  • [15.10.18] The registration for tutorials is open. Please register for a tutorial you are likely to attend, so we get an overview of the number of participants.
  • [15.10.18] The registration for the exam is open. Please register in UniWorX.
  • [12.10.18] We have uploaded a Python introduction including solutions for it. There will be no live-coding session, but you can ask and discuss questions in the tutorials.
  • [08.10.18] The date for the first exam has been fixed. 
  • [08.10.18] Please register in UniWorX for this course.

Organisation

Umfang: 3+2 Semesterwochenstunden
Dozent: Prof. Dr. Thomas Seidl
Vorkenntnisse: Algorithmen und Datenstrukturen empfohlen, Datenbanksysteme I vorteilhaft.

Anmeldung: über UniWorX
Übungsleitung: Julian Busch, Max Berrendorf

Klausur:

VeranstaltungZeitOrt
Hauptklausur Mo, 25.02.19, 14:00 - 16:00 B 101 B 201 (HGB, Geschw.-Scholl-Pl. 1)
Nachholklausur t.b.a. t.b.a.

Termine und Ort

VeranstaltungZeitOrtBeginn
Vorlesung Di, 9:15 - 11:45 Uhr Raum B U101 (Oettingenstr. 67) 16.10.2018
Übung 1 Do, 12:15 - 13:45 Uhr Lehrturm-VU107 (Prof.-Huber-Pl. 2) 25.10.2018
Übung 2 Do, 14:15 - 15:45 Uhr Lehrturm-VU107 (Prof.-Huber-Pl. 2) 25.10.2018
Übung 3 Fr, 12:15 - 13:45 Uhr Lehrturm-V005 (Prof.-Huber-Pl. 2) 26.10.2018
Übung 4 Fr, 14:15 - 15:45 Uhr Raum C 111 (Theresienstr. 41) 26.10.2018

Zeitplan und Material

VorlesungÜbung
DatumInhaltDatumInhaltLösungen
16.10.18 --- 00_python_introduction.ipynb
moviemetadata.csv
00_python_introduction_solutions.ipynb
00_python_introduction_solutions.html
23.10.18 25.10.18
26.10.18
01_basics.pdf 01_basics_solutions.pdf
30.10.18 01.11.18
02.11.18
no tutorials (All saints' Day)
06.11.18 08.11.18
09.11.18
02_basics.pdf
02_data_exploration.ipynb
ChicagoCrime2017.csv.xz
02_basics_solutions.pdf
02_data_exploration_solutions.ipynb
02_data_exploration_solutions.html
13.11.18 15.11.18
16.11.18
03_basics_unsupervised.pdf 03_basics_unsupervised_solutions.pdf
20.11.18 22.11.18
23.11.18
04_unsupervised.pdf
27.11.18 29.11.18
30.11.18
04.12.18 06.12.18
07.12.18
11.12.18 13.12.18
14.12.18
18.12.18 20.12.18
21.12.18
Weihnachtsferien
08.01.19 10.01.19
11.01.19
15.01.19 17.01.19
18.01.19
22.01.19 24.01.19
25.01.19
29.01.19 31.01.19
01.02.19
05.02.19 07.02.19
08.02.19

Inhalt

Die in vielen Anwendungsgebieten stark angewachsenen Datenmengen machen eine manuelle Analyse der angefallenen Information zunehmend schwierig, wenn nicht sogar unmöglich. Gerade in Bereichen wie der Auswertung biologischer Messverfahren (Gen-Sequenzierung, Micro-Array Verfahren ...) oder von Transaktionsdaten großer Telekommunikations- oder Netzbetreiber, ist eine Nutzung der Daten ohne die Zuhilfenahme computergestützter Verfahren nicht denkbar.

Mit der Lösung dieser Probleme beschäftigt sich daher das Forschungsgebiet "Knowledge Discovery in Databases (KDD)". Es verbindet dabei Aspekte der Statistik, des maschinellen Lernens sowie der Datenbanksysteme und behandelt Methoden zur (semi-)automatischen Extraktion von gültigem, neuem und potentiell nützlichem Wissen aus großen Datenbanken. Der in diesem Zusammenhang häufig verwendete Begriff Data Mining bezieht sich dabei auf den grundlegenden Schritt im KDD-Prozess, in dem die eigentliche Analyse der Daten durchgeführt wird.

Data Mining wird dabei häufig auch auf große Mengen betrieblicher Daten angewendet, die in so genannten Data Warehouses gesondert verwaltet werden. Der häufig verwendete Begriff Business Intelligence beschreibt dann unter anderem die Anwendung von Data Mining Algorithmen auf die von einem Data Warehouse bereitgestellten Informationen, um zielgerichtet Entscheidungsprozesse zu unterstützen.

Die Vorlesung gibt einen Überblick über die Grundlagen der wichtigsten KDD-Techniken. Dabei wird besonders auf die folgenden Teilgebiete eingegangen: Klassifikation, Regression/Trenderkennung, Clustering, Outlier Detection und Assoziationsregeln.

Zur Vertiefung der Vorlesung werden 2-stündige Übungen angeboten, in denen die vorgestellten Verfahren weiter erläutert und an praktischen Beispielen veranschaulicht werden.