Lehr- und Forschungseinheit für Datenbanksysteme
print


Breadcrumb Navigation


Content

Knowledge Discovery in Databases I (WS 2019/20)

Aktuelles

  • [WICHTIG] Auf Grund von einem Fehler im LSF System finden die Donnerstagsübungen vom 05.12./19.12./06.02. in der Edmund-Rumpler-Strasse 13 (Freimann) Raum B 210 statt. Alle anderen Termine sind wie gewohnt im Lehrturm-VU107 (Prof.-Huber-Pl. 2).
  • [26.11.19] Zur Information: Übungsblätter und vorherige Lösungen werden Anfang jeder Vorlesungswoche hochgeladen. Podcast wird etwa Freitags nach der Vorlesung hochgeladen.
  • [26.11.19] Auf Grund von einem Fehler im LSF System finden die Donnerstagsübungen diese Woche in der Edmund-Rumpler-Strasse 13 (Freimann) Raum B 210 statt. Es kann auch in Zukunft vereinzelt zu weiteren Verschiebungen kommen.
  • [18.11.19] Der Termin für die erste Klausur wurde nun festgelegt. Wenn Sie in Bezug auf die Klausur für einen Nachteilsausgleich, z.B. Schreibzeitverlängerung in Frage kommen, geben sie uns bitte bis spätestens 10.02.20 per E-Mail Bescheid.
  • [29.10.19] Diese Wochen finden nur die Donnerstagsübungen (31.10.2019) statt. Besucher der Übungen am Freitag (01.11.2019) werden gebeten einmalig auf die Donnerstagsübungen auszuweichen.

Organisation

Umfang: 3+2 Semesterwochenstunden
Dozent: Prof. Dr. Thomas Seidl
Vorkenntnisse: Algorithmen und Datenstrukturen empfohlen, Datenbanksysteme I vorteilhaft.

Anmeldung: über Uni2Work
Übungsleitung: Janina Sontheim, Maximilian Hünemörder

LMUCast: LMUCast Playlist (Upload bis etwa Freitag nach der Vorlesung)

Termine und Ort

VeranstaltungZeitOrtBeginn
Vorlesung Di, 9:15 - 11:45 Uhr Raum E004 (HGB) 15.10.2019
Übung 1 Do, 14:00 - 16:00 Uhr Lehrturm-VU107 (Prof.-Huber-Pl. 2) 24.10.2019
Übung 2 Do, 12:00 - 14:00 Uhr Lehrturm-VU107 (Prof.-Huber-Pl. 2) 24.10.2019
Übung 3 Fr, 12:00 - 14:00 Uhr Lehrturm-V005 (Prof.-Huber-Pl. 2) 25.10.2019
Übung 4 Fr, 14:00 - 16:00 Uhr Lehrturm-V005 (Prof.-Huber-Pl. 2) 25.10.2019

Zeitplan und Material

Kapitel 1&2: Organisatorisches + Grundlagen
Kapitel 3: Supervised Learning
Kapitel 4: Unsupervised Learning

VorlesungÜbung
DatumFolienDatumAufgabenLösungen
15.10.19 Kapitel 1&2/S. 1-34 - Python-Einführung
Datenset
22.10.19 Kapitel 1&2/S. 35-61 24./25.10.19 Übungsblatt 1 Lösung 1
29.10.19 Kapitel 1&2/S. 62-116 31.10.19 Übungsblatt 2 Lösung 2
05.11.19 Kapitel 1&2/fertig, Kapitel 3/S. 1-41 07./08.11.19 Übungsblatt 3 Lösung 3
12.11.19 Kapitel 3/S. 42-72 14./15.11.19 Übungsblatt 4 Lösung 4
19.11.19 Kapitel 3/S. 73-109
Kapitel 3.6
21./22.11.19 Übungsblatt 5
Notebooks_Klassifikation

Lösung 5

26.11.19 Kapitel 4/S. 1-35
Kapitel 4.0
28./29.11.19 Übungsblatt 6 Lösung 6
03.12.19 Kapitel 4/S. 36-73
Kapitel 4.3
05./06.12.19 Übungsblatt 7
10.12.19 12./13.12.19 Übungsblatt 8

Klausur:

VeranstaltungZeitOrt
Hauptklausur Do, 20.02.2020, 18:00 - 20:00  B 101, B 201 und AudiMax (A 030) 
(HGB, Geschw.-Scholl-Pl. 1)
Nachholklausur

Inhalt

Die in vielen Anwendungsgebieten stark angewachsenen Datenmengen machen eine manuelle Analyse der angefallenen Information zunehmend schwierig, wenn nicht sogar unmöglich. Gerade in Bereichen wie der Auswertung biologischer Messverfahren (Gen-Sequenzierung, Micro-Array Verfahren ...) oder von Transaktionsdaten großer Telekommunikations- oder Netzbetreiber, ist eine Nutzung der Daten ohne die Zuhilfenahme computergestützter Verfahren nicht denkbar.

Mit der Lösung dieser Probleme beschäftigt sich daher das Forschungsgebiet "Knowledge Discovery in Databases (KDD)". Es verbindet dabei Aspekte der Statistik, des maschinellen Lernens sowie der Datenbanksysteme und behandelt Methoden zur (semi-)automatischen Extraktion von gültigem, neuem und potentiell nützlichem Wissen aus großen Datenbanken. Der in diesem Zusammenhang häufig verwendete Begriff Data Mining bezieht sich dabei auf den grundlegenden Schritt im KDD-Prozess, in dem die eigentliche Analyse der Daten durchgeführt wird.

Data Mining wird dabei häufig auch auf große Mengen betrieblicher Daten angewendet, die in so genannten Data Warehouses gesondert verwaltet werden. Der häufig verwendete Begriff Business Intelligence beschreibt dann unter anderem die Anwendung von Data Mining Algorithmen auf die von einem Data Warehouse bereitgestellten Informationen, um zielgerichtet Entscheidungsprozesse zu unterstützen.

Die Vorlesung gibt einen Überblick über die Grundlagen der wichtigsten KDD-Techniken. Dabei wird besonders auf die folgenden Teilgebiete eingegangen: Klassifikation, Regression/Trenderkennung, Clustering, Outlier Detection und Assoziationsregeln.

Zur Vertiefung der Vorlesung werden 2-stündige Übungen angeboten, in denen die vorgestellten Verfahren weiter erläutert und an praktischen Beispielen veranschaulicht werden.