Lehr- und Forschungseinheit für Datenbanksysteme
print


Breadcrumb Navigation


Content

Knowledge Discovery in Databases I (WS 2019/20)

Aktuelles

  • [21.02.2020] Klausurhinweise
  • [21.02.2020] Hauptklausur Raumaufteilung: (Nachnamen)
    • A - J: Audimax
    • K - R: B101
    • S - Z: B201
  • [17.02.2020] Es gibt ein Update zu den Vorlesungsfolien.
  • [03.02.2020] Morgen am Dienstag, den 04.02.2020 findet keine Vorlesung statt. Übungen werden diese Woche dennoch stattfinden, aber nur jeweils eine am Donnerstag und Freitag. Die erste Übung findet am Donnerstag, den 06.02.2020, von 14:00 - 16:00 in der Edmund-Rumpler-Strasse 13 (Freimann) Raum B 210 statt. Die zweite Übung findet am Freitag, den 07.02.2020, von 12:00 - 14:00 wie üblich in Lehrturm-V005 (Prof.-Huber-Pl. 2) statt.
  • [30.01.20] Die Übungen diese Woche (30.01 und 31.01) fallen aus, nächste Woche werden aber nochmal Übungen stattfinden. Die Donnerstagsübung wird aber in Freimann stattfinden, siehe unten.
  • [21.01.20] Diese Woche wird in den Übungen eine Probeklausur besprochen. Für diese wird keine Lösung hochgeladen werden.
  • [WICHTIG] Auf Grund von einem Fehler im LSF System finden die Donnerstagsübungen vom 05.12./19.12./06.02. in der Edmund-Rumpler-Strasse 13 (Freimann) Raum B 210 statt. Alle anderen Termine sind wie gewohnt im Lehrturm-VU107 (Prof.-Huber-Pl. 2).
  • [10.12.19] Aufgrund von Überschneidungen mit anderen Klausuren wurde die Hauptklausur auf den 24.02.2020, 14-16 Uhr verschoben. Die Räume bleiben gleich. Der Termin für die Nachholklausur ist jetzt auch festgelegt.
  • [26.11.19] Zur Information: Übungsblätter und vorherige Lösungen werden Anfang jeder Vorlesungswoche hochgeladen. Podcast wird etwa Freitags nach der Vorlesung hochgeladen.
  • [26.11.19] Auf Grund von einem Fehler im LSF System finden die Donnerstagsübungen diese Woche in der Edmund-Rumpler-Strasse 13 (Freimann) Raum B 210 statt. Es kann auch in Zukunft vereinzelt zu weiteren Verschiebungen kommen.
  • [18.11.19] Der Termin für die erste Klausur wurde nun festgelegt. Wenn Sie in Bezug auf die Klausur für einen Nachteilsausgleich, z.B. Schreibzeitverlängerung in Frage kommen, geben sie uns bitte bis spätestens 10.02.20 per E-Mail Bescheid.
  • [29.10.19] Diese Wochen finden nur die Donnerstagsübungen (31.10.2019) statt. Besucher der Übungen am Freitag (01.11.2019) werden gebeten einmalig auf die Donnerstagsübungen auszuweichen.

Organisation

Umfang: 3+2 Semesterwochenstunden
Dozent: Prof. Dr. Thomas Seidl
Vorkenntnisse: Algorithmen und Datenstrukturen empfohlen, Datenbanksysteme I vorteilhaft.

Anmeldung: über Uni2Work
Übungsleitung: Janina Sontheim, Maximilian Hünemörder

LMUCast: LMUCast Playlist (Upload bis etwa Freitag nach der Vorlesung)

Termine und Ort

VeranstaltungZeitOrtBeginn
Vorlesung Di, 9:15 - 11:45 Uhr Raum E004 (HGB) 15.10.2019
Übung 1 Do, 14:00 - 16:00 Uhr Lehrturm-VU107 (Prof.-Huber-Pl. 2) 24.10.2019
Übung 2 Do, 12:00 - 14:00 Uhr Lehrturm-VU107 (Prof.-Huber-Pl. 2) 24.10.2019
Übung 3 Fr, 12:00 - 14:00 Uhr Lehrturm-V005 (Prof.-Huber-Pl. 2) 25.10.2019
Übung 4 Fr, 14:00 - 16:00 Uhr Lehrturm-V005 (Prof.-Huber-Pl. 2) 25.10.2019

Zeitplan und Material

Kapitel 1&2: Organisatorisches + Grundlagen -Update
Kapitel 3: Supervised Learning
Kapitel 4: Unsupervised Learning
Kapitel 5: Process Mining -Update

VorlesungÜbung
DatumFolienDatumAufgabenLösungen
15.10.19 Kapitel 1&2/S. 1-34 - Python-Einführung
Datenset
22.10.19 Kapitel 1&2/S. 35-61 24./25.10.19 Übungsblatt 1 Lösung 1
29.10.19 Kapitel 1&2/S. 62-116 31.10.19 Übungsblatt 2 Lösung 2
05.11.19 Kapitel 1&2/fertig, Kapitel 3/S. 1-41 07./08.11.19 Übungsblatt 3 Lösung 3
12.11.19 Kapitel 3/S. 42-72 14./15.11.19 Übungsblatt 4 Lösung 4
19.11.19 Kapitel 3/S. 73-109
Kapitel 3.6
21./22.11.19 Übungsblatt 5
Notebooks_Klassifikation

Lösung 5

26.11.19 Kapitel 4/S. 1-35
Kapitel 4.0
28./29.11.19 Übungsblatt 6 Lösung 6
03.12.19 Kapitel 4/S. 36-73
Kapitel 4.1.3
05./06.12.19 Übungsblatt 7 Lösung 7
Lösungsfolien
10.12.19 Kapitel 4/S. 74-103
Kapitel 4.1.6
12./13.12.19 Übungsblatt 8 Lösung_8
17.12.19 Kapitel 4/S. 104-144
Kapitel 4.2.1
19./20.12.19 Übungsblatt_9 Lösung_9
07.01.20 Kapitel 4/S. 144-173
Kapitel 4.2.2
09./10.01.20 Übungsblatt_10 Lösung 10
14.01.20 Kapitel 4/S. 174-208
Kapitel 4.2.3
16./17.01.20 Übungsblatt_11 Lösung_11
21.01.20 Kapitel 5/S. 1-41
Kapitel 5.1
23./24.01.20 Probeklausur Keine Online-Lösung
28.01.20 Kapitel 5/S. 42-110
Kapitel 5.3
 - Keine Übungen
04.02.20  - 06./07.02.20 Übungsblatt 12 Lösung_12

Klausur:

VeranstaltungZeitOrt
Hauptklausur Mo, 24.02.2020, 14:00 - 16:00
(Rosenmontag)
B 101, B 201 und AudiMax (A 030) 
(HGB, Geschw.-Scholl-Pl. 1)
Nachholklausur Di, 24.03.2020, 14:00 - 16:00 A 140, A 240

Inhalt

Die in vielen Anwendungsgebieten stark angewachsenen Datenmengen machen eine manuelle Analyse der angefallenen Information zunehmend schwierig, wenn nicht sogar unmöglich. Gerade in Bereichen wie der Auswertung biologischer Messverfahren (Gen-Sequenzierung, Micro-Array Verfahren ...) oder von Transaktionsdaten großer Telekommunikations- oder Netzbetreiber, ist eine Nutzung der Daten ohne die Zuhilfenahme computergestützter Verfahren nicht denkbar.

Mit der Lösung dieser Probleme beschäftigt sich daher das Forschungsgebiet "Knowledge Discovery in Databases (KDD)". Es verbindet dabei Aspekte der Statistik, des maschinellen Lernens sowie der Datenbanksysteme und behandelt Methoden zur (semi-)automatischen Extraktion von gültigem, neuem und potentiell nützlichem Wissen aus großen Datenbanken. Der in diesem Zusammenhang häufig verwendete Begriff Data Mining bezieht sich dabei auf den grundlegenden Schritt im KDD-Prozess, in dem die eigentliche Analyse der Daten durchgeführt wird.

Data Mining wird dabei häufig auch auf große Mengen betrieblicher Daten angewendet, die in so genannten Data Warehouses gesondert verwaltet werden. Der häufig verwendete Begriff Business Intelligence beschreibt dann unter anderem die Anwendung von Data Mining Algorithmen auf die von einem Data Warehouse bereitgestellten Informationen, um zielgerichtet Entscheidungsprozesse zu unterstützen.

Die Vorlesung gibt einen Überblick über die Grundlagen der wichtigsten KDD-Techniken. Dabei wird besonders auf die folgenden Teilgebiete eingegangen: Klassifikation, Regression/Trenderkennung, Clustering, Outlier Detection und Assoziationsregeln.

Zur Vertiefung der Vorlesung werden 2-stündige Übungen angeboten, in denen die vorgestellten Verfahren weiter erläutert und an praktischen Beispielen veranschaulicht werden.