
Die in vielen Anwendungsgebieten stark angewachsenen Datenmengen machen eine manuelle Analyse der angefallenen Information zunehmend schwierig, wenn nicht sogar unmöglich. Gerade in Bereichen wie der Auswertung biologischer Messverfahren (Gen-Sequenzierung, Micro-Array Verfahren ...) oder von Transaktionsdaten großer Telekommunikations- oder Netzbetreiber, ist eine Nutzung der Daten ohne die Zuhilfenahme computergestützter Verfahren nicht denkbar.
Mit der Lösung dieser Probleme beschäftigt sich daher das Forschungsgebiet "Knowledge Discovery in Databases (KDD)". Es verbindet dabei Aspekte der Statistik, dem maschinellen Lernen sowie der Datenbanksysteme und behandelt Methoden zur (semi-)automatischen Extraktion von gültigem, neuem und potentiell nützlichem Wissen aus großen Datenbanken. Der in diesem Zusammenhang häufig verwendete Begriff Data Mining bezieht sich dabei auf den grundlegenden Schritt im KDD-Prozess, in dem die eigentliche Analyse der Daten durchgeführt wird.
Data Mining wird dabei häufig auch auf große Mengen betrieblicher Daten angewendet, die in so genannten Data Warehouses gesondert verwaltet werden. Der häufig verwendete Begriff Business Intelligence beschreibt dann unter anderem die Anwendung von Data Mining Algorithmen auf die von einem Data Warehouse bereitgestellten Informationen, um zielgerichtet Entscheidungsprozesse zu unterstützen.
Die Vorlesung gibt einen Überblick über die Grundlagen der wichtigsten KDD-Techniken. Dabei wird besonders auf die folgenden Teilgebiete eingegangen: Klassifikation, Regression/Trenderkennung, Clustering, Outlier Detection und Assozationsregeln.
Zur Vertiefung der Vorlesung werden 2-stündige Übungen angeboten, in denen die vorgestellten Verfahren weiter erläutert und an praktischen Beispielen veranschaulicht werden.
| Veranstaltung | Zeit | Ort | Beginn |
|---|---|---|---|
| Vorlesung | Di, 9.00 - 12.00 Uhr | Raum E 216 (Hauptgebäude) | 03.05.2011 |
| Übung |
Di, 16.00 - 18.00 Uhr | Raum D Z007 (Hauptgebäude) |
10.05.2011 |
| Übung |
Do, 16.00 - 18.00 Uhr | Raum C 113 (Theresienstr. 41) |
12.05.2011 |
| Datum | Vorlesung | Datum | Übung |
| 03.05.2011 | Kapitel 1: Einleitung PDF Kapitel 2: Featureräume PDF | 03.05.2011 05.05.2011 | entfällt |
| 10.05.2011 | Kapitel 2: Featureräume Kapitel 3: Klassifikation PDF | 10.05.2011 12.05.2011 | Blatt01.pdf |
| 17.05.2011 | Kapitel 3: Klassifikation (Fortsetzung) | 17.05.2011 19.05.2011 | Blatt02.pdf |
| 24.05.2011 | Kapitel 3: Klassifikation (Fortsetzung) | 24.05.2011 26.05.2011 | Blatt03.pdf |
| 31.05.2011 | Kapitel 3: Klassifikation (Fortsetzung) | 31.05.2011 | Blatt04.pdf |
| 07.06.2011 | Kapitel 3: Klassifikation (7) Kapitel 4: Regression PDF | 07.06.2011 09.06.2011 | Blatt05.pdf Blatt04.pdf |
| 14.06.2011 | vorlesungsfrei | 16.06.2011 | Blatt05.pdf |
| 21.06.2011 | Kapitel 5: Clustering (1-3) PDF | 21.06.2011 | Rechnerübung CIP-POOL TaklaMakan |
| 28.06.2011 | Kapitel 5: Clustering (4) PDF | 28.06.2011 30.06.2011 | Blatt06.pdf loesung6-2.pdf loesung6-3.pdf |
| 05.07.2011 | Kapitel 6: Outlier Detection PDF | 05.07.2011 07.07.2011 | Blatt07.pdf |
| 12.07.2011 | Kapitel 7: Evaluation von unsupervised Verfahren PDF | 12.07.2011 14.07.2011 | Blatt08.pdf loesung8-1.pdf |
| 19.07.2011 | Kapitel 8: Assoziationsregeln PDF | 19.07.2011 21.07.2011 | Blatt09.pdf Loesung_09-1.pdf Loesung_09-2.pdf |
| 26.07.2011 | Klausur | 26.07.2011 28.07.2011 |
Die Klausur findet Di den 26.7.2011 im Hörsaal B101 im Hauptgebäude statt. Geplante Uhrzeiten: 8:45 Einlass, 9:00 Beginn, 10:30 Abgabe. Bearbeitungsdauer ist 90 min.
SS 11, WS 10/11, WS 09/10, WS 08/09, WS 07/08, WS 06/07, WS 05/06, WS 04/05, WS 03/04, WS 02/03, WS 00/01, WS 99/00