
Die in vielen Anwendungsgebieten stark angewachsenen Datenmengen machen eine manuelle Analyse der angefallenen Information zunehmend schwierig, wenn nicht sogar unmöglich. Gerade in Bereichen wie der Auswertung biologischer Messverfahren (Gen-Sequenzierung, Micro-Array Verfahren ...) oder von Transaktionsdaten großer Telekommunikations- oder Netzbetreiber, ist eine Nutzung der Daten ohne die Zuhilfenahme computergestützter Verfahren nicht denkbar.
Mit der Lösung dieser Probleme beschäftigt sich daher das Forschungsgebiet "Knowledge Discovery in Databases (KDD)". Es verbindet dabei Aspekte der Statistik, dem maschinellen Lernen sowie der Datenbanksysteme und behandelt Methoden zur (semi-)automatischen Extraktion von gültigem, neuem und potentiell nützlichem Wissen aus großen Datenbanken. Der in diesem Zusammenhang häufig verwendete Begriff Data Mining bezieht sich dabei auf den grundlegenden Schritt im KDD-Prozess, in dem die eigentliche Analyse der Daten durchgeführt wird.
Data Mining wird dabei häufig auch auf große Mengen betrieblicher Daten angewendet, die in so genannten Data Warehouses gesondert verwaltet werden. Der häufig verwendete Begriff Business Intelligence beschreibt dann unter anderem die Anwendung von Data Mining Algorithmen auf die von einem Data Warehouse bereitgestellten Informationen, um zielgerichtet Entscheidungsprozesse zu unterstützen.
Die Vorlesung gibt einen Überblick über die Grundlagen der wichtigsten KDD-Techniken. Dabei wird besonders auf die folgenden Teilgebiete eingegangen: Klassifikation, Regression/Trenderkennung, Clustering, Outlier Detection und Assozationsregeln.
Zur Vertiefung der Vorlesung werden 2-stündige Übungen angeboten, in denen die vorgestellten Verfahren weiter erläutert und an praktischen Beispielen veranschaulicht werden.
| Veranstaltung | Zeit | Ort | Beginn |
|---|---|---|---|
| Vorlesung | Di, 9.30 - 12.00 Uhr | B U101 (Oettingenstr. 67) | 16.04.2013 |
| Übung |
Fr, 12.00 - 14.00 Uhr | Raum U 151 (Oettingenstr. 67) |
26.04.2013 |
| Übung |
Fr, 14.00 - 16.00 Uhr | Raum U 151 (Oettingenstr. 67) |
26.04.2013 |
| Datum | Vorlesung | Datum | Übung |
| 16.04.2013 | Kapitel 1: Einleitung PDF | - | - |
| 23.04.2013 | Kapitel 2: Featureräume PDF | 26.04.2013 | Blatt 01 |
| 30.04.2013 | Kapitel 3: Clusteranalyse Teil 1 PDF | 03.05.2013 | Blatt 02 |
| 07.05.2013 | Kapitel 3: Clusteranalyse Teil 2 PDF | 10.05.2013 | Blatt 03 Datensatz |
| 14.05.2013 | Kapitel 3: Clusteranalyse Teil 3 PDF | 17.05.2013 | Blatt 04 |
| 21.05.2013 | vorlesungsfrei | 24.05.2013 | Vorbesprechung Bonusprojekte |
Übersicht Themenvorschläge Bonusprojekte, Literatur zu den vorgeschlagenen Themen (NUR von der Uni aus zugänglich)
Noch keine Themen vergeben. Diese werden hier aufgelistet.
Das Material der Übungen wird nicht vollständig online sein. Sie sollten die Übungen besuchen, und sich dort aktiv mit Fragen beteiligen. Die Folien hier sind darauf konzipiert, die mündliche Erklärung zu unterstützen, enthalten aber nur ein Minimum an begleitendem Text.
Bitte nicht ausdrucken: es werden Algorithmen zum Teil auf 100 Seiten Schritt-für-Schritt durchgeführt, aber dafür sollte kein Baum sterben müssen. Wir können derzeit keine Druckversion anbieten (das Material ist als Unterstützung für einen mündlichen Vortrag konzipiert). Bitte einfach am PC/Tablet die Folien wiederholen, und nur einzelne Folien ausdrucken.
| Part | Files | Blatt |
| 00 | Softwareüberblick (noch nicht besprochen) | - |
| 01 | Distanzfunktionen | 01 |
| 02 | Clusteranalyse Teil I | 02 |
| 03 | Clusteranalyse Teil II | 03 |
Optional: kein Teil der Vorlesung, insbesondere nicht prüfungsrelevant:
Weiterführende Links zum breiteren Themenbereich KDD und Data Mining.
Eine Registrierung bei Google+ ist nicht notwendig.
Die Klausur wird voraussichtlich 90-100 Minuten dauern, und kurz vor Ende der Vorlesungzeit stattfinden. Aufgrund der Größe der Vorlesung (über 100 Anmeldungen) wird die Klausur ggf. an einem Wochenende oder Spätnachmittags stattfinden müssen. Ein genaues Datum kann erst festgelegt werden, wenn wir eine bestätigte Hörsaalreservierung haben.
Es wird dann auch eine Klausuranmeldung notwendig sein, diese wird per UniWorX erfolgen - sobald der Termin feststeht.
SS 12, SS 11, WS 10/11, WS 09/10, WS 08/09, WS 07/08, WS 06/07, WS 05/06, WS 04/05, WS 03/04, WS 02/03, WS 00/01, WS 99/00