Search:
Lehrstuhl  |  Institut  |  Fakultät  |  LMU
print

Knowledge Discovery in Databases I im SS 2013

Aktuelles

  • Klausurtermin: 16.07.2013, vorauss. 8:00 (s.t.!) - 9:30 Uhr
  • Anmeldung zur Vorlesung (UniWorX)
  • Achtung: Die Übung 14-16 Uhr ist voll. Eine Teilnahme an der Übung ist nur möglich, wenn man in UniWorX für diese Übung angemeldet ist. Bitte haben Sie verständnis dafür, dass zuerst angemeldete Studenten Vorrang haben. In der Übung 12-14 Uhr sind noch Plätze frei.

Inhalt

Die in vielen Anwendungsgebieten stark angewachsenen Datenmengen machen eine manuelle Analyse der angefallenen Information zunehmend schwierig, wenn nicht sogar unmöglich. Gerade in Bereichen wie der Auswertung biologischer Messverfahren (Gen-Sequenzierung, Micro-Array Verfahren ...) oder von Transaktionsdaten großer Telekommunikations- oder Netzbetreiber, ist eine Nutzung der Daten ohne die Zuhilfenahme computergestützter Verfahren nicht denkbar.

Mit der Lösung dieser Probleme beschäftigt sich daher das Forschungsgebiet "Knowledge Discovery in Databases (KDD)". Es verbindet dabei Aspekte der Statistik, dem maschinellen Lernen sowie der Datenbanksysteme und behandelt Methoden zur (semi-)automatischen Extraktion von gültigem, neuem und potentiell nützlichem Wissen aus großen Datenbanken. Der in diesem Zusammenhang häufig verwendete Begriff Data Mining bezieht sich dabei auf den grundlegenden Schritt im KDD-Prozess, in dem die eigentliche Analyse der Daten durchgeführt wird.

Data Mining wird dabei häufig auch auf große Mengen betrieblicher Daten angewendet, die in so genannten Data Warehouses gesondert verwaltet werden. Der häufig verwendete Begriff Business Intelligence beschreibt dann unter anderem die Anwendung von Data Mining Algorithmen auf die von einem Data Warehouse bereitgestellten Informationen, um zielgerichtet Entscheidungsprozesse zu unterstützen.

Die Vorlesung gibt einen Überblick über die Grundlagen der wichtigsten KDD-Techniken. Dabei wird besonders auf die folgenden Teilgebiete eingegangen: Klassifikation, Regression/Trenderkennung, Clustering, Outlier Detection und Assozationsregeln.

Zur Vertiefung der Vorlesung werden 2-stündige Übungen angeboten, in denen die vorgestellten Verfahren weiter erläutert und an praktischen Beispielen veranschaulicht werden.


Organisation

  • Umfang: 3+2 Semesterwochenstunden
  • Vorlesung: Dr. Arthur Zimek
  • Vorkenntnisse: Englischkenntnisse erforderlich, Vorlesung Algorithmen und Datenstrukturen. Vorteilhaft: Datenbanksysteme I, Anfragebearbeitung und Indexstrukturen in Datenbanksystemen
  • Anmeldung: über UniWorX bis 31. Mai 2013
  • Übungsleitung: Erich Schubert

Zeit und Ort

Veranstaltung Zeit Ort Beginn
Vorlesung Di, 9.30 - 12.00 Uhr B U101 (Oettingenstr. 67) 16.04.2013
Übung
Fr, 12.00 - 14.00 Uhr Raum U 151 (Oettingenstr. 67)
26.04.2013
Übung
Fr, 14.00 - 16.00 Uhr Raum U 151 (Oettingenstr. 67)
26.04.2013

Vorlesungsplan

Datum Vorlesung Datum Übung
16.04.2013 Kapitel 1: Einleitung PDF - -
23.04.2013 Kapitel 2: Featureräume PDF 26.04.2013 Blatt 01
30.04.2013 Kapitel 3: Clusteranalyse Teil 1 PDF 03.05.2013 Blatt 02
07.05.2013 Kapitel 3: Clusteranalyse Teil 2 PDF 10.05.2013 Blatt 03 Datensatz
14.05.2013 Kapitel 3: Clusteranalyse Teil 3 PDF 17.05.2013 Blatt 04
21.05.2013 vorlesungsfrei 24.05.2013 Vorbesprechung Bonusprojekte

Bonusprojekte

Übersicht Themenvorschläge Bonusprojekte, Literatur zu den vorgeschlagenen Themen (NUR von der Uni aus zugänglich)

Noch keine Themen vergeben. Diese werden hier aufgelistet.


Tutorial

Das Material der Übungen wird nicht vollständig online sein. Sie sollten die Übungen besuchen, und sich dort aktiv mit Fragen beteiligen. Die Folien hier sind darauf konzipiert, die mündliche Erklärung zu unterstützen, enthalten aber nur ein Minimum an begleitendem Text.

Bitte nicht ausdrucken: es werden Algorithmen zum Teil auf 100 Seiten Schritt-für-Schritt durchgeführt, aber dafür sollte kein Baum sterben müssen. Wir können derzeit keine Druckversion anbieten (das Material ist als Unterstützung für einen mündlichen Vortrag konzipiert). Bitte einfach am PC/Tablet die Folien wiederholen, und nur einzelne Folien ausdrucken.

Part Files Blatt
00 Softwareüberblick (noch nicht besprochen) -
01 Distanzfunktionen 01
02 Clusteranalyse Teil I 02
03 Clusteranalyse Teil II 03

Optional: kein Teil der Vorlesung, insbesondere nicht prüfungsrelevant:
Weiterführende Links zum breiteren Themenbereich KDD und Data Mining.
Eine Registrierung bei Google+ ist nicht notwendig.


Klausur

Die Klausur wird voraussichtlich 90-100 Minuten dauern, und kurz vor Ende der Vorlesungzeit stattfinden. Aufgrund der Größe der Vorlesung (über 100 Anmeldungen) wird die Klausur ggf. an einem Wochenende oder Spätnachmittags stattfinden müssen. Ein genaues Datum kann erst festgelegt werden, wenn wir eine bestätigte Hörsaalreservierung haben.

Es wird dann auch eine Klausuranmeldung notwendig sein, diese wird per UniWorX erfolgen - sobald der Termin feststeht.


Weiterführende Informationen

KDD zum Ausprobieren

weitere Informationen



Vorhergehende Semester

SS 12, SS 11, WS 10/11, WS 09/10, WS 08/09, WS 07/08, WS 06/07, WS 05/06, WS 04/05, WS 03/04, WS 02/03, WS 00/01, WS 99/00

blank
Datenschutz   Impressum