Search:
Lehrstuhl  |  Institut  |  Fakultät  |  LMU
print

Hauptseminar "Big Data Analysis" im WS 2013/14



Aktuelles

  • Ausarbeitung bis Montag, 13. Januar 2014, 12.00 Uhr:
    bitte als PDF (bevorzugt: mit LaTeX erstellt) per Email an Erich Schubert abgeben
  • Vortragsfolien (nur Uni-intern zugänglich)
  • Die Anmeldung ist nicht mehr möglich, das Seminar ist voll.
  • Vorbesprechung: Montag, 21.10. s.t. -12 Uhr Raum 123 Oettingenstr. 67 im Anschluss an das Oberseminar.

Inhalt

"Big data" und "data-driven science" sind das Versprechen, durch umfangreiche Erfassung von Daten und deren Analyse einfacher neue Erkenntnisse zu gewinnen. Die Daten werden jedoch nicht nur "größer", sondern auch komplexer und müssen mitunter in Echtzeit analysiert werden. Dies führt zu neuen Herausforderungen, und dem Bedarf nach pragmatischen Lösungen mit bewusst kontrollierter - und reduzierter - Komplexität.

Der Schwerpunkt des Seminars liegt auf aktuellen wissenschaftlichen Methoden zur Analyse solcher Datenmengen, während die wirtschaftlichen Aspekte und die Datenhaltung, aber auch Implementierungsdetails von Plattformen wie Hadoop eine sekundäre Rolle spielen. Die Methoden und ihre zugrunde liegenden wissenschaftlichen Veröffentlichungen sollen in den Seminarsitzungen kompakt präsentiert und diskutiert werden.

Für die eine erfolgreiche Teilnahme am Seminar gibt es folgende Voraussetzungen:

  • die Teilnahme an der Vorbesprechung
  • die aktive Teilnahme am Blockseminar
  • eine eigenständig vorbereitete Präsentation, die zeigt, dass die präsentierte Forschung verstanden wurde, und essenzielle Ideen und Techniken verständlich präsentiert
  • eine schriftliche Ausarbeitung von etwa 5-10 Seiten (20.000-30.000 Zeichen), wahlweise in Deutsch oder Englisch

Die Vortragszeit beträgt 25 Min., darauf folgen 5-10 Min. Diskussion. (Insgesamt: 30-35 Minuten) Die Teilnehmerzahl ist auf 12 Teilnehmer begrenzt.


Das Seminar richtet sich an Master und Diplom Studenten. Die Teilnahme entspricht 6 ECTS Punkten.


Organisation


Anmeldung

  • Die Anmeldung ist zur (aktiven) Teilname zwingend notwendig und erfolgt über UniWorX.
  • Priorität bei der Anmeldung genießen Stundenten, die durch den frühen Termin (November) bald ihren Abschluss erreichen können (hoher ECTS Punktestand). Im Zweifelsfalle entscheidet die Anmeldungsreihenfolge.
  • Wer nur die Vorträge hören möchte (ohne Benotung und ECTS Punkte) kann auch ohne Anmeldung die Veranstaltung besuchen.

Ort und Zeit

Veranstaltung Zeit Ort
Vorbesprechung Montag, 21. Oktober 2013, 11.00 s.t. - 12.00 Uhr Raum 123 (Oettingenstr. 67)
Abgabe Vortrag (PDF) Samstag, 23. November 2013, 8.00 Uhr PDF per Email an Erich Schubert
Blockseminartag Samstag, 23. November 2013, 8.00-18.00 Uhr Raum 027 (Oettingenstr. 67)
Abgabe Seminararbeit Montag, 13. Januar 2014, 12.00 Uhr

Programm

Literatur (NUR aus dem Hochschulnetzwerk zugänglich!)

VortragsthemaVortragender
Block 1: Grundlegende Techniken (08:30-10:45)
Map-Reduce, bulk-synchronous parallel processing und large-scale graph computing.
J. Dean and S. Ghemawat. MapReduce: simplified data processing on large clusters. In: Communications of the ACM 51.1 (2008), pp. 107-113 Kiril Valev
L. G. Valiant. A bridging model for parallel computation. In: Communications of the ACM 33.8 (1990), pp. 103-111 Viktoria Pleintinger
D. Peng and F. Dabek. Large-scale Incremental Processing Using Distributed Transactions and Notifications. In: Proceedings of the 9th USENIX Symposium on Operating Systems Design and Implementation (OSDI), Vancouver, BC. 2010, pp. 1-15 Michael Grabatin
Block 2: Datenverwaltung (11:00-13:00)
Bigtable, Columnstores und große Datenbanken
F. Chang, J. Dean, S. Ghemawat, W. C. Hsieh, D. A. Wallach, M. Burrows, T. Chandra, A. Fikes, and R. E. Gruber. Bigtable: A Distributed Storage System for Structured Data. In: ACM Transactions on Computer Systems (TOCS) 26.2 (June 2008), 4:1-4:26 Odilo Hildebrandt
D. J. Abadi, S. R. Madden, and N. Hachem. Column-stores vs. row-stores: how different are they really? In: Proceedings of the ACM International Conference on Management of Data (SIGMOD), Vancouver, BC. 2008, pp. 967-980 Nicole Magiera
J. Shute, R. Vingralek, B. Samwel, B. Handy, C. Whipkey, E. Rollins, M. O. K. Littlefield, D. Menestrina, S. E. J. Cieslewicz, I. Rae, T. Stancescu, and A. Himani. F1: A Distributed SQL Database That Scales. In: Proceedings of the VLDB Endowment 6.11 (2013) Simon Kaltenbacher
Block 3: Analyse großer Graphen (14:00-16:00)
Analyse von großen Graphen in verteilten Systemen
A. Kyrola, G. Blelloch, and C. Guestrin. GraphChi: Large-scale graph computation on just a PC. In: Proceedings of the 10th USENIX Symposium on Operating Systems Design and Implementation (OSDI), Hollywood, CA. 2012, pp. 31-46 Sebastian Lehrmann
Y. Low, J. Gonzalez, A. Kyrola, D. Bickson, C. Guestrin, and J. M. Hellerstein. Distributed GraphLab: A framework for machine learning and data mining in the cloud. In: Proceedings of the VLDB Endowment 5.8 (2012), pp. 716-727 Sarah-Kristin Thiel
S. Suri and S. Vassilvitskii. Counting triangles and the curse of the last reducer. In: Proceedings of the 20th International Conference on World Wide Web (WWW), Hyderabad, India. 2011, pp. 607-614 Georg Eutermoser
Block 4: Approximative Algorithmen (16:00-18:00)
Schneller als in theoretisch möglich? Ja: durch approximative Algorithmen.
Warum es sinnvoll sein kann, auf die exakte Antwort zu verzichten.
S. Lattanzi, B. Moseley, S. Suri, and S. Vassilvitskii. Filtering: a method for solving graph problems in MapReduce. In: Proceedings of the 23rd ACM Symposium on Parallelism in Algorithms and Architectures (ACM SPAA), San Jose, CA. 2011, pp. 85-94 Jakob Karalus
M. Charikar, S. Chaudhuri, R. Motwani, and V. Narasayya. Towards estimation error guarantees for distinct values. In: Proceedings of the 19th ACM SIGMOD-SIGACT-SIGART Symposium on Principles of Database Systems, Dallas, TX. 2000, pp. 268-279 Sebastian Franz
E. Cohen, M. Datar, S. Fujiwara, A. Gionis, P. Indyk, R. Motwani, J. D. Ullman, and C. Yang. Finding interesting associations without support pruning. In: IEEE Transactions on Knowledge and Data Engineering 13.1 (2001), pp. 64-78 Evgeniy Faerman

Weiterführende Links

Zusätzliche Informationen


Vorhergehende Semester

blank