Friedrich-Alexander-Universität UnivisFAU-Logo
Techn. Fakult�tWillkommen am Institut für InformatikFAU-Logo
AG Digital Humanities

Mitarbeiter

Lehrveranstaltungen

Curriculum

Forschungsprojekte

Offene Stellen

Dienste

Examensarbeiten

Kooperationen

Demos & Downloads

Kontakt

Gallery

Kompetenzen

Alumni

Ausgründungen

 
 
 

 

 

 

Institut für Informatik >  AG Digital Humanities   >  Lehrveranstaltungen  > Seminar Text- und Datamining

AG Digital Humanities (vormals Professur für Künstliche Intelligenz)

Die Arbeitsgruppe Digital Humanities wurde vom Department Informatik anlässlich der Versetzung von Prof. Dr.-ing. Günther Görz in den Ruhestand zum 1.10.2012 eingerichtet. In ihr sollen Forschungsprojekte im Schnittbereich von Informatik und Geisteswissenschaften durchgeführt werden, insbesondere solche, die bereits an der Professur für Künstliche Intelligenz initiiert worden waren.

Die Professur für Künstliche Intelligenz wird als Professur für Kognitive Systeme weitergeführt und soll im Jahr 2014 neu besetzt werden. Der frühere Lehrstuhl für Künstliche Intelligenz existiert nicht mehr als eigener Lehrstuhl, sondern wurde auf Beschluss des Departments mit dem Lehrstuhl für Theoretische Informatik fusioniert, den Prof. Dr. Lutz Schröder seit dem Sommersemester 2012 innehat. Um die Vorgeschichte zu dokumentieren, sind an dieser Stelle auch die alten Seiten der Professur KI abgelegt.

Seminar Textmining (TM) – SoSe 2015

Vorbesprechung und Einführung: Fr, 10.04.15, 14:00 – 18:00 Uhr (Ende der Semesterferien!)
Anmeldung: per E-Mail vor der Vorbesprechung. Die Anmeldung ist abgeschlossen. Es gibt keine freien Plätze mehr.
Organisatorisches: Blockveranstaltung mit mehreren Einzelterminen
Zeit: Freitag, 14:00 s.t. – 17:30 Uhr
Ort: Konrad-Zuse-Straße 3-5, Raum SR 00.030 (Röthelheimcampus Erlangen)
Kontakt: Richard Schaller, Martin Hacker

Beschreibung

Beim Textmining wird versucht, aus (meist) unstrukturierten Texten Informationen zu extrahieren. In den meisten Anwendungsfällen wird eine Reduktion einer großen Textmenge auf eine für den Menschen verarbeitbaren Informationsmenge angestrebt. So wird z. B. mit einer Websuchmaschine die Gesamtzahl der im Internet verfügbaren Webseiten auf wenige für den jeweiligen Nutzen relevante Seiten reduziert. Textmining ist ein Teilbereich des Dataminings, bei welchem aus großen Mengen von Daten relevante Informationen extrahiert werden.
Ziel des Seminars ist es, einen Überblick über die verschiedenen Techniken zu geben, die beim Text- und Datamining Anwendung finden. Dazu gehören unter anderem Verfahren zur Datenaufbereitung, regelbasierten Auswertung und statistischen Analyse und komplexere Anwendungen wie Recommender-Systeme und Systeme zum Information Retrieval, zur Klassifikation und zum Clustering.

Ablauf des Seminars

Das Seminar wird in zwei großen Blöcken abgehalten, wobei die genauen Termine in der Vorbesprechung vereinbart werden: In den ersten Wochen wird von Seiten der Seminarleitung eine Einführung in die Grundlagen des Text- und Dataminings gegeben. Hierbei liegt der Schwerpunkt auf der Vorverarbeitung von Texten, der Textmodellierung (Vektorraummodell), statistischen Verfahren zur Klassifikation von Daten und Methoden der Evaluation. Des Weiteren werden grundlegende Kompetenzen zum wissenschaftlichen Arbeiten und Präsentieren vermittelt. Gegen Ende des Semesters wird jeder Teilnehmer einen Vortrag über ein spezielles Thema halten. Darin enthalten ist eine kleine praktische Aufgabe, um den Praxisbezug herzustellen. Der Inhalt des Vortrags und die Ergebnisse der praktischen Aufgabe sollen in Form einer kurzen schriftlichen Ausarbeitung festgehalten werden.

Terminplan

Abgabetermin für die vorläufigen Folien: 1 Woche vor dem Vortrag
WocheDatumThemaReferentFolien
0 Fr, 10.4.15 Vorbesprechung, Einführung

Grundlagen
Seminarleitung Folien
Folien
Folien
1 Fr, 17.4.15 Textmining-Grundlagen (Forts.), Python-Einführung, NLTK
Literaturrecherche
Besprechung der Themenstellungen
Seminarleitung
Folien
2 Fr, 24.4.15 Grundlagen des Maschinellen Lernens
Hinweise zur Ausarbeitung
und zum Vortrag
Seminarleitung Folien
Folien
Folien
3 Fr, 1.5.14 (Feiertag) - -
4 Fr, 8.5.15 (findet nicht statt) - -
So, 10.5.15 Abgabetermin für die Gliederung
5 Fr, 15.5.15 (findet nicht statt) - -
6 Fr, 22.5.15 (findet nicht statt) - -
7 Fr, 29.5.15 (findet nicht statt) - -
8 Fr, 5.6.15 (findet nicht statt) - -
So, 7.6.15 Abgabetermin für die Ausarbeitung
9 Fr, 12.6.15 (findet nicht statt) - -
10 Fr, 19.6.15 (findet nicht statt) - -
11 Fr, 26.6.15 Lexikalische Ressourcen für Themensuche Ulrich Rabenstein
Part-of-Speech-Tagging (POS-Tagging) Ina Rupprecht
Named Entity Recognition Michael Körber
Lernen von Entscheidungsbäumen zur Named Entity Recognition Sebastian Fichte
Klassifikation von Dokumenten nach Themen mit KNN Nikolai Hofmann
12 Fr, 3.7.15 Klassifikation von Dokumenten nach Themen mit Naive Bayes Simon Hofmann
Dimensionsreduktion mit Latent Semantic Indexing (LSI) Julia Schottenhamml
Sprachmodelle Lukas Rothe
13 Fr, 10.7.15 Rechtschreibkorrektur und tolerante Suche Thomas Wild
Clustering von Dokumenten nach Themen mit k-means Marcel Müller
EM-Clustering von Dokumenten nach Themen Christian Reintges
14 Fr, 17.7.15 Grammatikkorrektur Margit Haspel
Pagerank-Algorithmus Christian Wöllner
Empfehlungssysteme (recommender systems) Hendrik Koch
Sentiment Analysis und Opinion Mining Bianca Assmann
15 Fr, 24.7.15 Text Summarization Manuel Schmitt

Nützliche Links

Natural Language Toolkit (NLTK)
Weka toolkit
Vorlage für die Präsentation (Corporate Identity der FAU): Powerpoint, LaTeX
Google scholar
ACM digital library

Literatur

  • D. Jurafsky, J. H. Martin. SPEECH and LANGUAGE PROCESSING. An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. Prentice-Hall, 2. Auflage, 2008
  • Steven Bird , Ewan Klein , Edward Loper, Natural Language Processing with Python, O'Reilly Media, Inc., 2009 ( > HTML-Version)
  • Christopher D. Manning, Hinrich Schütze, Foundations of Statistical Natural Language Processing, MIT Press, Cambridge (Massachusetts) 1999
  • Liu, Bing, Web data mining, Springer-Verlag Berlin Heidelberg, 2007 ( > PDF-Version).
  •   Impressum Stand: 11.4.2016