Thursday, July 7, 2016

Seminar: Wissenschaftliches Schreiben

Liebe Knowledge Miner,

das Semesterende nähert sich in großen Schritten und nach euren Abschlusspräsentationen freuen wir uns auf eure wissenschaftlichen Ausarbeitungen. Damit diese auch unseren Anforderungen entsprechen können, bieten wir euch ein Seminar zum Thema wissenschaftliches Schreiben in der Informatik an.

Das Seminar findet am 21. Juli 2016 von 13.30 - 15 Uhr in Raum H.E-51 statt.

Ihr bekommt von uns eine LaTeX Vorlage, die ihr euch hier bereits herunterladen könnt. Dr. Sack und Magnus werden euch eine Kurzeinführung in LaTeX geben und euch wichtige Hinweise über den Aufbau und Inhalt einer wissenschaftlichen Ausarbeitung vermitteln. 

Die o.a. LaTeX-Vorlage beinhaltet auch eine allgemeine Anleitung zum Schreiben wissenschaftlicher Arbeiten (insbesondere Seminararbeiten) in der Informatik, die hier noch einmal extra verlinkt ist:
Darin wird am eigenen Beispiel auch noch einmal genau gezeigt, wie Tabellen, Grafiken, Inhaltsverzeichnisse und Bibliografie zu erstellen sind. Mehr dazu, dann morgen (am 21.07.2016) nachmittag.

Präsentation vom 21.07.2016: Wie schreibe ich eine wissenschaftliche (Seminar-)arbeit

An dieser Stelle noch einmal recht herzlichen Dank für Eure Mitarbeit im Seminar und die tollen Ergebnisse, die wir mit Eurer Hilfe gewinnen konnten!  

Wie im Seminar schon des öfteren erwähnt, suchen wir noch studentische Hilfskräfte, die im Themengebiet, das wir auch im Seminar bearbeitet haben, gemeinsam mit uns forschen wollen. Schreibt uns einfach eine E-Mail und kommt vorbei, wenn Ihr Interesse habt. Dieses Jobangebot gilt bereits ab Juli. 

Thursday, June 23, 2016

Infos zur Abschlusspräsentation

Liebe Knowledge Miner,

wie bereits zur Zwischenpräsentation angekündigt:
Am Dienstag, den 19. Juli 2016 geht es um die Wurst!

Wir werden uns zur Knowledge Mining Abschlusspräsentation ab 16 Uhr am Pavillon hinter dem HPI Hauptgebäude versammeln. Wer um 16 Uhr noch mit einer Klausur beschäftigt ist, kann natürlich etwas später kommen. Ab 17 Uhr werden auch die Masterstudenten des Semantic Multimedia Seminars zu uns stoßen und ihre Ergebnisse präsentieren.

Wie läuft das ab?

  • Jede Gruppe erstellt ein A1-Poster über seine Arbeit
  • Präsentationszeit max. 5min
  • Wenn möglich, sollte auch eine kurze Demo vorgestellt werden. Wir stellen dazu Stehtische in das Pavillon
  • Nach den Kurzpräsentationen wird es noch ein kleines BBQ geben, um in einer lockeren Runde über eure Präsentationen und Projekte zu diskutieren

Zu den Postern

Die Poster sollten uns bis zum 18. Juli 2016 um 9Uhr zugeschickt werden, damit wir sie noch für euch drucken können. Es ist auch möglich uns eure Poster vorher einmal zu schicken, dann können wir noch einen kurzen Blick drauf werfen, bevor es in den Druck geht. Ob ihr die Poster in englischer oder deutscher Sprache verfasst, liegt bei euch. Ihr findet hier auch noch ein paar Beispiele der vergangenen Jahre:
  1. Flickr Clustering
  2. Audio Event Detection
  3. Semantische Aufbereitung von Fußballdaten
  4. Semantische Video Annotationen
Wir freuen uns auf eure kreativen und informativen Poster :-)

Wie ist das mit der Wurst?

Nach den Präsentationen braten wir Würste, Steaks und diverse vegetarische Dinge (Käse, Gemüse, etc.) Bitte tragt euch dazu bis zum 15. Juli 2016 in das Doodle ein und teilt uns mit, wie viel ihr an Wurst, Steak, Veggi-Einheiten und Bier verzehren möchtet. Wasser und Softdrinks werden wir auch besorgen.

Thursday, June 16, 2016

Nachtrag Zwischenpräsentationen

Liebe Studis,

vielen Dank für eure interessanten Vorträge heute.
Bitte schickt uns noch eure Präsentationen oder einen entsprechenden Link dazu.

Vielen Dank!

Friday, June 10, 2016

Bitte um Mithilfe bei einer Evaluation

Liebe Studenten,
wir brauchen eure Hilfe dabei, unsere neuen User-Interfaces zu evaluieren.
Wir haben verschiedene Tools entwickelt, um Texte semi-automatisch zu analysieren und mit der DBpedia zu verknüpfen. Diese Informationen werden dann genutzt, um den Usern Navigationshilfen zu bieten, Zusatzinformationen anzuzeigen und aussagekräftige Empfehlungen zu liefern.

Damit ihr sehen könnt, wie Linked Data basierte User-Interfaces aussehen können und wie man diese evaluieren kann, wäre eure Teilnahme im Seminarkontext natürlich von Vorteil.

Die Evaluationen finden von Mittwoch, den 15. Juni - Montag, den 20. Juni in H-1.40 statt.
Pro Person ist etwa eine halbe Stunde einzuplanen, zur Belohnung gibt es dann etwas Süßes oder etwas zu Knabbern ;-)

Wir freuen uns auf euer Feedback.
Wenn ihr einen Termin machen möchtet, schreibt mir gerne eine Email (tabea.tietz[at]hpi.de)

Viele Grüße, Tabea

Thursday, June 2, 2016

Zwischenpräsentationen

Wie bereits angekündigt, finden die Knowledge Mining Zwischenpräsentationen am
16. Juni 2016
13 - 15uhr 
in Hörsaal 3 statt.

Damit alle Gruppen die Chance haben ihr Thema vernünftig zu erklären, mussten wir diesmal etwas mehr Zeit für das Seminar einplanen.

Inhaltlich stellen wir uns Folgendes vor:
  • Aufgabenstellung und kurze Motivation
  • Das Ziel, das ihr bis zum Ende des Semesters erreichen wollt
  • Gewählte Lösungsansätze
  • Aktueller Stand und kurzer Ausblick auf die weitere Arbeit
  • Wenn möglich eine kurze Demo
Dafür habt ihr genau 10 Minuten Zeit. Überschreitet ihr das Limit, werden wir den Vortrag leider abbrechen müssen. Sprecht den Vortrag am besten vorher durch, damit das nicht passiert. Allgemein ist es eine gute Faustregel, mit etwa einer Minute pro Folie zu rechnen.

Nach jedem Vortrag haben die Tutoren und die anderen Seminarteilnehmer noch kurz Zeit Fragen zu stellen und euch Anregungen zu geben. Das heißt: Erklärt euer Thema bitte so, dass die anderen Gruppen auch verstehen wovon ihr redet.

Es müssen nicht zwingend alle Gruppenteilnehmer vortragen, aber es müssen alle auf Fragen und Diskussionen eingehen können.

Wir sind gespannt auf eure Vorträge und wenn ihr noch Fragen habt, meldet euch wie immer :-)

Friday, May 13, 2016

Neuer Termin: Midterm Presentations

Liebe Studis,

der Termin der Midterm Presentations muss verschoben werden und findet nun statt:

Donnerstag, den 16. Juni 2016
13 - 15 Uhr
Hörsaal 3

Weitere Infos zu den Präsentationen und was wir uns darunter vorstellen folgen noch. 

Thursday, April 28, 2016

Nachtrag zu den ersten Gruppentreffen & Raumplanung

Liebe Studis,

vielen Dank für die produktiven ersten Gruppentreffen. Für einige Gruppen gibt es hier noch ein paar Materialien und Infos, weil uns an mancher Steller leider die Zeit ausging.

Außerdem könnt ihr jetzt hier auch die Raumplanung für das restliche Semester einsehen. Wenn ihr nicht mehr wisst, in welcher Gruppe ihr seid, seht hier nach.

Gruppe Raum & Zeit
1 Word2Vec 13.00 - 13.30 H-2.58
2 COAL metadata 13.00 - 13.30 H-E.52
3 DBpedia Events 14.30 - 15.00 H-E.52
4 AV-Portal 14.30 - 15.00 H-2.58
5 COAL metadata 13.30 - 14.00 H-E.52
6 Word2Vec 13.30 - 14.00 H-2.58
7 COAL client 14.00 - 14.30 H-2.58


Gruppe 2+5: COAL metadata

  • Ladet euch das Programm aus dem github und probiert es aus
  • Sammelt Tools, die man als worker integrieren kann

Gruppe 7: COAL client

  • Findet einen Crawler und erweitert ihn für ein content negotiation basiertes crawling von rdf
  • Speichert das rdf sinnvoll ab (zBsp. im Triple Store)
  • Arbeitet mit dem yovisto Blog als erstes Beispiel und crawlt zBsp. die Bilder als rdf

Gruppe 4: AV-Portal

  • Schickt uns bitte eure Präsentation vom 28.04. 
  • Hier ist noch einmal meine kurze Präsentation von heute mit euren Aufgaben bis zum 12. Mai
  • Bitte schickt uns auch eure Email Adressen, damit ich euch die GND-DBpedia Mappings geben kann 
Gruppe 1+6: Word2Vec  
  • Präsentation zu NEL
  • das Paper dazu
  • Unsere geschilderte erste Idee als Beispiel:
    • Die ca. 97GB liegen auf einer unserer Maschinen. 
    • Jede Gruppe kann sich bei mir (Jörg, H-1.37) ein Login abholen.
      • Darin sind enthalten:
        • enwiki-latest-pages-articles.xml: original Wikipedia Article Dataset (XML + Wikisyntax)
        • data.sentences: transformiert in 'sentences' Dataset (ein Artikel pro Zeile, Sonderzeichen ersetzt, DBpedia URIs aus Wikilinks erzeugt, etc.)
        • PreprocessWiki2.java: das Tool zum Transformieren
        • train.py: der Code zum Trainieren mit Gensim (hat ca. 9 Stunden gedauert)
        • data.model*: die Modelldaten
  • Test- / Evaluationsdaten:
      • Ein Eingabetext ist daran zu erkennen, dass er als "nif:Context" typisiert ist (vgl. z.B. Zeile 18 und 19).
      • Der eigentliche Text ist über das Property "nif:isString" verknüpft (vgl. z.B. Zeile 22)
      • Für jeden "nif:Context"gibt es Annotationen, die typisiert sind als "nif:Phrase" (z.B. Zeilen 25 und 26). 
      • Eine Annotation bezieht sich immer auf einen "nif:Context", am Property "nif:referenceContext" zu erkennen (z.B. Zeile 30). 
      • Jede Annotation enthält folgende Informationen:
        • "nif:anchorOf" das Textfragment im Ausgangstext ("nif:Context"), auch "Surface Form" genannt.
        • "nif:beginIndex" den entsprechende Index des Anfangs der Annotation
        • "nif:endIndex" ebd.
        • "nif:referenceContext" wie gesagt, der Verweise auf den Ausgangstext
        • "itsrdf:taIdentRef" die DBpedia Entität, die der Annotation an der entsprechenden Stelle zugeordnet wurde (Dies ist die korrekte Entität, die manuell zugeordnet wurde. Ihr sollt mit Eurem Verfahren diese Entität sozusagen 'voraussagen'. )
        • ".../candidate>" Diese Elemente haben wir für Euch hinzugefügt. Es sind all die DBpedia Entitäten, die wir durch ein Mapping der "Surface Form" mit unserem "DBpedia Dictionary" als potentielle Kandidaten identifiziert haben. Der korrekte Kandidat ist dort immer enthalten.
    • Also nochmal FAZIT:
      • Für jede Annotation ("nif:Phrase") zu einem Ausgangstext ("nif:Context"), sollt ihr mit Eurem Verfahren aus der Kandidatenliste den korrekten Kandidaten ("itsrdf:taIdentRef") auswählen.
      • Dabei sollt ihr ein Word2Vec Verfahren verwenden. Welche Daten oder Parameter ihr dabei zum trainieren, optimieren, etc. verwendet ist Euch vollkommen freigestellt. (Es macht natürlich irgendwie Sinn, mit Wikipedia o. Ä. anzufangen.)
  • Aufgaben bis in 2 Wochen:
    • Schickt uns bitte eure Präsentation vom 28.04. 
    • generell Ansätze überlegen, oder den von oben verfeinern/verbessern
    • Möglichkeit des parallelisierten Trainings ermitteln
    • beginnen, erste Ansätze zu implementieren
    • Probleme + Lösungen die auftreten Dokumentieren