Materials

Datasets

Middle High German “ung” Dataset
The dataset used for my paper on ung-nominalization in Middle High German, compiled from the corpus of the Middle High German Dictionary.

beizeiten
A small database compiled for my blog post on the use of German beizeiten from two of the COSMAS II subcorpora. You can also find the R script here (in German).

Prefixation Datasets
Three datasets extracted from the Mainz Early New High German Corpus, the FnhdC Corpus, and the GerManC corpus for a study on German prefix constructions.

Tutorials

Tutorial on automatization in R [download zip folder with PDF file and R script]
Tutorial on web data mining using R (outdated – the websites used here have changed considerably so the code won’t work any more) [download zip folder with PDF file and R script]

Corpus Linguistics Tutorials (in German)

NEU: R-Paket “concordances” (Betaversion)
Mit dem R-Paket “concordances” können Exportdateien aus verschiedenen Korpus-Abfragesystemen schnell und einfach in R Dataframes überführt werden (und lassen sich damit auch einfach als tab-separierte Dateien speichern, die man wiederum in gängigen Tabellenkalkulationsprogrammen öffnen kann). Derzeit verfügbar für COSMAS II, Corpus Workbench (Terminalversion) und WaCkY/NoSketchEngine.

Schnellanleitung hier, GitHub-Repository hier. Derzeit noch unvollständig und buggy, aber einigermaßen funktional. Aktualisierungen und Verbesserungen folgen in Kürze!

Einsteiger-Tutorial für COSMAS II

Über das Suchanfragesystem COSMAS II ist das Deutsche Referenzkorpus (DeReKo) zugänglich, das zweifelsohne zu den wichtigsten und meistgenutzten Quellen für die deutsche Gegenwartssprache und die jüngere Sprachgeschichte zählt. In diesem Tutorial wird erklärt, wie man in COSMAS II elementare Suchanfragen stellt und wie man mit den Exportdateien arbeiten kann. Zum Tutorial

Daten aus COSMAS II chronologisch sortieren

COSMAS II bietet die Möglichkeit, die Treffer chronologisch zu sortieren. Für die weitergehende quantitative Analyse muss die Exportdatei jedoch oft in ein anderes Format überführt werden, bei dem zu jedem Treffer die jeweilige Jahreszahl angegeben ist. Dieses Tutorial stellt ein R-Skript vor, das – nach entsprechender Vorformatierung der Ausgabedatei – diese Arbeit automatisch erledigt. Zum Tutorial

Das Statistikprogramm R kann hier kostenlos heruntergeladen werden.

Mein Skript ist hier zu finden, findet sich jedoch auch im Anhang des Tutorials.

Konkordanzen aus dem Bonner Frühneuhochdeutschkorpus

Das Bonner Frühneuhochdeutschkorpus (FnhdC) ist derzeit eine unserer wichtigsten Quellen zum Frühneuhochdeutschen. Jedoch ist es für AnfängerInnen schwierig, mit den herunterladbaren XML-Dateien zu arbeiten oder die Ergebnisse aus der Online-Suchschnittstelle in ein Tabellenkalkulationsprogramm zu übertragen. Dieses Tutorial stellt ein R-Skript vor, das dies in wenigen schnellen Schritten erledigt. Zum Tutorial

Das Statistikprogramm R kann hier kostenlos heruntergeladen werden.

Mein Skript ist hier zu finden, findet sich jedoch auch im Anhang des Tutorials.

DWDS/DTA-Tutorial

Veraltet: Erfreulicherweise wurde im neuen DWDS-Interface jetzt eine Exportfunktion implementiert, mit der man Konkordanzen unmittelbar als csv-Sheets exportieren kann, die sich mit Programmen wie Excel und Calc öffnen und auch problemlos zur Analyse in ein Programm wie R einlesen lassen.

Über die Website des Digitalen Wörterbuchs der Deutschen Sprache haben wir Zugriff auf mehrere Korpora, darunter das DWDS-Kernkorpus und das Deutsche Textarchiv. Dieses Tutorial gibt eine Einführung in die Suche über die DWDS-Seite. Darüber hinaus wird gezeigt, wie die Daten weiter verarbeitet werden können. Zum Tutorial

Noch schneller und einfacher als im Tutorial beschrieben lassen sich die .txt- (nicht .xml-)Ausgabedateien von DWDS mit diesem (noch wenig getesteten und daher möglicherweise noch fehlerbehafteten) R-Skript in Konkordanzen überführen.

WaCkY-Tutorial

Dank der “Web as Corpus kool Ynitiative” kann auch das Internet als Korpus genutzt werden – und dank des slowenischen Jožef Stefan Institute steht hierfür ein kostenloses und ohne Anmeldung zugängliches Web-Interface zur Verfügung. Damit sind die WaCkY-Korpora auch und gerade für Studierende besonders attraktiv. Das Tutorial gibt einen Einstieg in WaCkY und zeigt, wie die exportierten Daten weiter bearbeitet werden können. Zum Tutorial 

Für Anregungen und Verbesserungsvorschläge zu den Tutorials bin ich natürlich jederzeit dankbar!