Materials

Datasets

For datasets from my more recent projects, check my OSF account and my Github profile.

Middle High German “ung” Dataset
The dataset used for my paper on ung-nominalization in Middle High German, compiled from the corpus of the Middle High German Dictionary.

beizeiten
A small database compiled for my blog post on the use of German beizeiten from two of the COSMAS II subcorpora. You can also find the R script here (in German).

Prefixation Datasets
Three datasets extracted from the Mainz Early New High German Corpus, the FnhdC Corpus, and the GerManC corpus for a study on German prefix constructions.

Tutorials

Tutorial on automatization in R [download zip folder with PDF file and R script]
Tutorial on web data mining using R (outdated – the websites used here have changed considerably so the code won’t work any more) [download zip folder with PDF file and R script]

R package concordances
Corpus export files often come in formats that require certain modifications if you want to import them into a spreadsheet program or if you want to read them into R as a data frame. The aim of the R package concordances is to automatize this process. All you need is a corpus export file, and concordances will (try to) convert it for you. Available on GitHub.

Quick guide in German: click here.

Corpus Linguistics Tutorials (in German)

Einfache Korpusanalysen: Ein Schnelleinstieg

Wie der Titel schon sagt, bietet dieses Tutorial einen Schnelleinstieg in einfache Korpusanalysen. Es ist hier verfügbar.

Begleitmaterialien zu “Deutsche Sprachgeschichte: Grundzüge und Methoden”

Auf GitHub findet sich die jeweils aktuellste Version des Begleitmaterials zu meiner methodisch orientierten Einführung in die deutsche Sprachgeschichte.

Einsteiger-Tutorial für COSMAS II

Über das Suchanfragesystem COSMAS II ist das Deutsche Referenzkorpus (DeReKo) zugänglich, das zweifelsohne zu den wichtigsten und meistgenutzten Quellen für die deutsche Gegenwartssprache und die jüngere Sprachgeschichte zählt. In diesem Tutorial wird erklärt, wie man in COSMAS II elementare Suchanfragen stellt und wie man mit den Exportdateien arbeiten kann. Zum Tutorial

Daten aus COSMAS II chronologisch sortieren

COSMAS II bietet die Möglichkeit, die Treffer chronologisch zu sortieren. Für die weitergehende quantitative Analyse muss die Exportdatei jedoch oft in ein anderes Format überführt werden, bei dem zu jedem Treffer die jeweilige Jahreszahl angegeben ist. Dieses Tutorial stellt ein R-Skript vor, das – nach entsprechender Vorformatierung der Ausgabedatei – diese Arbeit automatisch erledigt. Zum Tutorial

Das Statistikprogramm R kann hier kostenlos heruntergeladen werden.

Mein Skript ist hier zu finden, findet sich jedoch auch im Anhang des Tutorials.

Konkordanzen aus dem Bonner Frühneuhochdeutschkorpus

Veraltet: Das Bonner Frühneuhochdeutschkorpus nutzt inzwischen das ANNIS-Interface. Die alte Version, auf die sich das Tutorial bezieht, ist jedoch noch hier verfügbar.

Das Bonner Frühneuhochdeutschkorpus (FnhdC) ist derzeit eine unserer wichtigsten Quellen zum Frühneuhochdeutschen. Jedoch ist es für AnfängerInnen schwierig, mit den herunterladbaren XML-Dateien zu arbeiten oder die Ergebnisse aus der Online-Suchschnittstelle in ein Tabellenkalkulationsprogramm zu übertragen. Dieses Tutorial stellt ein R-Skript vor, das dies in wenigen schnellen Schritten erledigt. Zum Tutorial

Das Statistikprogramm R kann hier kostenlos heruntergeladen werden.

Mein Skript ist hier zu finden, findet sich jedoch auch im Anhang des Tutorials.

DWDS/DTA-Tutorial

Veraltet: Erfreulicherweise wurde im neuen DWDS-Interface jetzt eine Exportfunktion implementiert, mit der man Konkordanzen unmittelbar als csv-Sheets exportieren kann, die sich mit Programmen wie Excel und Calc öffnen und auch problemlos zur Analyse in ein Programm wie R einlesen lassen.

Über die Website des Digitalen Wörterbuchs der Deutschen Sprache haben wir Zugriff auf mehrere Korpora, darunter das DWDS-Kernkorpus und das Deutsche Textarchiv. Dieses Tutorial gibt eine Einführung in die Suche über die DWDS-Seite. Darüber hinaus wird gezeigt, wie die Daten weiter verarbeitet werden können. Zum Tutorial

Noch schneller und einfacher als im Tutorial beschrieben lassen sich die .txt- (nicht .xml-)Ausgabedateien von DWDS mit diesem (noch wenig getesteten und daher möglicherweise noch fehlerbehafteten) R-Skript in Konkordanzen überführen.

WaCkY-Tutorial

Dank der “Web as Corpus kool Ynitiative” kann auch das Internet als Korpus genutzt werden – und dank des slowenischen Jožef Stefan Institute steht hierfür ein kostenloses und ohne Anmeldung zugängliches Web-Interface zur Verfügung. Damit sind die WaCkY-Korpora auch und gerade für Studierende besonders attraktiv. Das Tutorial gibt einen Einstieg in WaCkY und zeigt, wie die exportierten Daten weiter bearbeitet werden können. Zum Tutorial 

Für Anregungen und Verbesserungsvorschläge zu den Tutorials bin ich natürlich jederzeit dankbar!

Advertisement