CrossAsia N-Gramm Service

Die im CrossAsia ITR gespeicherten Volltexte bieten eine hervorragende Grundlage für statistische, linguistische und andere Analysen im Rahmen der digitalen Geisteswissenschaften. Zugriff auf die vollständigen lizenzierten Volltexte ist nur für registrierte Nutzer:innen möglich. Dadurch, dass wir die Texte als N-Gramm Datensets aufbereitet haben, also die Texte in Fragmente zerlegt haben - bei chinesischen Texten in Fragmente mit ein, zwei oder drei-Zeichenkombinationen - und nur die Häufigkeit der jeweiligen Fragmente im Korpus präsentieren, können wir Sie frei zum Download zur Verfügung stellen.

Sie können sich hier verschiedene Datensets zu chinesischen Textsammlungen herunterladen und sie auf ihrem eigenen Rechner und mit ihren eigenen Tools erforschen. Aktuell stehen drei Datensets mit N-Grammen auf Buchebene zur Verfügung, jeweils mit Mono-, Bi- und Trigrammen.

Wenn Sie Bedarf an N-Gramm Sets weiterer Ressourcen aus dem CrossAsia Kontext haben, schreiben Sie uns! Die Daten werden dann ebenfalls hier öffentlicht zugänglich gemacht.

Kollektion	Beschreibung
Xuxiu Siku Quanshu 續修四庫全書	'Fortsetzung des Siku Quanshu' aus dem späten 18. Jahrhundert mit mehr als 5.000 Titeln.
Lokalmonographien	Chinesische geographische Werke von der Tangdynastie bis zur Republikzeit mit ca. 8.000 Titeln.
Daozang Jiyao 道藏辑要	'Essenz des daoistischen Kanons', Sammlung Daoistischer Texte mit knapp 300 Titeln.

Diese Datensets sind unter folgender Lizenz veröffentlicht: Creative Commons Namensnennung 4.0 International (CC BY 4.0)

Empfohlene Zitierweise: Bitte orientieren Sie sich an den Vorschlägen im Repositorium.