nav-image-narrow

CrossAsia N-Gramm Service

Die im CrossAsia ITR gespeicherten Volltexte bieten eine hervorragende Grundlage für statistische, linguistische und andere Analysen im Rahmen der digitalen Geisteswissenschaften. Zugriff auf die vollständigen lizenzierten Volltexte ist nur für registrierte Nutzerinnen und Nutzer möglich. Dadurch, dass wir die Texte als N-Gramm Datensets aufbereitet haben, also die Texte in Fragmente zerlegt haben - bei chinesischen Texten in Fragmente mit ein, zwei oder drei-Zeichenkombinationen - und nur die Häufigkeit der jeweiligen Fragmente im Korpus präsentieren, können wir Sie frei zum Download zur Verfügung stellen.

Sie können sich hier verschiedene Datensets zu chinesischen Textsammlungen herunterladen und sie auf ihrem eigenen Rechner und mit ihren eigenen Tools erforschen. Aktuell stehen drei Datensets mit N-Grammen auf Buchebene zur Verfügung, jeweils mit Mono-, Bi- und Trigrammen. In Kürze werden wir hier auch noch weitere Datensets sowie einige Online Services zum Analysieren der N-Gramme veröffentlichen.

N-Gramm Datensets

Kollektion Beschreibung N-Gramm
Xuxiu Siku Quanshu 續修四庫全書 'Fortsetzung des Siku Quanshu' aus dem späten 18. Jahrhundert mit mehr als 5.000 Titeln.

Lokalmonographien Chinesische geographische Werke von der Tangdynastie bis zur Republikzeit mit ca. 8.000 Titeln.

Daozang Jiyao 道藏辑要 'Essenz des daoistischen Kanons', Sammlung Daoistischer Texte mit knapp 300 Titeln.


Diese Datensets sind unter folgender Lizenz veröffentlicht: Creative Commons Namensnennung 4.0 International (CC BY 4.0)

Empfohlene Zitierweise: Bitte orientieren Sie sich an den Vorschlägen im Repositorium.