Wiktionary herunterladen

wiktionary.dbpedia.org/sparql?default-graph-uri=&query=SELECT%20?… VON%20%20 WHERE%20% %20%20?lexword%20%20″house”@en%20. %20%20?lexword%20%20?sense%20.%20%20%20 %20%20?sense%20%20?meaning `&should-sponge=&format=text/html&timeout=0&debug=on == Bedeutungen eines Wortes erhalten Es gibt auch JWKTL, das beim Parsen und Extrahieren strukturierter Daten aus wiktionary gute Arbeit leistet. Es ist in Java geschrieben und hat Unterstützung für die englische, deutsche und russische Ausgabe. wie die anderen erwähnt haben, ist Wiktionary eine Formatierungs-Katastrophe, und wurde nicht gebaut, um computerlesbar zu sein Hinweis darauf, dass Wiktionary, Wikipedia und DBpedia sind alle verschiedene Projekte. Bitte senden Sie Feedback an die offizielle Wiktionary Mailingliste, da wir alle Extraktionsansätze von dort koordinieren:lists.wikimedia.org/ma[..] istinfo/wiktionary-l Ich denke, das Problem ist, dass sie das gleiche System wie für Wiktionary verwendet haben, das für die Benutzerfreundlichkeit durch die Editoren großartig ist, aber nicht für den viel strukturierteren Inhalt von wiktionary geeignet ist. Es ist eine Schande, denn wenn Wiktionary leicht analysiert werden könnte, wäre es eine sehr nützliche Ressource. Ich hatte einmal eine Wiktionary Dump heruntergeladen, versuchte, Wörter und Definitionen für slawische Sprachen zu sammeln. Ich näherte mich ihm mit elementtree durch die XML-Datei, die das Dump ist. Ich würde vermeiden, zu versuchen, die Website zu kratzen oder zu crawlen, und laden Sie einfach das XML-Dump herunter, das wikimedia für wiktionary bereitstellt.

Gehen Sie zu den Wikimedia-Downloads, suchen Sie nach den englischen Wiktionary-Dumps (enwiktionary) und gehen Sie zum neuesten Dump. Sie werden wahrscheinlich die Datei pages-articles.xml.bz2 benötigen, die nur der Inhalt des Artikels, keine Historie oder Kommentare ist. Analysieren Sie dies mit den XML-Verarbeitungsbibliotheken, die Sie in python bevorzugen. Ich persönlich bevorzuge elementtree. Viel Glück. Schauen Sie sich vorhandene Konfigurationen an, um loszulegen, eine vollständige Dokumentation wird in Kürze verfügbar sein. Zum Debuggen können Sie die Konfiguration auch mit einzelnen Seiten testen: MediaWiki kann Seiten im Dump-Format einfach exportieren. Setzen Sie einfach ein “Special:Export/” vor den Seitennamen. Beispiel.

Der Extraktor verwendet die Datei mit dem zuletzt geänderten Zeitstempel im Ordner “wiktionaryDump”. Nach Änderungen an der Konfiguration, versuchen und laufen in der wiktionary Verzeichnis verdreifacht für das Wort “hund” (verkürzt und mit Präfixen für eine bessere Lesbarkeit)wiktionary.dbpedia.org/resource/dog Es gibt ein globales Diagramm wiktionary.dbpedia.org/, das alle 4 Datensätze kombiniert enthält.

0