Help:Wie füge ich Daten ins FactGrid ein?

From FactGrid
Jump to navigation Jump to search

Zurück

Wo finden sich die Daten? Wie ändert man sie?

Daten finden sich im FactGrid Datenbank-Objekten, Items, zugeordnet. Ein solches Item ist etwa Q195647

Wenn man eingeloggt ist, findet man Oben rechts eine Eingabe-Aufforderung, mit der man das "Label" der Items in den verschieenen Sprachen verändern kann. Jedes Item sollte zudem eine 250 Zeichen Beschreibung haben, bei Personen mit Geburtsjahr, Sterbejahr und einer Kurzvita, so dass man sich zwischen gleichlautenden Items schnell zurechtfindet. Diese Informationen sind jedoch nicht Gegenstand der späteren Datenbanksuchen, sie dienen nur uns, die Items in verschiedenen Sprachen zu benennen und auseinanderzuhalten.

Screenshot for German Wikibase manual, first edits

Die einzelnen Aussagen werden über die Eingabeaufforderung im jeweiligen Aussageblock für Änderungen geöffnet.

Um eine neue Aussage hinzufügen, muss man sich an das Ende der ganzen Seite begeben, dort kommt die Aufforderung "Aussage hinzufügen", mit der man eine neue Aussage setzen kann:

Screenshot for German Wikibase manual, "add statement"

Ein einzelnes Datenbank-Objekt (Item) eröffnen

In der Menüleiste Links findet sich das Link in das Formular:

Mit diesem Formular wird ein beliebiges Datenbankobjekt generiert — ihm wird aufzählend eine neue Q-Nummer gegeben und zu ihm sind in den nächsten Schritten einzelne Aussagen zu machen.

Beim Anlegen sollten dem Objekt zumindest ein Label und eine Beschreibung zugewiesen werden. Varianten der Nennung können zudem notiert werden, um das Objekt bequem in der Volltextsuche zu handhaben.

  1. das "Label" kann etwa der Name einer Person sein, die mit dem Datnbankobjekt geführt werden soll, oder zu einem Dokument ein knapper jedoch eindeutiger Titel wie "Brief Johann Adam Weishaupt an Ernst II. Ludwig von Sachsen-Gotha-Altenburg, Sandersdorf, 1783-10-14"
  2. die "Beschreibung" dient vor allem dazu in Listen Überblick zu geben. Im Falle einer Person sollte der Text etwa so formuliert sein: "* 6. Februar 1748, + 18 November 1830, Professor für Recht und Kirchenrecht, Schriftsteller und Hofrat, Ingolstadt, Illuminat unter den Ordensnamen Spartacus und Scipio Aemilianus". Bei einem Dokument ist eine kurze Inhaltsangabe sinnvoll, wie sie mit der folgenden Suche in Tabellen nützlich wird die Korrespondenz Friedrich Christian Rudorfs
  3. "Alias"-Angaben sollten Namensvarianten listen.

Wenn die Software auf Englisch genutzt wird, werden die dort vergebenen Angaben in allen Sprachen eingespielt. Wenn sie in einer anderen Sprache bespielt wird, sollte im ersten Schritt ein englisches Label vergeben werden, damit Benutzer, die nicht eingeloggt sind das Datenbankobjekt angezeigt erhalten. Sie bekommen es ansonsten nur als Q-Nummer zu sehen.

Sie können im zweiten Arbeitsschritt das Label und die Beschreibung in Ihrer Sprache, Deutsch in diesem Fall, nachsetzen.

Das Datenobjekt mit einzelnen Aussagen belegen

Während in klassischen Datenbanken vorab entschieden wird, welcherart Objekte es gibt, und was zu ihnen mittels einer Eingabeschablone zu sagen ist, ist Wikibase strukturell offen. Gegenstände gewinnen einfach durch die einzelnen Aussagen, die man zu ihnen macht, Bedeutung.

Die Objekte sind dabei für die Datenbank lediglich Q-Nummern, die mit P Nummern untereinander verknüpft oder mit der Angabe eines Wertes ausgestattet (etwa einem Datum oder einer Mengeneinheit).

Es gibt (das macht die Software für Forschungsprojekte besonders interessant) keine Einschränkung dazu, was ein Datenbank-Objekt werden kann — ob eine Person, ein Dokument, ein Ort, ein Haus, ein bestimmter Gegenstand, eine Idee, ein Ereignis oder... — das FactGrid kennt keine "Kategorien", sondern ausschließlich Datenbankobjekte und Aussagen zu ihnen.

Tripel-basierte Aussagen

  • Aussagen im FactGrid geschehen in Form von Tripeln, dreiteiligen Kleinstaussagen wie
Johann Christian Bachs (Item:Q147795) Vater ist (Property:P141) Johann Sebastian Bach (Item:Q147798)

Das Q—P—Q Tripel ist dast datentechnisch interessanteste, weil hier Datenbankobjekte miteinander verknüpft werden. Das hat drei eminente Vorzüge gegenüber der Praxis herkömmlicher Datenbanken, bei denen Textfelder zu bespielen sind. Anders als beim Eintrag einer Zeichenkombination, etwa in der Aussage "Köln" als Geburtsort ist der Verweis auf Köln als Datenbankobjekt Item:Q10400

  • ein Verweis auf ein selbst komplexes Element. Mit der Buchstabenkombination "Köln" ist keine Geokoordinate und keine GND-Identifizierung verbunden, mit dem Datenbankobjekt Item:Q10400 jedoch sind alle diese Aussagen verknüpft und beliebig viele weitere, etwa zu Einwohnerzahlen zu jeweiligen Zeitpunkten, oder politischen Verortung in Herrschaftsverhältnissen im Lauf der Zeit.
  • der Verweis auf ein mehrsprachig belegtes Objekt — anglophone Leser lesen die Aussage, zu Köln als Geburtsort als eine zu "Cologne" als "place of birth".
  • der Verweis auf ein in der Datenbank Eindeutigkeit herstellendes Objekt. Wenn mehrere Orte selben Namens bestehen, wählt man den aus, den man meint, sprich, der die richtige Geokoordinate hat, im richtigen land liegt etc. Datenbanken, die auf Felder mit Buchstabenbelegungen verweisen sind an selber Stelle immens fehleranfällig, da die Eingebenden Schreibweisen ändern, sich vertippen etc.

Neben Q—P—Q Tripeln bestehen zudem Aussagemöglichkeiten, bei denen Properties (die im Tripel zentralen P-Nummern) aus eine Datumsangabe, eine Mengenangabe, eine Zeichenkette (etwa bei einem zu referenzierendem Wortlaut des Zitats), eine URL oder einen Identifikator aus einer anderen Datenbank als Eingabe verlangen. Ein alternatives Tripel kann damit auch lauten:

Johann Christian Bach (Item:Q147795) ist geboren am (Property:P77) 5. September 1735

oder

Johann Christian Bach (Item:Q147795) hat die GND-Identifikationsnummer (Property:P76) 118505521

Beim Anlegen neuer Properties muss entsprechend vorbedacht werden, welcherart Verknüpfung sie erzeugen sollen.

Man kann Aussagen beliebig komplex qualifizieren

Tripel für sich genommen wären eine vergleichsweise grobe Aussageform. Wikibase erlaibt es Tripel durch beliebige Erweiterungen zu "qualifizieren". Adam Weishaupt war zwei Mal verheiratet. Es liegt nahe die Einträge eingehender zu qualifizieren. Zur ersten Ehe ist das Tripel

Johann Adam Weishaupt (Item:Q1308) war verheiratet mit (Property:P84) Maria Afra Johanna Walburga Weishaupt (née Sausenhofer) (Item:Q23424)
— seit (Property:P49) 11. Juli 1773
— Ort des Eheschlusses (Property:P132) Eichstätt (Item:Q10340)
— Trauzeuge war (Property:P340) Anton Härtl (Item:Q97362)

Es ist bei der manuellen Eingabe solcher Aussagen nicht nötig, dass man die Q- oder P-Nummern kennt. Im Moment, in dem man in die Eingabefelder des Tripels respektive der Qualifizierenden Aussagen hineintippt, macht die Datenbank einem Vorschläge zu den Aussagen, die man vermutlich machen möchte und den Personen, die man vermutlich meint.

Man kann Aussagen komplex mit Quellenangaben belegen

Allen Aussagen lassen sich Quellenbelege in beliebiger Menge hinzufügen. Die wichtigsten Properties sind dabei:

  • Property:P51 "Primärquelle" — für das historische Dokument, dem Forschungsliteratur das Datum entnimmt oder entnehmen sollte,
  • Property:P12 "Literatur" — für den Verweis auf Forschungsliteratur zum Objekt (hier lassen sich mit Qualifiern Seitenangeben hinzusetzen),
  • Property:P129 "Behauptung laut" — um Distanz gegenüber der (zweifelhaften) Aussage aufzubauen.

Einander widersprechende Aussagen sind möglich und wertvoll

Wikibase Instanzen lassen es zu, dass zu Objekten mehrere einander wiedersprechende Aussagen getätigt werden können. Das ist kein Mangel, sondern sinnvoll, etwa sobald zu einer Frage wie dem Geburtsdatum mehrere einander widersprechende Dokumente Aussagen machen.

  • Man kann diese Antworten nebeneinander stehen lassen und mit ihren unterschiedlichen Quellen belegen; sie erscheinen dann in Suchen nacheinander.
  • Man kann die konfligierenden Aussagen einzeln bewerten, indem man jede Aussagen mit Property:P155 "Wie sicher ist das" qualifiziert. Zu dieser Property steht eine breite Palette vorstrukturierter Behauptungen bereit.
  • Man kann jedoch auch dafür sorgen, das falsche Angaben nicht länger in Suchen erscheinen. Dazu setzt man vor dem Abspeichern des Statements die Markierungen zu Beginn des Eingabefeldes entsprechend herab oder herauf. Als überholt abqualifizierte Aussagen bleiben in der Datenbank erhalten, wo sie nützlich sind, um Rückfällen in den prekären Informationsstand vorzubeugen, sie tauchen jedoch von nun an nicht mehr in Suchabfragen auf.

Das "Directory of Properties" listet die aktuell zur Auswahl stehenden Aussagetypen

Alle Aussagen, die sich mit dem FactGrid derzeit tätigen lassen, sind im FactGrid:Property-Verzeichnis einmal in einer Gesamtliste notiert oder unter Einzelfragen übersichtlich angeordnet, sie werden in derselben verwaltet und mit Aussagen einzeln belegt.

In der linken Spalte erscheinen die Aussagen danach geordnet, wo man sie machen will — etwa in einer Biographie oder in einem Datenbankobjekt zu einem Dokument.

In der rechten Spalte sind sie nach der anvisierten Referenz geordnet — so kann man zu einem Menschen (like Spalte) eine Aussage machen wollen, in welcher Organisation (rechte Spalte) er Mitglied war.

Wikibase ist, was die Datenbank-Modellierung anbetrifft extrem offen gestaltet. Es ist kein Q denkbar, zu dem sich nicht Aussagen machen ließen — in dem Moment, in dem sich Aussagen zu einer Sache machen lassen, lässt sich für sie ein Q einrichten. Sie Aussagen selbst sind für die Datenbank lediglich P-Nummern, die je nach Interesse mit Text belegt werden und zu denen sich nun ihrerseits wieder Aussagen machen lassen.

Es lassen sich beliebige neue Aussagetypen einrichten

Die Einrichtung einer neuen Aussage ist nicht ganz unkritisch:

  • Besteht diese Aussage nicht vielleicht schon?
  • Wäre es nicht besser eine bereits bestehende Aussage hier erweitert zu nutzen, um die Ergebnisse von Suchanfragen zusammenzuhalten?
  • Ist die neue Aussage von der Datenmodellierung her sinnvoll? (Eine Organisation mag etwa einen "Generalissimus" in ihrem Hierarchiegefüge aufweisen, doch ist eine diesbezügliche Property nicht sonderlich praktisch, da sie voraussetzt, dass Suchende bereits wissen, nach welcherart Positionen sie bei der jeweiligen Organisation auf der Suche nach den Führungspersönlichkeiten fragen müssen. Sinnvoller ist da eine Property, die nach den Personen in führender Stellung bei einer Organisation fragt, und die verwendung von Qualifiern, mit denen ausgewiesen wird, in welchen Position sich die genannten Personen befanden.

Wir sind mit dem FactGrid-Projekt daran interessiert, Forschungsprojekten möglichst große Freiheiten in den jeweiligen Fragestellungen zu geben, Properties werden darum bislang ohne große Hürden der Abstimmung eingerichtet. Wir drängen jedoch, um technische Fehlgriffe zu vermeiden und um die Datenbank transparent zu nutzen, auf einen kurzen Diskussionsprozess auf der Seite

Wenn Sie dessen ungeachtet — unter Druck des Projektes — Properties selbst generieren, achten Sie darauf, dass Sie vorausschauend erfassen, welcherart Aussagen Sie machen wollen, sprich: ob Sie auf eine Q-Nummer (Datenbank-Objekt), auf eine P-Nummer (eine Property oder Eigenschaft) auf ein Datum, eine URL oder eine Datenbank-ID verweisen wollen. Einmal gesetzte Properties sind in ihren Voraussetzungen danach fixiert und nehmen keine andersartigen Werte mehr an. Die Abstimmung mit Personen, die bereits Properties im FactGrid einrichteten, empfiehlt sich.

Das FactGrid ist beliebig mehrsprachig (soweit man es ihm beibringt)

Um Datenbank-Objekte oder Aussagetypen mit einer anderen Sprache zu belegen muss man sich in dieser Sprache einloggen; das geschieht in den "Preferences", den Benutzereinstellungen, oben rechts neben den Links in die eigenen Benutzerseiten.

Im "Default", das heißt ohne weitere Voreinstellung, erscheinen auf allen Labels die englischsprachigen Setzungen. Im Interesse nicht angemeldeter Nutzer ist es von daher, dass alle Q-Nummern und alle P-Nummern nebenbei auch Englisch belegt sind.

Wir ermuntern jedoch alle Teilnehmer in ihren Muttersprachen Daten einzugeben und dabei die Datenbank sukzessive mehrsprachig zu machen. Zur Zeit spricht sie drei Sprachen umfassend: Englisch, Deutsch und Französisch.

Die Masseneingabe von Daten über QuickStatements

Liegen bereits Daten in einem Spreadsheet, ob Excel oder Google, oder in einer CSV (Komma-separierten) Tabelle vor, so lassen sich diese auch in Serie eingeben. Das dazu benutzte Tool, QuickStatements, ist in der Menüführung links verlinkt.

Datenvorbereitung

Anders als bei der Eingabe oder Korrektur einzelner Angaben, macht nun die Datenbank jedoch keine Eingabevorschläge mehr. Der Geburtsort von Johann Sebastian Bach ist Eisenach, der Geburtsort von Johann Christian Bach ist Leipzig... und diese Angaben müssen nun alle mit den entsprechenden Q- und P-Nummern erfolgen. So sieht die vorbereitete Eingabe von einer Tabelle in Excel aus:

Q147798 P82 Q10341
Q147795 P82 Q10408

Die Recherche der Q- und P- Nummern ist ein nicht zu unterschätzender Aufwand. Vor Eingabebeginn muss eruiert sein, ob die entsprechenden Objekte, zu denen Aussagen gemacht werden sollen, schon bestehen — man würde andernfalls Doubletten anlegen und verhindern, dass sich in der Datenbank vorhandene Informationen aggregieren.

In einem ersten Arbeitsschritt ist mithin die Datenbank nach allen bekannten Personen zu befragen. Mit deren Q-Nummern ist die Neueingabe abzugleichen. In einem zweiten Arbeitsschritt sind im Beispiel alle Orten aus dem FactGrid zu ziehen und mit den einzugebenden auf bereits bestehende Nummern hin abzugleichen. Wo die Objekte fehlen, müssen sie angelegt werden (auch das geht seriell, kostet jedoch ebenfalls Zeit).

Hierzu gibt es praktische Optionen, wie man etwa über den Befehl SVerweis Kalkulations-Programm Spalten mit herausgesuchten Werten verbindet. Der professionellere Weg ist die Nutzung von Open-Refine zum Datenbankabgleich. Hier liegt zur Zeit ein Entwicklungsdefizit im FactGrid, als Wikidata-externer Ressource.

Vorbereitung verlangen nicht minder die Anpassung von Kalenderdaten. Hier müssen exakte Eingabekonventionen bedacht sein.

Nicht zu unterschätzen ist schließlich die erforderliche Eingabetiefe: Muss man bei einer Liste mit Angaben von Geburtsorten einen neuen Ort generieren, so muss man diesen mit Einzelaussagen bestücken: Labels, kurzen Beschreibungen, der Aussage, dass es sich um enen Ort handelt, der Geokoordinate — der Ort erscheint ansonsten nicht auf der Landkarte, mit der man die gesamte Eingabe am Ende visualisieren will. (Es ist dies ein Arbeitsaufwand, der im Blick auf Datenbanken, die nur mit Textfeldern arbeiten, bei der Vorabkalkulation des Arbeitsaufwands schnell übersehen wird).

Die genauen Anweisung für die Umformungen von Informationen im Vorfeld der Masseneingabe finden sich auf dieser Hilfe-Seite des Wikidata-Projektes laufend aktualisiert:

https://www.wikidata.org/wiki/Help:QuickStatements

Vorbereitete Batch-Fragmente nutzen für das standardisierte Anlegen einzelner Datenbankobjekte

In der Tagesarbeit mit der Datenbank, bei der jeweils nur einzelne neue Datenbankobjekte angelegt werden sollen, haben sich Batch-Fragmente als praktisch erwiesen, in denen man Arbeitsroutinen laufen lässt. Eine sehr einfache Stapeldatei dieser Art ist diese zum Anlegen eines Nachnamens in drei Sprachen

qid,Lde,Len,Lfr,Dde,Den,Dfr,P2
,"#","#","#","Familienname","family name","nom de famille",Q24499

Man setzt das gesamte Fragment mit copy & paste in QuickStatements ab, ersetzt im vorliegenden Fall alle #-Zeichen durch den Nachnamen, zu dem bislang eine Q-Nummer fehlt, und schickt dann den Eingabebefehl als CSV-Eingabe ab. Vor der eigentlichen Verarbeitung gibt QuickStatements eine Aufstellung der Arbeitsschritte, die das Programm durchführen wird. Man generiert mit dem Absenden nun entschieden schneller den neuen Namen in den gewünschten Sprachen.

Eine Aufstellung beliebter Fragmente findet sich unter dem Link "Batch fragments" in der Menüführung links. Komplexere Arbeitsroutinen kann man sich zugeschnitten auf das eigene Projekt mit beliebige vielen Aussagen zusammenstellen, die man nicht laufend einzeln machen möchte.

Internet-Demonstrationen zur Nutzung von QuickStatements

Es finden sich auf Youtube mehrere Videos dazu, wie man QuickStatements in der Eingabe vorbereiteter Tabelleninformation benutzt. Diese machen das Procedere mit ihren Bildschirmdemonstrationen klarer als es umständliche Fließtext-beschreibungen können. Zu allen Detailfragen bietet zudem die Wikidata-Hilfe extrem detaillierte Ausführungen.