Help:Daten aus einem Tabellenblatt in FactGrid eingeben

From FactGrid
Jump to navigation Jump to search

Projekte wenden sich in der Regel mit Daten an uns, die sie eingeben wollen. Die meisten Projekte haben diese Daten auf Excel-Blättern, sehr vereinzelt waren es Access-Datenbanken. Noch seltener andere Ressourcen.

Als kluger Weg in die Dateneingabe hat sich der Weg über Google-Spreadsheets erwiesen. Diese sind von verschiedenen Seiten aus Handhabbar und damit bequem geeignet um am Bildschirm online besprochen zu werden.

Man kann mit ihnen zudem leicht in die Eingabe-Formate gelangen, die QuickStatements der Wikibase-Eingabeservice erwartet.

Auf dieser Seite gebe ich eine knappe Anleitung, wie ich solche Datenblätter mit jeweiligen Projektmitarbeitern umforme und Eingabefertig mache.

Die technischen Spezifikationen, wie in QuickStatements Daten erwartet finden sich hier:

https://www.wikidata.org/wiki/Help:QuickStatements/de

Für die folgenden Einblicke wählte ich ein Projekt User:Heino Richards: Die Daten einer 1929 veröffentlichten Liste der Schülerliste des katholischen Gymnasiums Heiligenstadt.[1]. Das Datenblatt, das Heino Richard Ende 1922 vorbereitete, zeigt, dass er bereits geschult war in den Anforderungen, die sich stellten (so sind hier die Vornamen bereits auseinandergenommen, genauso wie er vermied multiple Angaben etwa von Orten in eine Zelle zu bringen. Dennoch zeigen sich auch hier typische Inkonsistenzen, die Projekten im Verlauf Arbeit machen.

Das folgende Google Datenblatt bietet auf der ersten Seite die Daten weitgehend so, wie sie vorgelegt wurden. Für einzelne Arbeitsschritte legte ich zur Demonstration einzelne Seiten an, die hier Arbeitsprozesse nachvollziehbar machen:

https://docs.google.com/spreadsheets/d/1ASPscc70wyNW66-MVhr86ib9lR0zIJIuBcb16eQWclY/edit#gid=1040247030

Gemeinsames Datenblatt herstellen

  1. Anlegen eines Google Spreadsheets mit den Projektdaten. Google ist mehrsprachig, ich wähle die englische Version, da im Netz hier mehr Hilfe zu erwarten ist. Einzelne Befehle sind auf Deutsch anders zu formulieren - etwa Sverweis, das deutsche Äquivalent von Vlookup. Damit das Blatt von verschiedenen Seiten aus bearbeitet werden kann, muss es freigegeben werden (im Musterfall bleibt diese Bearbeitbarkeit eingeschränkt, um den stabilen weiteren Bezug zu erlauben).
  2. Ich setze dem Originalblatt im ersten Schritt stets zwei Spalten voran und färbe die stets gleich ein, das gibt sofortige Orientierung in Hunderten von Arbeitsblättern.
  3. Spalte A, weinrot, versehe ich mit einer durchlaufenden Nummerierung (A2=A1+1 etc., Werte nach Herstellung fixieren). Über die rote Spalte lässt sich im Verlauf nach beliebigen Sortierungen immer wieder auf die Originalsortierung zurückkommen. Das ist wichtig, da viele Projekte eine ihnen vorliegende Quelle exakt in der Reihenfolge der Einträge abbilden, und mit dieser Reihenfolge sich schneller in der Ausgangslage orientieren können. Zu Sortierung der Quelle lässt sich nun jederzeit wieder zurückkommen. Über die Nummerierung lassen sich nun auch zwischen Datenblättern "Vlookup-Abgleiche" durchführen, zu ihnen später.
  4. Die zweite Spalte ist erst einmal leer, ich färbe sie im Standard blau ein und betitele sie mit den "qid". Sie wird die Stammpalte, von der alle Datentripel im folgenden generiert werden. Leer ist sie, da die Objekte noch keine Q-Nummern haben.
  5. Vom Ausgangs-Datenblatt mache ich eine Kopie (das Kontext-Menü des Tabs unten auf der Seite macht das leicht). Die Kopie nenne ich Eingabe-Blatt. Von hier aus erfolgen alle weiteren Eingaben, hier auch finden Korrekturen statt. Das Verfahren ermöglicht es jederzeit zu kontrollieren, womit das Projekt begann. Die Nummerierung erlaubt es jederzeit Abgleiche vorzunehmen.

Im vorliegenden Beispiel ist dies die "Eingabe-Seite":

https://docs.google.com/spreadsheets/d/1ASPscc70wyNW66-MVhr86ib9lR0zIJIuBcb16eQWclY/edit#gid=158953953

Vorbereitende Checks

Datenblätter sehe ich mir kursorisch vor der ersten Besprechung an. Zentrale Fragen sind dabei:

  1. Gibt es hier ausgiebige Textzellen? Wenn ja füge ich im Eingabeblatt neben diesen Spalten ein und erfasse mit =len wie viele Zeichen sich in der jeweils nebenliegenden Zelle befinden. Texteingaben haben in Labels und Descriptions ein 250-Zeichen- und in Zellen mit Textformat (wie etwa im Notiz-Feld, das man anlegen kann) ein 1500-Zeichen Limit.
  2. In einem langsamen Durchlauf von oben nach unten überprüfe ich, ob es in Zellen der vorgelegten Tabelle versteckte Zeilenbrüche gibt - mitunter legen Projekte kleine Aufzählungen in Zellen an, die bei der Dateneingabe später Befehlsunklarheiten erzeugen. Jede Zeile sollte eine die Höhe nur einer Zeile aufweisen.
  3. Manche Spalten verführen Projekte dazu, mehrere Angaben in eine einzelne Zelle zu setzen - etwa wenn es eine Wohnort-Spalte gibt und Personen sukzessive an mehreren Orten lebten, und sich nun Angaben wie "Köln, ab 1910 München" in Zellen finden. (In diesem Fall bräuchten wir am Ende drei Spalten, eine für Köln als ersten Wohnort, eine für München als zweiten und eine P49 Spalte für den Beginn 1910.) In solchen Fällen müssen Projekte nacharbeiten und der Arbeitsaufwand kann erheblich werden.
  4. Tückisch sind auch Datumsangaben. Sie sind selten standardisiert, oft gibt es Fragezeichen, oder ein "ca." , das in eine eigene Spalte zur Sicherheit der Angabe gehört.

Die Spalten verstehen

Die Tabelle, die Heino Richard vorlegte ([https://docs.google.com/spreadsheets/d/1ASPscc70wyNW66-MVhr86ib9lR0zIJIuBcb16eQWclY/edit#gid=1040247030 dieses Tabellenblatt), kam bereits mit einiger Vorerfahrung zustande.

  • Spalte A bietet den Nachnamen.
  • Die Spalten E-G bieten die Vornamen von 1 bis 3 isoliert an.
  • Spalte H das Geburtsjahr.
  • Spalte I den Geburtsort.
  • In den Spalten J und K ist erfasst von wann bis wann der Schüler die Schule besuchte.
  • Spalte L notiert Studienunterbrechungen.
  • Die Spalten M-P haben bereits alle multiplen Berufsangaben aufgeteilt.
  • Die Spalten Q-S tun dasselbe mit bis zu drei Wohnortangaben.
  • Spalte T notiert das Sterbedatum.
  • Spalte den Sterbeort.
  • Spalte V erfasst zuweilen eine Angabe zur Todesursache, davon scheint die Schule vor allem bei Kriegsgefallenen Informationen erhalten zu haben.
  • Spalte W bietet diesbezügliche Details - zumeist zu Ort.

Haben einzugebende Personen bereits Einträge in der Datenbank?

Projekte sollten es vermeiden, Datenbankobjekte anzulegen, die bereits bestehen - in diesem Fall ist der Reiz ja gerade die Anreicherung von Information.

Um zu erfassen, was bereits in der Datenbank an Objekten vorliegt gibt es zwei grundlegende Möglichkeiten. Den Abgleich mit OpenRefine - einem externen Programm, das ein eigenes Tutorial verdientun d das erst installiert und nit dem eigenen Datenblatt wie der FactGrid Ressource synchronisiert werden muss - dann jedoch extrem machtvoll ist.

Alternativ ist sind Datenvergleich im Spreadsheet möglich, indem man sich aus der Datenbank Auszüge von Information holt und mittels VLookup, "Vertical lookup" Informationen zwischen Spalten vergleicht - dazu mehr im Verlauf.

Der vorliegende Fall gestaltete sich übersichtlich: Wir konnten davon ausgehen, dass kaum ein Schüler bereits in der Datenbank notiert war. Die Basisabfrage

machte es einfach, die zwei Personen zu erfassen, die mit dem Ort bereits verbunden waren und beide waren Treffer: Item:Q101778 und Item:Q396051). Wir überprüften zudem separat unter den Heiligenstadt-Schülern Gotha-Bezüge, da Gothaer Bevölkerung umfassend erfasst war. Item:Q156903 erwies sich als dritter Treffer. Alle anderen Personen waren absehbar Neulinge, so die angenehme Ausgangslage der Schule, die nicht in die bisherigen Netzwerke passte.

Bei den drei Personen, die bereits bekannt waren fügte ich deren Q-Nummern manuell in die blauen Spalten der Original-Liste und des Eingabeblattes ein.

Items anlegen

Bei der Anlage der einzelnen Datenbankobjekte benötigen diese mindestens "Label" auf Englisch und in der jeweiligen Projektsprache. Praktisch ist es, ihnen im selben Zug einige Basisdaten zuzuweisen, die es ermöglichen, die Ausgangstabelle in der Datenbank zu replizieren. In diesem Fall werden wir notieren, dass all dies Menschen waren, die das Heiligenstädter Gymnasium besuchten - sie alle lassen sich im Anschuss mit dieser Suche wieder aus der Datenbank holen.

Das "Label", das FactGrid-Projekte im Standard, den wir an dieser Stelle mit Wikidata teilen, beginnt mit den Vornamen gefolgt vom Nachnamen:

Erika Maria Mustermann

Die Personenanlage führte ich im eigenen eigenen Datenblatt durch:

https://docs.google.com/spreadsheets/d/1ASPscc70wyNW66-MVhr86ib9lR0zIJIuBcb16eQWclY/edit#gid=444879751

  1. im vorliegenden Fall, brachte ich dazu die Namensspalten D-G der Arbeitsseite in die passende Reihenfolge Vornamen+Nachname, ich befüllte zudem die Felder wo kein erster Vorname vorlag mit einem provisorischen N.N.-Eintrag. Word ist ein bequemes Werkzeug, um Formatierungszeichen wie Tabstops gezielt auszuwechseln. Ich ersetzte in Word die Tabstops durch jeweils eine Leerstelle, und alle doppelten Leerstellen durch einfache. Beim Rückweg von Word und ins Google-Spreadsheet ist Strg+Shift+Leertaste eine praktische Google Tastenkombination, um Daten "Values only" in das Datenblatt zurück zu gelangen.
  2. Die deutschen Label (Lde) finden sich im Blatt "Personen-Anlage in Spalte C, in den Spalten D-F gab ich dieselben Angaben für englische, französische und spanische Namenanzeigen.
  3. Die Beschreibungsfelder Dde, Den, Dfr, Des hob ich in der vorliegenden Eingabe für das Ende auf - bei ihnen stellt die Datenbank am Ende die Angaben in vier Sprachversionen zur Verfügung.
  4. Bei der Auswahl der Spalten G bis #, war das entscheidende Kriterium, dass sich die Angaben jeweils vollständig für die gesamte Spalte durchziehen ließen.
  5. Spalte G: Alle Personen dieses Sets sind Menschen - die Aussagen dazu P2 (ist ein) kommt in Zeile 1, der Wert Q7 in die Spalte G hinab bis Zeile 5429.
  6. Spalte H bietet durchgehend die Aussage P154 — Q18, Geschlecht männlich für das gesamte Set.
  7. Alle besuchten, Spalte I, das Gymnasium Heiligenstadt (P160 — Q458481)
  8. Alle sind, Spalte J, in derselben Quelle gelistet P124 — Q459499
  9. Alle sind, Spalte K, Teil desselben Forschungsprojekte: P131 — Q459500

Alle anderen Spalten wiesen im vorliegenden Fall Lücken auf oder forderten Umformungs- und Abgleiche ein, sie kamen auf die Warteliste.

Anfertigen einer CSV Datei für die Eingabe

Bei der Objektanlage führt der kürzeste Weg über eine CSV-Datei, die sich am besten über Notepad (oder Word) als Zwischenmedium erzeugen lässt. Man kann zwar auch Excel- und Google-Tabellen als CSV-Dateien abspeichern, doch bekommt man dabei Probleme mit Anführungszeichen, die gesetzt werden, wo man sie eventuell gar nicht haben will.

  1. In der vorliegenden Eingabe benötigen wir jeweils einfache Anführungszeichen um die Label (in Google herzustellen mit dem Wechselbefehlt Strg+H und den Wechselparametern ^ zu " und $ zu " um den jeweiligen Zellen-Anfang und das jeweilige Zellenende anzugehen, dabei "Search using regular expressions" anklicken)
  2. Die Spalten B bis J im Blatt [Personen-Anlage markieren] und copy+paste in Notepad überführen, dort die Tabulatoren durch Kommata ersetzen. Das Ergebnis ist die CSV-Datei, die hier im eigenen CSV-Datenblatt in Spalte A abgelegt ist. Die erste Zeile gibt die Verlinkungen vor, die die erzeugt werden. Fast alle Zeilen beginnen mit einem Komma - hier wird QuickStatements en Befehl geben eine neue Q-Nummer zu bauen. In drei Fällen bestehen bereits Q-Nummern. Hier werden lediglich neue Angaben hinzugesetzt: Zum Schulbesuch in Heiligestadt, zur Listung in der Schülerliste von 1929 und zu Heino Richards Forschungsprojekt.

Import der CSV-Datei mit QuickStatements

In der Regel lasse ich Projekte die CSV-Datei selbst in die Datenbank importieren, das verbindet sie automatisch mit der Beobachtungsliste auf Seite der Person, die die Eingaben vornimmt.

  1. Das Eingabetool QuickStatements vom Menü aus aufrufen und bei der Erstbenutzung mit dem eigenen Konto durch "einloggen" oben rechts verbinden.
  2. O-Auth für die Authentifizierung zulassen, damit das Tool im eigenen Namen Eingaben machen kann
  3. New Batch anklicken um das Eingabefenster zu öffnen.
  4. Im Eingabefenster copy+paste die CSV-Datei einfügen
  5. "Import CSV-Datei drücken und sich die Voransicht ansehen
  6. "Im Hintergrund ausführen" respektive "Run in Background drücken"
  7. Nach den ersten Angaben die Eingabe kurz anhalten und in Recent Changes angelegte Datenbankobjekte ansehen
  8. Wenn die Eingabe den Erwartungen entspricht, dann die weitere Eingabe laufen lassen - ein grüner Balken zeigt den Fortschritt an. Fehler werden rot markiert. Bei massenweisen Fehlern stoppen und nachsehen, was hier genau schief läuft.

Die neu gewonnenen Q-Nummern aus der Datenbank in das Spreadsheet bringen

  1. Im vorliegenden Fall gab es bereits drei Personen, die schon angelegt waren. Mit der Sortierung des Eingabeblatts nach der Spalte B, qid, bekam ich diese an den Anfang der Liste.
  2. Mit der Query-Service Datenbankabfrage aller Personen, die das Heiligenstädter Gymnasium besuchten, erhielt ich deren Liste nach Q-Nummern geordnet aus der Datenbank zurück. Als TSV-Date heruntergeladen legte ich diese Liste auf die Spalten Y und Z ab, und konnte von hier aus durch einfache Parallelsetzung aus der Spalte Y die Q-Nummern für die Spalte B beziehen, wie die das FactGrid bei der Eingabe vergeben hatte.

Datumsangaben

Das Zielformat Format für Datumsangaben findet sich hier erklärt:

  • Runde Jahre wie 1813 müssen zu +1813-00-00T00:00:00Z/9 umgeformt werden.
  • Sind Monatsangaben bekannt muss die Genauigkeitsangabe hinter dem Schrägstrich verändert werden: Juni 1813 heißt in der Eingabe +1813-06-00T00:00:00Z/10.
  • Tagesgenaue Angaben lauten +1813-06-12T00:00:00Z/11
  • Angaben im Julianischen Kalender, der in protestantischen Gebieten bis in das Jahr 1700 genutzt wurde, benötigen ein zusätzliches /J am Ende: 1693-11-23T00:00:00Z/11/J

Die Geburtsjahre befinden sich im Eingabeblatt] in der Spalte H. Ich legte für den Datenimport ein eigenes Blatt an, dass nur die Spalten A, B, und H (jetzt C) aufwies, das Blatt

Bei der Durchsicht fielen Inkonsistenzen auf.

  1. In zehn Zellen befinden sich Zusätze wie cc, ca. Fragezeichen
  2. In manchen Zellen findet sich nur ein Fragezeichen
  3. Manche Zellen waren offensichtlich irrig befüllt "19111891" oder 1928 (der Schüler wäre bei der Publikation ein Jahr alt gewesen). Die Quelle der Dateneingabe hatte sich großflächig bei den Jahren jeweils auf die letzten beiden Stellen beschränkt und Fehllesungen nahegelegt.
  4. Spalte D bietet die Daten korrigiert und bereinigt
  5. Spalte E bietet die Kommentare isoliert
  6. Mit Spalte H beginnt die Formulierung für die Dateneingabe nun im "Version1"-Format, das die Datentripel einzeln mit ihren Qualifikatoren ausformuliert, mit der Q-Nummer
  7. Spalte I ist durchweg mit P77 gefüllt: zu allen Q-Nummern soll das Geburtsjahr genannt werden. Das Directory of Properties verrät die Property-Nummer.
  8. In Spalte J finden sich die Geburtsjahre eingabefertig im QuickStatements-Format,, wobei die Einträge provisorisch mit einem § beginnen. Im Google Spreadsheet führt die Eröffnung mit einem + sofort zu Fehlermeldungen.
  9. Spalte K notiert dort, wo Zusatzangaben fällig wurden P155, die "Wie sicher ist das?" Property
  10. Spalte L bietet die Q-werte für "circa" (Q10) und "fraglich" (Q160240)
  11. Für die Dateneingabe kopiere ich die Spalten H-L in ein Notepad-Blatt, in diesem tausche ich die § gegen + Zeichen aus
  12. Die Liste lässt sich nun in Quickstatements eingeben und dort als "Version1" Eingabe wieder "im Hintergrund" laufend abarbeiten.

Namen und wie man Vlookup zum Datenabgleich einsetzt

Sowohl die Vor- wie die Nachnamen sind im FactGrid (wie in Wikidata) eigene Datenbankobjekte. Das hat den Vorteil, dass man nun zu diesen Objekten selbst weitere Aussagen machen kann. Bei Vornamen ist etwa mit der Property:P626 das Geschlecht vermerkt, wenn es bei diesem Namen eine reguläre Geschlechtsspezifikation gibt. Bei Vornamen wie Auguste, im französischen ein Männername, steht hier die Information, dass keine eindeutige Zuweisung möglich ist. Wenn ein Projekt das Geschlecht seiner Personen nicht notierte, kann es mithin über die Namen zur fehlenden Information gelangen.

Damit, dass die Namen nicht einfacher Text-Input sind, wird nun jedoch eine Objektzuweisung nötig. Eine Person heißt "Karl" - was aber ist das Datenbankobjekt zu diesem Namen? — Item:Q31918 und wie weist man diese Q-Nummer in der Datenbank der Q-Nummer der Person zu?

Für einen Spaltenvergleich mit Vlookup, müssen die Vornamen in die Liste mit den Namen gebracht werden, damit im Datenblatt die Zuweisung erfolgen kann. Hier nur an den Vornamen erklärt:

  1. Ein eigenes Blatt für die Vornamen anlegen
  2. Das "Eingabe"-Blatt nach dem ersten Vornamen sortieren.
  3. Aus dem Eingabeblatt die Spalte B mit den Q-Nummern der Personen ins Vornamen-Blatt kopieren
  4. Aus dem Eingabeblatt die Spalte D mit dem ersten Vornamen ins Vornamen-Blatt in die dortige Spalte B bringen
  5. In Spalte C für alle diese Namen eine 1 notieren
  6. Das Eingabeblatt nach Spalte E sortieren, um die zweiten Vornamen zusammenzuziehen
  7. Die zweiten Vornamen und die ihnen zugehörigen Personen-Nummern unten im Vornamen-Blatt ansetzen und mit der Nummer 2 in Spalte C ausstatten
  8. Ebenso die dritten Vornamen mit den Q-Nummern der Personen einfügen und in der Spalte C als dritte Namen kennzeichnen

Das Vornamen-Blatt bietet nach dieser Prozedur alle Personen (über ihre Q-Nummern vertreten), in Spalte B ihre Vornamen und in Spalte C die Ziffer, die den Namen sortiert.

Für den Abgleich mit der Datenbank muss nun von dort die Liste aller Vornamen importiert werden. Danach lassen sich aus dieser Liste die Q-Nummern der Namen beziehen. Die folgende Suche holt aus der Datenbank alle Vornamen:

Mit dem TSV download erhält man die beiden Spalten, die man nun in der Tabelle mit den Vornamen einsetzen kann. Ich löschte noch im Notepad die Linkverbindung "https://database.factgrid.de/entity/" um allein die Q-Nummern mit den Namen zu importieren, und setzte die beiden Spalten in den Spalten I/J im Vornamen-Blatt ab.

Die Namensspalte B kopieren und in E absetzen, da im nächsten Schritt die Spalte B mit den Q-Nummern gefüllt werden soll. Im Feld B2 den fügte ich den folgenden Befehl für den Spaltenvergleich ein

=VLOOKUP(E2,$I:$J,2,FALSE)

Der Befehl birgt die Aufforderung in der Zelle E2 nach dem Namen der Person zu sehen und dann in der Spalte I den entsprechenden Namen zu suchen und die Q-Nummer dieses Namens aus J auszulesen und hier einzuspielen.

  1. Um zu erfassen, wo die Namenszuweisung nicht klappte, sortiere ich das Blatt zuerst nach Spalte E, und dann nach Spalte B. Nach diesem Manöver finden sich alle nicht aufgelösten Namen am Ende mit #N/A Vermerken und in der Spalte E die Namen, die die Probleme bereiteten.

Ich lasse das Datenblatt in genau diesem Zustand, da es eine reihe von Problemen offenbart.

  • Zeile 5467 "?" statt Name, mit N.N. austauschen
  • Zeile 5468 "A" statt Name — hier hätte der Abgleich ein "A." erwartet
  • Zeile 5469 "Adam" wird nicht erkannt, da in der Zelle "Adam " steht, hier müssen in einem Wechselbefehl alle Leerstellen am Zellenende entfernt werden, danach werden Dutzende von Zuordnungen plötzlich möglich
  • Zeile 5472 "Alnert" wo Albert stehen sollte - in Fällen wie diesen muss manuell korrigiert werden
  • In den Zeilen 5511 bis 5556 wurde "Fred" nicht erkannt. Der Abgleich mit der Originalpublikation ergibt dass hier überall "Ferd." für "Ferdinand" stand, was verbessert erkannt wird.
  • Zeile 5578 bietet zwei Namen in einer Zelle, hier muss Name 1 und 2 getrennt werden
  • Zeile 5538 macht "später gen. Graf von Breza" zum 2. Vornamen und ist aufzulösen in Graf ans sozialer Rang und von Breza als Nachname.
  • Zeile 5627 "Ordenberg" ist ein Nachname
  • Zeile 5628 ist bei "Otto." irrtümlich ein Punkt hinzugekommen

Wenn Namen noch nicht bestehen, müssen diese angelegt und zugewiesen werden

qid,Len,Lde,Lfr,Les,Den,Dde,Dfr,Des,P2,P625
,"Emil","Emil","Emil","Emil","given name","Vorname","prénom","nombre de pila",Q31776,Q18
,"Emilie","Emilie","Emilie","Emilie","given name","Vorname","prénom","nombre de pila",Q31776,Q17

Mit den Q18 (männlich) und Q17 (weiblich)-Aussagen am Schluss notieret man das Geschlecht, das Personen dieses Namens regulär aufweisen.

Da ich die Liste mit den scheiternden Zuweisungen erhalten möchte, geben ich in einem eigenen Tabellenblatt Vornamen Eingabe 29 Zeile der Eingabe, die am Ende zusammenzufügen war. Hierzu sortierte ich nach Spalte E, um die korrekte Namensfolge in der Eingabe zu erhalten.

Geburtsorte

Technisch sind die Probleme dieselben, wie bei der Zuweisung von Namen: Es muss ein "gemeines" Q-Datenbankobjekt gefunden werden, wo bislang ein Texteingabefeld einen Ortsnamen notiert.

Der Übersichtlichkeit halber führte ich jetzt nicht mehr die Arbeitsschritte einzeln auf. Das Tabellenblatt Geburtsorte bietet in Spalte

  • A die Personen-ID,
  • B die zu Beziehung P82 zum Geburtsort
  • C einen Vertical Lookup-Befehl der in Spalte F den dort angegebenen Geburtsort ausliest und dann den Spaltenvergleich durchführt. Findet ein Ort dieses Namens sich in I, bezieht die Formel aus K dessen Q-Nummer.
  • D die Beschreibung zum vorgeschlagenen Ort
  • F die Ortsangaben aus dem Eingabeblatt nach alphabetisch geordnet (hier nur die Buchstaben A und B)
  • I Alle Namen deutscher Orte aus dem FactGrid
  • J die Beschreibungsinformation zu diesen Orten
  • K die Q-Nummern der Orte

Die eingespielten Orte stammen aus dieser Suche.

Ich sortiere die Liste für die Dokumentation nach C, um zu zeigen, wo Handharbeit nötig wurde:

  • Zeile 628 steht "Achtum (Hann)", wo "Achtum-Uppen" erwartet wurde
  • Zeile 629 steht "Adelborn", statt "Adelsborn"
  • Zeile 630 notiert "Albrechtshof" ohne dass bislang klarer ist, was gemeint ist
  • Zeile 631 "Aliendorf" statt "Allendorf"
  • etc.

Da der Datensatz mit Ortskenntnis des Lokalhistorikers zustande kam, ordnete dieser die unklaren Orte manuell zu. Am Ende blieben Orte übrig, die ihn ratlos stimmten. Das Datenblatt [https://docs.google.com/spreadsheets/d/1ASPscc70wyNW66-MVhr86ib9lR0zIJIuBcb16eQWclY/edit#gid=772396461 unklare Geburtsorte bietet die provisorische Eingabe, die einen Platzhalter und das nicht aufgelöste Literal einfügte.

  • Zeile 665 "Beitenworbis" statt "Breitenworbis"

Berufsangaben

Die Zuweisung von Berufsangaben ist ein notorisch komplexes Feld. Zum einen unterliegen die Angaben einem massiven Wandel, zum anderen erfolgen sie weitgehend ohne Standardisierung. Im vorliegende Fall gibt es "veröffentlichte 53 Gedichte" oder "Drogerie" (neben Drogist), es gibt Abkürzungen, Angaben, die sich eher auf das Studienfach beziehen, Angaben zum akademischen Abschluss und so fort.

Im Tabellenblatt Berufe nahm ich eine grobe Trennung der Angaben vor und korrigierte summarisch in der Spalte C.

Aus arbeitsökonomischen Gründen nahm ich danach eine Zuweisung von Berufsangaben mit VLOOKUP vor. 2931 von 3181 Angaben ließen sich damit automatisch zuordnen. Das ist eine vergleichsweise geringe Rate. Wir arbeiten derzeit an der Integration von Katrin Moellers System historischer Berufsangaben. Mit diesem würden sich auf den schlag weit höhere Zuordnungsraten ergeben.

Fußnoten

  1. Karl Pabst (ed.), Verzeichnis der Schüler des Staatl. kathol. Gymnasiums zu Heiligenstadt (Heiligenstadt, 1929-05-22).