Hier sind einige Abfrageregeln, um bspw. WikiData-Zugriffe so zu gestalten, dass die Kriterien des Privat Information Retrieval erfüllt werden. Auch helfen sie dabei, sicherzustellen, die Daten, die tatsächlich gebraucht werden, unter dem Rest im Resultat zu haben.
Sortieren statt Filtern
Filtern verrät generell mehr als sortieren. Um alle Chloride mit einer Dichte über 3 g/cm
3 zu erfahren, sollte daher nicht nach einer solchen gefragt werden, sondern nach eine Liste aller Chloride samt Angabe der Dichte und sortiert nach dieser. Welcher Wertebereich relevant ist (oder ob bloß von einem Chlorid die Dichte abgelesen wird) bleibt so verschleiert.
Abfrage breit formulieren
Resultate einer Abfrage sind gewöhnlich in Tabellenform. Hierbei ist darauf zu achten, nach vielen naheliegenden Parametern zu fragen, etwa bei Personen nicht nur nach Geburts- sondern auch nach Sterbedatum und umgekehrt, und dazu bspw. Staatsangehörigkeit, Berufe etc. Je mehr Parameter bzw. Spalten angefordert werden, desto weniger ersichtlich ist die Intention.
Alle Spalten mit Eigenschaften sollten jedoch optional sein, d.h. es wird nicht auf Einträge verzichtet, nur weil nicht die Werte für alle Spalten bekannt wären. Die Ordnung der Spalten sollte (außer dem sog. Label, also wie der Eintrag bezeichnet wird) alphabetisch erfolgen, um keine Hinweise darauf zu geben, welche Spalten wichtiger sind.
Falsifikation vs. Verifikation
Oft kann, da alle Datenbanken oder andere Bibliotheken nicht vollständig sind, mit der Abfrage über das Vorhandensein eines Eintrags nur verifiziert, aber nicht falsifiziert werden. Will man wissen, ob
SanDisk Arbeitsspeicher herstellt oder jemals hergestellt hat, und führt die Abfrage nach
Wirtschaftsunternehmen, deren Produkt (auch) Arbeitsspeicher ist, durch, erhält man (Stand 24.11.2021) folgendes:
- Toshiba
- SanDisk
- SK Hynix
- Corsair Gaming
- GeIL
- Kingston Technology
- Winbond
- Wilk Elektronik
- Elpida Memory
- Micron Technology
- Anobit
- Crocus Technology
- Kioxia
Dadurch, dass der Eintrag
SanDisk existiert, ist nun bestätigt, dass das Unternehmen (unter der stets geltenden Voraussetzung der Richtigkeit der Angabe) Arbeitsspeicher produziert oder jemals produzierte. Hätte man umgekehrt jedoch nach
Siemens gesucht, das nicht eingetragen ist, wäre unbekannt, ob es niemals Arbeitsspeicher produzierte oder dies (falsch-negativ) bloß nicht verzeichnet ist.
Kausalität mehrerer Abfragen
Gefährlich ist es, mehrere Abfragen durchzuführen, die eine Kausalität implizieren. Wer etwa erst eine Tabelle aller kanadischen Pianisten, die auch komponiert haben, anfordert, und danach eine Liste der Kompositionen von Glenn Gould, offenbart dabei einen naheliegenden Bezug zur Frage, ob Gould Kanadier war (oder der soeben entstandenen Erkenntnis über ihn). Richtig (und leider umfangreich) wäre es, eine Liste aller Kompositionen von Kanadiern, die auch Pianisten sind oder waren, anzufordern, gruppiert nach Komponist.
Nichts ist selbstverständlich
Wenn man eine SPARQL-Anfrage - etwa für WikiData - formuliert, ist es wichtig, dass man keinerlei Annahmen für selbstverständlich hält. Sucht man beispielsweise nach
allem, das die Todesursache Pest hat, findet man auch Tiere oder fiktive Charaktere. In diesem Fall ist es (vermutlich) gewollt, die zusätzliche Bedigung
und ein Mensch ist hinzuzufügen. Auch sollte man sich mit Attributen und ihren Hierachien auseinandersetzen. Die Suche nach allen Nobelpreisträgern führt etwa
erstmal ins Leere, denn niemand hat "den" Nobelpreis bekommen, sondern eine (oder vereinzelt mehrere) Subkategorien wie den Nobelpreis für Chemie oder Friedensnobelpreis. Auch jemand, der es theoretisch schaffen würde, jede Art von Nobelpreis zu erhalten, wäre nicht von der Abfrage nach Trägern
des Nobelpreis abgedeckt. Man muss somit nach
allen Personen suchen, denen eine Auszeichnung verliehen wurde, welche eine Unterklasse des Nobelpreis ist. Mit der sehr strikten Auslegung von Anfragen das zu bekommen, was man wirklich möchte, erfordert Übung und Erfahrung - die Beispiele in WikiData und auf dieser Seite helfen.