Was passiert, wenn die Daten fehlerhaft sind?

Nun sollte dies ursprünglich ein Beitrag über die Umgebung sein, ein Thema, das wir im Unterricht durchlaufen hatten. Im Verlauf meiner Recherche entdeckte ich jedoch, dass mit den Singapur-Datensätzen etwas nicht stimmt.

Zunächst wollte ich mich auf den Fleischkonsum in Singapur konzentrieren, da ich mit Woo Qiyun (USP, Class of 2019) sprach und herausfand, dass unser Hühnerkonsum tatsächlich einen viel größeren Einfluss auf die Umwelt hat, als ich erwartet hatte. Ich begann mit diesem Datensatz von AVA, der Agri-Food & Veterinarian Society in Singapur.

Link: https://www.ava.gov.sg/docs/default-source/default-document-library/percapita_consumption

Es war eine ziemlich gut dokumentierte Datenquelle, und hier ist die Visualisierung.

Nani ?!

Das schockierte mich - warum hat Rindfleisch seit 2012 einen so großen Rückgang erlebt? Ich bin weder ein begeisterter Fleischesser, noch bin ich jemand, der kein Rindfleisch isst. Es ist schön, ich esse es manchmal, weil Hühnchen langweilig sein kann. Was hätte jedoch einen so extremen Rückgang bewirken können? Um mehr zu erfahren, habe ich meine Forschungsfrage auf r / Singapur gepostet. (https://www.reddit.com/r/singapore/comments/b5obha/does_anyone_know_why_did_beef_consumption_decline/)

Hier sind einige der Top-Kommentare:

  1. Rinderwahnsinn Angst
  2. US-Dürre

Obwohl die oben genannten Möglichkeiten möglich sind, müssten wir etwas davon gehört haben, entweder in den Nachrichten oder was nicht. Bei älteren Leuten in der Umgebung habe ich jedoch keine Informationen erhalten.

Und daher meine Hypothese:

Bei bestimmten Datensätzen ist die Methode der Datenerfassung an sich schon falsch. Wenn also Erfassungsmethoden geändert werden, hat dies Auswirkungen auf die Daten selbst und führt zu völlig falschen Schlussfolgerungen.

Dies veranlasste mich zu weiteren Untersuchungen, um herauszufinden, was bei bestehenden Datensätzen sonst noch ein Problem war.

Dies sind die Daten für „Anzahl der Straßenhändlerstände unter staatlichen Märkten und Händlerzentren“:

https://data.gov.sg/dataset/number-of-hawker-stalls-under-government-market-und-hawker-center-annual

????? Gab es im Jahr 2003 etwas Verrücktes? Es muss klar sein, dass sich der Lizenzaspekt geändert hat oder etwas geändert hat, was dazu geführt hat, dass die Anzahl der lizenzierten Hawker-Zentren um 1000% gestiegen ist.

Ich führte einige Recherchen durch und rief NEA an, den Autor dieses Datensatzes. Ich behauptete, dass ich ein Studentenprojekt zu diesem Thema durchführte und wollte wissen, was der Grund für den plötzlichen Sprung war. Das habe ich bekommen:

Hallo Herr. Leider haben wir diese Lizenzfrage erst 2003 übernommen. Den genauen Grund können wir leider nicht ermitteln. Danke für das Interesse.

Dies brachte mich zu der Erkenntnis, dass es für bestimmte Datensätze systemische Probleme geben kann, selbst wenn der Sammler dieses Datensatzes sehr glaubwürdig ist, was zu falschen Geschichten und Erkenntnissen aus diesem Bild führt.

Stellen Sie sich vor, ich verwende die beiden obigen Diagramme als Visualisierung in einer Präsentation. Die Leute werden auf die Idee kommen, dass 2003 und 2012 etwas Großes passiert ist, als möglicherweise gar nichts passiert ist. Offene Daten sind unglaublich nützlich, aber was passiert, wenn die Daten falsch sind und nicht eindeutig angegeben werden?

Sind Sie auf fehlerhafte Datensätze gestoßen?