Agile Data Science - Datenverarbeitung in Agile

In diesem Kapitel konzentrieren wir uns auf den Unterschied zwischen strukturierten, halbstrukturierten und unstrukturierten Daten.

Strukturierte Daten

Strukturierte Daten betreffen die Daten, die im SQL-Format in einer Tabelle mit Zeilen und Spalten gespeichert sind. Es enthält einen relationalen Schlüssel, der in vorgefertigten Feldern abgebildet wird. Strukturierte Daten werden in größerem Umfang verwendet.

Strukturierte Daten machen nur 5 bis 10 Prozent aller Informatikdaten aus.

Teilstrukturierte Daten

Semistrukturierte Daten umfassen Daten, die sich nicht in einer relationalen Datenbank befinden. Sie enthalten einige organisatorische Eigenschaften, die die Analyse erleichtern. Es enthält den gleichen Prozess, um sie in einer relationalen Datenbank zu speichern. Beispiele für semistrukturierte Datenbanken sind CSV-Dateien, XML- und JSON-Dokumente. NoSQL-Datenbanken gelten als semistrukturiert.

Unstrukturierte Daten

Unstrukturierte Daten machen 80 Prozent der Daten aus. Es enthält häufig Text- und Multimediainhalte. Die besten Beispiele für unstrukturierte Daten sind Audiodateien, Präsentationen und Webseiten. Beispiele für maschinell erzeugte unstrukturierte Daten sind Satellitenbilder, wissenschaftliche Daten, Fotos und Videos sowie Radar- und Sonardaten.

Satellitenbilder

Die obige Pyramidenstruktur konzentriert sich speziell auf die Datenmenge und das Verhältnis, auf das sie gestreut wird.

Quasi-strukturierte Daten erscheinen als Typ zwischen unstrukturierten und halbstrukturierten Daten. In diesem Tutorial konzentrieren wir uns auf semistrukturierte Daten, die für die agile Methodik und die datenwissenschaftliche Forschung von Vorteil sind.

Halbstrukturierte Daten haben kein formales Datenmodell, sondern ein offensichtliches, selbstbeschreibendes Muster und eine Struktur, die durch ihre Analyse entwickelt werden.