Agile Data Science - Einführung

Agile Data Science ist ein Ansatz zur Verwendung von Data Science mit agiler Methodik für die Entwicklung von Webanwendungen. Es konzentriert sich auf die Ergebnisse des datenwissenschaftlichen Prozesses, der geeignet ist, Veränderungen für eine Organisation herbeizuführen. Data Science umfasst das Erstellen von Anwendungen, die den Forschungsprozess mit Analyse, interaktiver Visualisierung und nun auch angewendetem maschinellen Lernen beschreiben.

Das Hauptziel von Agile Data Science ist:

dokumentieren und leiten Sie erklärende Datenanalysen, um den kritischen Pfad zu einem überzeugenden Produkt zu entdecken und zu verfolgen.

Agile Data Science ist nach folgenden Grundsätzen organisiert:

Kontinuierliche Iteration

Dieser Prozess umfasst eine kontinuierliche Iteration mit Erstellungstabellen, Diagrammen, Berichten und Vorhersagen. Das Erstellen von Vorhersagemodellen erfordert viele Iterationen des Feature-Engineerings mit Extraktion und Gewinnung von Erkenntnissen.

Zwischenausgabe

Dies ist die Trackliste der generierten Ausgaben. Es wird sogar gesagt, dass fehlgeschlagene Experimente auch Ergebnisse haben. Wenn Sie die Ausgabe jeder Iteration verfolgen, können Sie eine bessere Ausgabe in der nächsten Iteration erzielen.

Prototyp-Experimente

Prototyp-Experimente beinhalten das Zuweisen von Aufgaben und das Erzeugen von Ergebnissen gemäß den Experimenten. In einer gegebenen Aufgabe müssen wir iterieren, um Einsicht zu erhalten, und diese Iterationen können am besten als Experimente erklärt werden.

Integration von Daten

Der Softwareentwicklungs-Lebenszyklus umfasst verschiedene Phasen mit Daten, die für Folgendes erforderlich sind:

  • Kunden

  • Entwickler und

  • das Geschäft

Die Integration von Daten ebnet den Weg für bessere Aussichten und Ergebnisse.

Pyramidendatenwert

Pyramidendatenwert

Der obige Pyramidenwert beschreibt die Ebenen, die für die Entwicklung von „Agile Data Science“ benötigt werden. Es beginnt mit einer Sammlung von Datensätzen, die auf den Anforderungen basieren und einzelne Datensätze auswerten. Die Diagramme werden nach Bereinigung und Aggregation von Daten erstellt. Die aggregierten Daten können zur Datenvisualisierung verwendet werden. Berichte werden mit der richtigen Struktur, Metadaten und Tags von Daten generiert. Die zweite Pyramidenschicht von oben enthält die Vorhersageanalyse. Auf der Vorhersageebene wird mehr Wert geschaffen, aber es werden gute Vorhersagen erstellt, die sich auf das Feature-Engineering konzentrieren.

Die oberste Ebene umfasst Aktionen, bei denen der Wert von Daten effektiv gesteuert wird. Das beste Beispiel für diese Implementierung ist "Künstliche Intelligenz".