Muster taxischein

In diesem Tutorial wird veranschaulicht, wie ein Regressionsmodell mithilfe ML.NET erstellt wird, um Preise, insbesondere Taxitarife in New York City, vorherzusagen. Wenn Sie den Taxi-Fahrpreis vorhersagen möchten, ist die FareAmount-Spalte das Label, das Sie vorhersagen werden (die Ausgabe des Modells). Verwenden Sie die Transformationsklasse CopyColumnsEstimator, um FareAmount zu kopieren, und fügen Sie den folgenden Code hinzu: Die Bezeichnung ist die Spalte, die Sie vorhersagen möchten. Die identifizierten Features sind die Eingaben, die Sie dem Modell geben, um die Beschriftung vorherzusagen. Wir sind bereit für anspruchsvollere Modelle und schlagen die RMSE, die vom Basismodell produziert wird. Von da an haben wir darüber nachgedacht, welche Features den Taxi-Tarif beeinflussen. Alles in allem war die Reise, um die besten Features zu entdecken, nicht einfach. Wenn Sie Ihre Vorstellungskraft nicht einschränken, werden Sie am Ende mit Hunderten von (normalerweise) nutzlosen Funktionen. In der Tat, nach vielen Iterationen, wir gingen von acht Funktionen in den Rohdaten zu mehr als 500! Zu diesem Zeitpunkt begannen unsere Modelle schlechter zu funktionieren, als Modelle „falsche Korrelationen“ lernten. Glücklicherweise hatten wir die richtigen Werkzeuge, um uns dabei zu helfen. Mit der Funktionswichtigkeit für die manuelle Auswahl und dem in Dataiku integrierten automatischen Feature-Reduktionstool konnten wir die Anzahl der Features auf rund 100 reduzieren. Nach der Phase der Datenreinigung und Der Sondierungsanalyse sind wir endlich in der Modellbauphase angekommen.

Die Qualität der Ergebnisse am Ende dieser Phase hängt von der Datenqualität und den Für die Modellierung verwendeten Merkmalen ab. In diesem Artikel werden wir die folgenden Schritte im Detail verstehen: Führen Sie das Programm aus, um den vorhergesagten Taxitarif für Ihren Testfall anzuzeigen. Das Random Forest-Modell lieferte eine RMSE von 3,72 auf Validierungsdaten und trainierte RMSE von 1,41. Es gibt eine große Variation in der Ausbildung und Validierung RMSE, was auf Überfitting. Um die Überanpassung zu reduzieren, können wir dieses Modell optimieren. Bei diesem Problem geht es darum, einen Taxi-Fahrpreis in New York City vorherzusagen. Auf den ersten Blick scheint es einfach von der zurückgelegten Strecke abhängen. Taxianbieter in New York berechnen jedoch unterschiedliche Beträge für andere Faktoren wie zusätzliche Passagiere oder das Bezahlen mit einer Kreditkarte anstelle von Bargeld.

Sie möchten den Preiswert, der ein realer Wert ist, basierend auf den anderen Faktoren im Dataset vorhersagen. Dazu wählen Sie eine Regressions-Maschine-Lernaufgabe aus. 1. Verstehen Sie das Problem vor dem Erstellen Ihrer Modelle: Dies ist eine häufige Falle für Datenwissenschaftler, in die wir auch fielen. Da das Training von Modellen Spaß macht und einfach ist, sind wir direkt darauf losgegangen, ohne die Tarifformel zu recherchieren, die Taxis anwenden müssen. Hätten wir am Anfang mehr Zeit damit verbracht, dies zu erforschen, hätten wir Stunden gespart, die wir trainingsmodelle ohne die richtigen Funktionen verloren haben. Basierend auf der oben genannten Entdeckung werden wir Taxifahrten mit passenger_count> 6 entfernen. Diese wenigen Klicks reichten jedoch nicht aus.