Definirea și exemplul de netezire a datelor
elemente de organizare a datelor
Cuprins:
Ce este:
Netezirea datelor este o tehnică statistică care implică îndepărtarea valorilor de la un set de date un model mai vizibil
Cum funcționează (Exemplu):
De exemplu, să presupunem că o universitate își analizează datele despre criminalitate în ultimii 10 ani. Numărul de infracțiuni violente arată cam așa:
După cum puteți vedea, de cele mai multe ori, universitatea trăiește mai puțin de 15 crime pe an. Cu toate acestea, în 2006 și 2007, a experimentat 44 din cauza unei cerințe experimentale de raportare de către echipa de siguranță publică a universității. Experimentul de raportare a schimbat definiția crimei violente pentru a include furturi de orice fel în acei ani, ceea ce a creat un salt mare în numărul crimelor "violente" din campus. Dacă includem acești ani în medie - adică, dacă facem niște date netezite - universitatea a experimentat o medie de aproximativ 19 infracțiuni violente pe an. Dar dacă lăsăm acești ani să vedem că o medie mai realistă este 13 infracțiuni violente pe an - o diferență de 32%.
De ce contează:
Există multe modalități de a netezi datele, medii și algoritmi. Ideea este că netezirea datelor face ca modelele să fie mai vizibile și, astfel, ajută la previzionarea modificărilor prețurilor acțiunilor, a tendințelor clienților sau a oricărei alte informații de afaceri. Cu toate acestea, netezirea datelor poate ignora informațiile cheie sau face fapte importante mai puțin vizibile; cu alte cuvinte, "rotunjirea margini" a datelor poate supra-accentua anumite date și poate ignora alte date.