La regressió analitza les relacions entre variables
La regressió és una tècnica de mineria de dades utilitzada per predir un rang de valors numèrics (també anomenats valors continus ), donat un conjunt de dades en particular. Per exemple, es pot utilitzar la regressió per predir el cost d'un producte o servei, tenint en compte altres variables.
La regressió s'utilitza en diverses indústries per a la planificació comercial i comercial, la previsió financera, el modelatge ambiental i l'anàlisi de tendències.
Regressió vs. Classificació
La regressió i la classificació són tècniques de mineria de dades utilitzades per resoldre problemes similars, però sovint es confonen. Tots dos s'utilitzen en l'anàlisi de predicció, però la regressió s'utilitza per predir un valor numèric o continu, mentre que la classificació assigna dades a categories discretes.
Per exemple, la regressió s'utilitzaria per predir el valor d'una casa en funció de la seva ubicació, peus quadrats, preu quan es va vendre per última vegada, el preu d'habitatges similars i altres factors. La classificació seria si volíeu organitzar cases en categories, com ara la possibilitat de recórrer, la grandària de lot o les taxes de criminalitat.
Tipus de tècniques de regressió
La forma més senzilla i més antiga de regressió és la regressió lineal que s'utilitza per estimar una relació entre dues variables. Aquesta tècnica utilitza la fórmula matemàtica d'una recta (y = mx + b). En termes simples, això només vol dir que, donat un grafo amb un I i un eix X, la relació entre X i Y és una recta amb alguns punts més alts. Per exemple, podríem suposar que, atesa l'augment de la població, la producció d'aliments augmentaria al mateix ritme: això requereix una relació lineal forta entre les dues figures. Per visualitzar-ho, considereu un gràfic en el qual augmenta la població de l'eix Y, i l'eix X fa seguiment de la producció d'aliments. A mesura que augmenta el valor de Y, el valor X augmentaria en la mateixa velocitat, fent que la relació entre ells sigui una recta.
Les tècniques avançades, com la regressió múltiple, prediuen una relació entre múltiples variables, per exemple, hi ha una correlació entre ingressos, educació i on es tria viure? L'addició de més variables augmenta considerablement la complexitat de la predicció. Hi ha diversos tipus de tècniques de regressió múltiples que inclouen estàndards, jeràrquics, setwise i pas a pas, cadascun amb la seva pròpia aplicació.
En aquest punt, és important comprendre el que estem tractant de predir (la variable dependent o predir ) i les dades que estem utilitzant per fer la predicció (les variables independents o predictores ). En el nostre exemple, volem predir la ubicació on es tria viure (la variable predictible ) donada ingressos i educació (ambdues variables predictores ).
- La regressió múltiple estàndard considera totes les variables predictores al mateix temps. Per exemple 1) quina és la relació entre els ingressos i l'educació (predictors) i l'elecció del barri (prevista); i 2) fins a quin grau contribueixen cadascun dels predictors individuals a aquesta relació?
- La regressió múltiple per etapes contesta una pregunta completament diferent. Un algoritme de regressió gradual analitzarà quins predictors s'utilitzen millor per predir l'elecció del barri, el que significa que el model pas a pas avalua l'ordre d'importància de les variables predictores i, a continuació, selecciona un subconjunt rellevant. Aquest tipus de problema de regressió utilitza "passos" per desenvolupar l'equació de regressió. Atès aquest tipus de regressió, tots els predictors poden no aparèixer en l'equació de regressió final.
- La regressió jeràrquica , com pas a pas, és un procés seqüencial, però les variables de predicció s'introdueixen en el model en un ordre predefinit definit prèviament, és a dir, l'algoritme no conté un conjunt d'equacions per determinar l'ordre en què introduïu els predictors. Això s'utilitza amb més freqüència quan l'individu que crea l'equació de regressió té un coneixement expert del camp.
- La regressió setwise també és similar a pas a pas, però analitza conjunts de variables en lloc de variables individuals.