Definició del model estadístic de regressió

La regressió analitza les relacions entre variables

La regressió és una tècnica de mineria de dades utilitzada per predir un rang de valors numèrics (també anomenats valors continus ), donat un conjunt de dades en particular. Per exemple, es pot utilitzar la regressió per predir el cost d'un producte o servei, tenint en compte altres variables.

La regressió s'utilitza en diverses indústries per a la planificació comercial i comercial, la previsió financera, el modelatge ambiental i l'anàlisi de tendències.

Regressió vs. Classificació

La regressió i la classificació són tècniques de mineria de dades utilitzades per resoldre problemes similars, però sovint es confonen. Tots dos s'utilitzen en l'anàlisi de predicció, però la regressió s'utilitza per predir un valor numèric o continu, mentre que la classificació assigna dades a categories discretes.

Per exemple, la regressió s'utilitzaria per predir el valor d'una casa en funció de la seva ubicació, peus quadrats, preu quan es va vendre per última vegada, el preu d'habitatges similars i altres factors. La classificació seria si volíeu organitzar cases en categories, com ara la possibilitat de recórrer, la grandària de lot o les taxes de criminalitat.

Tipus de tècniques de regressió

La forma més senzilla i més antiga de regressió és la regressió lineal que s'utilitza per estimar una relació entre dues variables. Aquesta tècnica utilitza la fórmula matemàtica d'una recta (y = mx + b). En termes simples, això només vol dir que, donat un grafo amb un I i un eix X, la relació entre X i Y és una recta amb alguns punts més alts. Per exemple, podríem suposar que, atesa l'augment de la població, la producció d'aliments augmentaria al mateix ritme: això requereix una relació lineal forta entre les dues figures. Per visualitzar-ho, considereu un gràfic en el qual augmenta la població de l'eix Y, i l'eix X fa seguiment de la producció d'aliments. A mesura que augmenta el valor de Y, el valor X augmentaria en la mateixa velocitat, fent que la relació entre ells sigui una recta.

Les tècniques avançades, com la regressió múltiple, prediuen una relació entre múltiples variables, per exemple, hi ha una correlació entre ingressos, educació i on es tria viure? L'addició de més variables augmenta considerablement la complexitat de la predicció. Hi ha diversos tipus de tècniques de regressió múltiples que inclouen estàndards, jeràrquics, setwise i pas a pas, cadascun amb la seva pròpia aplicació.

En aquest punt, és important comprendre el que estem tractant de predir (la variable dependent o predir ) i les dades que estem utilitzant per fer la predicció (les variables independents o predictores ). En el nostre exemple, volem predir la ubicació on es tria viure (la variable predictible ) donada ingressos i educació (ambdues variables predictores ).