Classificació en mineria de dades

La classificació és una tècnica de mineria de dades que assigna categories a una recopilació de dades per tal d'ajudar en prediccions i anàlisis més precises. També anomenat de vegades anomenat Tree Decision , la classificació és un dels diversos mètodes destinats a fer efectiva l'anàlisi de conjunts de dades molt grans.

Per què la classificació?

Les bases de dades molt grans s'estan convertint en norma en el món actual de "grans dades". Imagineu una base de dades amb terabytes múltiples de dades: un terabyte és un bilió de bytes de dades.

Només Facebook incrusta 600 terabytes de dades noves cada dia (a partir de 2014, l'última vegada que va informar aquestes especificacions). El repte principal de les grans dades és com tenir sentit.

I el volum no és l'únic problema: les dades importants també solen ser diverses, no estructurades i de ràpid canvi. Penseu en la possibilitat d'obtenir dades d'àudio i de vídeo, publicacions de mitjans socials, dades 3D o dades geoespacials. Aquest tipus de dades no es classifica o organitza fàcilment.

Per afrontar aquest repte, s'ha desenvolupat una sèrie de mètodes automàtics per extreure informació útil, entre ells la classificació .

Com funciona la classificació

Al perill de passar a la tecnologia, parleu de com funciona la classificació. L'objectiu és crear un conjunt de regles de classificació que responguin a una pregunta, prenguin una decisió o prediguin el comportament.Per començar, es desenvolupa un conjunt de dades de formació que conté un determinat conjunt d'atributs i el possible resultat.

El treball de l'algorisme de classificació és descobrir com aquest conjunt d'atributs arriba a la seva conclusió.

Escenari : potser una empresa de targetes de crèdit intenta determinar quines perspectives haurien de rebre una oferta de targeta de crèdit.

Aquest podria ser el seu conjunt de dades de formació:

Dades de formació
Nom Edat Gènere Renda anual Oferta de targeta de crèdit
John Doe 25 M $ 39,500 No
Jane Doe 56 F $ 125,000

Les columnes "predictor" Edat , sexe i ingrés anual determinen el valor de l'atribut "predictor" de l'oferta de la targeta de crèdit . En un conjunt de formació, es coneix l'atribut predictor. A continuació, l'algoritme de classificació intenta determinar com es va aconseguir el valor de l'atribut predictor: quines relacions existeixen entre els predictors i la decisió? Desenvoluparà un conjunt de regles de predicció, generalment una declaració IF / THEN, per exemple:

IF (Edat> 18 anys d'edat <75) I ingressos anuals> 40.000 danys Oferta de la targeta de crèdit = sí

Òbviament, aquest és un exemple senzill, i l'algoritme necessitaria un mostreig de dades molt més gran que els dos registres aquí. A més, és probable que les regles de predicció siguin molt més complexes, incloses les subregres per capturar detalls de l'atribut.

A continuació, l'algoritme proporciona un "conjunt de prediccions" de dades per analitzar, però aquest conjunt no té l'atribut de predicció (o decisió):

Dades de predicció
Nom Edat Gènere Renda anual Oferta de targeta de crèdit
Jack frost 42 M $ 88,000
Mary Murray 16 F $ 0

Aquesta predicció de dades ajuda a estimar la precisió de les regles de predicció, i les regles es modifiquen fins que el desenvolupador considera que les prediccions són efectives i útils.

Exemples diaris de classificació

La classificació i altres tècniques de mineria de dades estan darrere de la nostra gran experiència quotidiana com a consumidors.

Les prediccions meteorològiques poden fer ús de la classificació per informar si el dia serà plujós, assolellat o ennuvolat. La professió mèdica podria analitzar les condicions de salut per predir els resultats mèdics. Un tipus de mètode de classificació, Naive Bayesian, utilitza la probabilitat condicional de categoritzar missatges de correu brossa. Des de la detecció de fraus fins a les ofertes de productes, la classificació es troba detrás de escena cada dia analitzant dades i produint prediccions.