Què significa k-means Clustering?

Mineria de dades amb l'algoritme k-means

L'algorisme de clustering de k- means és una eina de mineria de dades i màquina-eina que s'utilitza per agrupar les observacions en grups d'observacions relacionades sense cap coneixement previ d'aquestes relacions. Mitjançant el mostreig, l'algorisme intenta mostrar en quina categoria o clúster pertanyen les dades, amb el nombre de clústers definits pel valor k.

L'algorisme de k- means és una de les tècniques de clusterització més senzilles i s'utilitza habitualment en camps d'imatge mèdica, biometria i camps relacionats. L'avantatge de k- means clustering és que informa sobre les seves dades (utilitzant el seu formulari no supervisat) en comptes d'haver d'instruir l'algoritme sobre les dades al principi (utilitzant la forma supervisada de l'algorisme).

A vegades es coneix com l'Algorisme de Lloyd, especialment en els cercles informàtics, ja que l'algoritme estàndard va ser proposat per primera vegada per Stuart Lloyd en 1957. El terme "k-means" va ser creat el 1967 per James McQueen.

Com funciona el algorisme de k-means

L'algorisme k- means és un algoritme evolutiu que guanya el seu nom a partir del seu mètode d'operació. Les observacions de clústers d'algorismes en grups k , on k es proporciona com a paràmetre d'entrada. A continuació, assigna cada observació a clústers a partir de la proximitat de l'observació a la mitjana del clúster. La mitjana del clúster es recomputarà i el procés tornarà a començar. A continuació s'explica com funciona l'algorisme:

  1. L'algorisme selecciona arbitràriament k punts com els centres de clúster inicial (els mitjans).
  2. Cada punt del conjunt de dades s'assigna al grup tancat, basat en la distància euclidiana entre cada punt i cada centre de clústers.
  3. Cada centre de clústers es recomputarà com la mitjana dels punts d'aquest clúster.
  4. Els passos 2 i 3 es repeteixen fins que convergeixen els clústers. La convergència es pot definir de manera diferent depenent de la implementació, però normalment significa que cap observació no canvia els clústers quan es repeteixen els passos 2 i 3 o que els canvis no fan una diferència material en la definició dels clústers.

Elecció del nombre de clústers

Un dels principals desavantatges per a k- significa agrupament és el fet que heu d'especificar el nombre de clústers com a entrada a l'algoritme. Tal com està dissenyat, l'algoritme no és capaç de determinar el nombre adequat de clústers i depèn que l'usuari identifiqui això amb antelació.

Per exemple, si teníeu un grup de persones que s'hagin d'agrupar basant-se en la identitat binària del gènere com a home o dona, cridar l'algoritme k- mean usant l'entrada k = 3 obligaria a la gent a tres clústers quan només dos o un entrada de k = 2, proporcionaria un ajust més natural.

De la mateixa manera, si un grup d'individus es van agrupar fàcilment en funció de l'estat d'origen i es va cridar l'algoritme k- mean amb l'entrada k = 20, els resultats podrien ser massa generalitzats per ser efectius.

Per aquest motiu, sovint és una bona idea experimentar amb diferents valors de k per identificar el valor que millor s'adapti a les vostres dades. També és possible que vulgueu explorar l'ús d' altres algoritmes de mineria de dades en la cerca de coneixements a màquina.