Verschil tussen hiërarchische en partitionele clustering

Anonim

Hiërarchische vs Partitionele Clustering

Clustering is een machine leertechniek voor het analyseren van data en in te delen in groepen met vergelijkbare gegevens. Deze groepen of sets van vergelijkbare gegevens staan ​​bekend als clusters. Clusteranalyse kijkt naar clusteringalgoritmen die clusters automatisch kunnen identificeren. Hiërarchische en Partiële zijn twee dergelijke klassen van clustering algoritmen. Hiërarchische clusteringsalgoritmen breken de gegevens in op een hiërarchie van clusters. Parallelalgoritmen verdelen de dataset in wederzijds uiteenlopende partities.

Wat is hierarchische clustering?

Hiërarchische clusteringsalgoritmen herhalen de cyclus van het samenvoegen van kleinere clusters in grotere groepen of het verdelen van grotere clusters voor kleinere. Hoe dan ook, het produceert een hiërarchie van clusters genaamd een dendogram. Agglomeratieve clusteringstrategie maakt gebruik van de bottom-up-aanpak van het samenvoegen van clusters in grotere groepen, terwijl divisieve clusteringstrategie gebruik maakt van de top-down-benadering van splitsing in kleinere. Gewoonlijk wordt de hebzuchtige aanpak gebruikt om te bepalen welke grotere / kleinere clusters worden gebruikt voor het samenvoegen / verdelen. Euclidische afstand, Manhattan afstand en cosinus gelijkenis zijn enkele van de meest gebruikte statistieken van gelijkenis voor numerieke data. Voor niet-numerieke gegevens worden metrics zoals de Hamming-afstand gebruikt. Het is belangrijk om op te merken dat de werkelijke waarnemingen (gevallen) niet nodig zijn voor hiërarchische clustering, omdat alleen de matrix van afstande voldoende is. Dendogram is een visuele weergave van de clusters, die de hiërarchie heel duidelijk weergeeft. De gebruiker kan verschillende clustering verkrijgen, afhankelijk van het niveau waarop het dendogram wordt gesneden.

Wat is Partitionele Clustering?

Partitionele clusteringsalgoritmen genereer verschillende partities en evalueer ze vervolgens met een criterium. Ze worden ook niet-hiërarchisch aangeduid, aangezien elke instantie in precies één van k onderling exclusieve clusters wordt geplaatst. Omdat slechts één set clusters de output van een typisch partitioneel clusteringalgoritme is, moet de gebruiker het gewenste aantal clusters invoeren (meestal k genoemd). Een van de meest gebruikte partitionele clusteringsalgoritmen is het k-means clustering algoritme. De gebruiker is verplicht het aantal clusters (k) voor het starten te geven en het algoritme initieert eerst de centra (of centroïden) van de k partities. In een notendop, k-betekent clustering algoritme dan toewijzen leden op basis van de huidige centra en opnieuw schatten centra op basis van de huidige leden. Deze twee stappen worden herhaald tot een bepaalde intra-cluster-gelijkheidsdoelfunctie en intercluster-divergentie objectieve functie worden geoptimaliseerd.Daarom is de verstandige initialisatie van centra een zeer belangrijke factor bij het verkrijgen van kwaliteitsresultaten van partitionele clusteringsalgoritmen.

Wat is het verschil tussen hiërarchische en partiële clustering?

Hiërarchische en partiële clustering hebben belangrijke verschillen in looptijd, aannames, invoerparameters en resulterende clusters. Typisch is partitionele clustering sneller dan hiërarchische clustering. Hiërarchische clustering vereist alleen een gelijkenismaatregel, terwijl partiële clustering sterkere aannames vereist, zoals aantal clusters en de initiële centra. Hiërarchische clustering vereist geen invoerparameters, terwijl partitionele clusteringsalgoritmen het aantal clusters nodig hebben om te starten. Hiërarchische clustering levert een veel meer zinvolle en subjectieve verdeling van clusters op, maar partitionele clustering resulteert in exacte clusters. Hiërarchische clusteringsalgoritmen zijn meer geschikt voor categorische data zolang een gelijkheidsmaatregel dienovereenkomstig kan worden gedefinieerd.