Hierarchesch vs Partitional Clustering

Clustering ass eng Maschinn Léieren Technik fir Daten ze analyséieren an an Gruppen vun ähnlechen Donnéeën ze deelen. Dës Gruppen oder Sätz vun ähnlechen Daten sinn als Cluster bekannt. Cluster Analyse kuckt op Clustering Algorithmen déi Cluster automatesch identifizéiere kënnen. Hierarchesch a Partitional sinn zwou sou Klassen iwwer Clustering Algorithmen. Hierarchesch Clustering Algorithmen briechen d'Donnéeën an eng Hierarchie vu Cluster op. Paritional Algorithmen deelen d'Dateset an géigesäiteg disjoint Partitionen.

Wat ass Hierarchesch Clustering?

Hierarchesch Stärekoup Algorithmen widderhuelen den Zyklus vun entweder méi kleng Stärekéip fusionéieren a méi grouss oder méi grouss Cluster op méi kleng verdeelen. Egal wéi, et produzéiert eng Hierarchie vu Stärekoup genannt engem Dendogram. Agglomerativ Clusteringstrategie benotzt déi bottom-up Approche vu fusionéiere Clusteren zu méi groussen, iwwerdeems opgedeelt Clusteringstrategie benotzt déi top-down Approche fir Splitting an méi kleng ze maachen. Normalerweis gëtt déi giereg Approche benotzt fir ze décidéieren wéi eng méi grouss / méi kleng Stärekéip benotzt gi fir ze fusionéieren / ze deelen. Euklidesch Distanz, Manhattan Distanz a kosinesch Ähnlechkeet sinn e puer vun de meescht benotzt Metriken vun Ähnlechkeet fir numeresch Daten. Fir net-numeresch Donnéeën ginn Metriken wéi d'Haming Distanz benotzt. Et ass wichteg ze beuechten datt déi tatsächlech Observatiounen (Instanzen) net fir hierarchesch Clusterung gebraucht ginn, well nëmmen d'Matrix vun den Distanzen genuch ass. Dendogram ass eng visuell Duerstellung vun de Cluster, déi d'Hierarchie ganz kloer affichéiert. De Benotzer kann verschidde Clustering kréien, ofhängeg vum Niveau op deem den Dendogram geschnidden ass.

Wat ass Partitional Clustering?

Partitional Clustering Algorithmen generéiere verschidde Partitionen an evaluéiere se dann no engem Critère. Si ginn och als nethierarchesch bezeechent wéi all Instanz a genau an k vun géigesäiteg exklusive Clustere plazéiert ass. Well nëmmen eng Serie vu Cluster den Ausgang vun engem typeschen partitional Clustering Algorithmus ass, ass de Benotzer erfuerdert déi gewënschten Unzuel Stärekéip (normalerweis genannt k) anzeginn. Ee vun de meescht benotzt partitional Clustering Algorithmen ass de k-heescht Clustering Algorithmus. De Benotzer ass noutwenneg fir d'Zuel vu Stärekéip (k) unzefänken virum Start an den Algorithmus initiéiert als éischt d'Zenter (oder Zentroiden) vun de k Partitionen. An enger Nossschuel, k-bedeit Clustering Algorithmus verdeelt dann Memberen op Basis vun den aktuellen Zentren a re-estiméiert Zenteren op Basis vun den aktuellen Memberen. Dës zwee Schrëtt gi widderholl bis eng gewësse intra-Cluster Ähnlechkeet Objektiv Funktioun an Inter-Cluster Verschiddenheet objektiv Funktioun optiméiert sinn. Dofir ass eng sënnvoll Initialiséierung vun Zenteren e ganz wichtege Faktor fir Qualitéitsresultater aus Partitional Clustering Algorithmen ze kréien.

Wat ass den Ënnerscheed tëscht Hierarchescher an Deelweis Clustering?

Hierarchesch a Partitional Clustering hunn Schlësselunterscheeder an der Zäit vun der Gestaltung, Viraussetzungen, Inputparameter a resultéierend Cluster. Typesch ass Partitional Clustering méi séier wéi hierarchesch Clustering. Hierarchesch Stärekoup erfuerdert nëmmen eng Ähnlechkeetsmoossnam, wärend deelweis Clustering méi staark Viraussetzunge wéi Zuel vu Stärekéip an den initialen Zentren erfuerdert. Hierarchesch Clustering erfuerdert keng Inputparameter, wärend Partitional Clustering Algorithmen erfuerdert d'Zuel vu Cluster fir ze lafen. Hierarchesch Clustering bréngt eng vill méi sënnvoll an subjektiv Divisioun vu Cluster zréck mee partitional Clustering resultéiert an exakt k Stärekéip. Hierarchesch Clustering Algorithmen si méi gëeegent fir kategoresch Daten soulaang eng Ähnlechkeetsmoossnam dementéiert kann definéiert ginn.