Модели кластеризации

Модели кластеризации уделяют главное внимание идентификации групп сходных записей и присвоению меток записям в соответствии с группами, к которым они принадлежат. При этом не используются преимущества предварительных знаний о группах и их характеристиках. Фактически вы можете даже не знать, сколько именно групп ищется. Это отличает модели кластеризации от других приемов машинного обучения - нет предварительно определенного выходного поля (поля назначения), значение в котором предсказывалось бы моделью. Эти модели часто называют моделями неконтролируемого обучения, так как не существует внешнего стандарта, по которому можно было бы судить о выполнении классификации модели. У этих моделей нет правильных или неправильных ответов. Их ценность в способности захватывать интересные группировки данных и представлять полезные описания этих группировок.

Способы кластеризации основываются на измерении расстояний между записями и между кластерами. Записи назначаются кластерам таким образом, чтобы минимизировать расстояние между записями, принадлежащими одному кластеру.

Предоставляются следующие способы кластеризации:

Узел K-средних кластеризует набор данных в отдельные группы (или кластеры). Этот метод определяет фиксированное количество кластеров, итерационно распределяет записи по кластерам и настраивает центры кластеров, пока дальнейшие уточнения более не улучшают модель. Вместо попытки предсказать выходное значение k-средние используют процесс, называемый неконтролируемым обучением, чтобы обнаружить структуры в наборе входных полей.
Узел Двухшаговый использует метод двухшаговой кластеризации. На первом шаге проводится первый проход по данным, при котором необработанные входные данные сжимаются в управляемый набор подкластеров. На втором шаге используется способ иерархической кластеризации для все большего слияния подкластеров в крупные и еще более крупные кластеры. У двухшагового метода есть преимущество автоматической оценки оптимального числа кластеров для обучающих данных. Он может эффективно обрабатывать поля смешанных типов и большие наборы данных.
Узел Коонена генерирует тип нейросети, которую можно использовать для кластеризации набора данных в отдельные группы. Когда сеть полностью обучена, похожие записи должны быть близко друг от друга на выходной карте, а отличающиеся записи должны быть сильно разделены. По количеству наблюдений, захваченных каждым нейроном в слепке модели, можно определить сильные нейроны. Это может дать представление об оправданном количестве кластеров.
Иерархическая пространственная кластеризация на основе плотности (Hierarchical Density-Based Spatial Clustering, HDBSCAN©) использует обучение без учителя для поиска кластером или областей высокой плотности в наборе данных. Узел HDBSCAN в SPSS Modeler проявляет базовые функции и обычно используемые параметры библиотеки HDBSCAN. Этот узел реализован на языке Python и может использоваться для кластеризации набора данных на отдельные группы, когда вы изначально не знаете, что собой представляют эти группы.

Модели кластеризации часто используются для создания кластеров или сегментов, которые используются в качестве входных данных при последующем анализе. Простой пример этого - сегменты рынка, используемые маркетологами для разделения рынка их продукции на однородные подгруппы. У каждого сегмента есть свои специальные характеристики, влияющие на успех нацеленных на данный сегмент маркетинговых усилий. Если для оптимизации маркетинговой стратегии используется исследование данных, можно существенно повысить значимость моделей, определив соответствующие сегменты и используя информацию об этих сегментах в ваших предсказательных моделях.