Категориальный анализ главных компонентов (Categorical Principal Components Analysis, CATPCA)

Эта процедура одновременно представляет категориальные переменные в количественном виде и сокращает размерность данных. Категориальный анализ главных компонентов известен также под аббревиатурой CATPCA (от categorical principal components analysis).

Задача анализа главных компонентов - сократить исходный набор переменных до меньшего набора некоррелированных переменных, которые несут основную часть информации, заключающуюся в исходных переменных. Этот метод наиболее полезен, когда из-за большого числа переменных затруднена эффективная интерпретация взаимосвязей между объектами (предметами и элементами). Сокращение размерности позволяет интерпретировать уже не большое количество переменных, а всего несколько компонентов.

В стандартном анализе главных компонентов предполагается линейность связей между числовыми переменными. С другой стороны, в методе оптимального масштабирования допускается разное масштабирование переменных. Категориальные переменные наилучшим образом оцифровываются в заданной размерности. Это позволяет смоделировать нелинейные зависимости между переменными.

Пример. Категориальный анализ главных компонентов может использоваться для графического представления взаимосвязи между категорией работы, подразделением работы, регионом, объемом поездок (высокий, средний, низкий) и удовлетворенностью работой. Может оказаться, что значительная часть общей дисперсии объясняется всего двумя компонентами, укладываясь в двумерную картину. Например, первый компонент может отделить категорию работы от региона, а вторая - подразделение работы от количества поездок. Вы можете также обнаружить, что высокая удовлетворенность работой наблюдается при среднем уровне числа поездок.

Статистики и графики. Частоты, пропущенные значения, уровень оптимального масштабирования, режим, дисперсия, объясняемая координатами центроидов, координаты векторов, всего на переменную и на измерение, нагрузки компонентов на переменные в векторном выражении, квантификация категорий и координаты, хронология итераций, корреляции преобразованных переменных и собственные значения корреляционной матрицы, корреляции исходных переменных и собственные значения корреляционной матрицы оценки объектов, графики категорий, совместные графики категорий, графики преобразований, графики остатков, графики спроецированных центроидов, графики объектов, биплоты, триплоты и графики нагрузок компонентов.

Данные категориального анализа главных компонентов

Данные. Значения текстовых переменных всегда преобразуются в положительные целые числа в возрастающем алфавитно-цифровом порядке. Пользовательские значения отсутствия, системные значения отсутствия и значения меньше 1 считаются пропущенными. Чтобы значения меньше 1 стали допустимыми, их можно перекодировать или добавить константу.

Допущения. Данные должны содержать, как минимум, три допустимых наблюдения. Этот анализ основан на целых положительных данных. Опция дискретизации автоматически категоризирует переменные с дробными значениями, группируя значения в категории с распределением, близким к нормальному, и автоматически преобразует значения текстовых переменных в положительные целые числа. Вы можете задать другие схемы дискретизации.

Родственные процедуры. Масштабирование всех переменных на числовом уровне соответствует стандартному анализу главных компонентов. Использование преобразованных переменных в стандартном линейном анализе главных компонент дает альтернативные возможности построения диаграмм. Если у каждой переменной есть несколько номинальных уровней масштабирования, категориальный анализ главных компонентов идентичен анализу множественных соответствий. Если нас интересуют наборы переменных, следует использовать категориальный (нелинейный) анализ канонических корреляций.

Чтобы выполнить категориальный анализ главных компонентов

Для этой возможности требуется опция Категории.

  1. Выберите в меню:

    Анализ > Снижение размерности > Оптимальное масштабирование

  2. Выберите Некоторые переменные - не множественные номинальные.
  3. Выберите Один набор.
  4. Щелкните по Задать .
  5. Выберите для анализа минимум две переменные и задайте число измерений в результате.
  6. Нажмите кнопку OK.

Можно указать необязательные дополнительные переменные, которые будут добавлены в найденное решение, а также снабдить переменные на диаграммах метками.

Эта процедура вставит синтаксис команды CATPCA .