حساب IBM الخاص بي تسجيل الدخول اشترك

ما هو التجميع؟

21 فبراير 2024

ما هو التجميع؟

التجميع هو خوارزمية تعلم آلي غير خاضع للإشراف تنظِّم كائنات أو نقاط بيانات أو ملاحظات مختلفة وتصنِّفها في مجموعات بناءً على أوجه التشابه أو الأنماط.

هناك مجموعة متنوعة من الطرق لاستخدام التجميع في التعلم الآلي بدءًا من الاستكشافات الأولية لمجموعة البيانات إلى مراقبة العمليات الجارية. يمكنك استخدامه في التحليل الاستكشافي للبيانات مع مجموعة بيانات جديدة لفهم الاتجاهات والأنماط والقيم الخارجية. وبدلاً من ذلك، قد يكون لديك مجموعة بيانات أكبر تحتاج إلى تقسيمها إلى مجموعات بيانات متعددة أو تقليلها باستخدام تقليل الأبعاد. في هذه الحالات، يمكن أن يكون التجميع خطوة في المعالجة المسبقة.

يمكن أن تتضمن أمثلة التجميعات أنواعًا من الموسيقى، أو مجموعات مختلفة من المستخدمين، أو شرائح رئيسية في تقسيم السوق، أو أنواع حركة مرور الشبكة على مجموعة خوادم، أو مجموعات الأصدقاء في شبكة اجتماعية، أو أنواع أخرى كثيرة من الفئات. يمكن أن تستخدم عملية التجميع سمة واحدة فقط من البيانات أو يمكن أن تستخدم جميع السمات الموجودة في البيانات.

من المفيد أن نعتبر التجميع كعملية تهدف إلى إيجاد تجمعات طبيعية في البيانات؛ وذلك لفهم الفئات المحتملة وما يميز تلك الفئات.يمكن أن تساعدك المجموعات في العثور على العلاقات الأساسية بين نقاط البيانات لمعرفة الميزات أو الخصائص المشتركة عبر الفئات.واستنادًا إلى خوارزمية التجميع المستخدمة، قد تتمكن من إزالة القيم الخارجية من بياناتك أو تصنيفها كقيم خارجية. يمكن أن يساعد التجميع أيضًا على اكتشاف الحالات غير الطبيعية عن طريق اكتشاف نقاط البيانات غير الموجودة داخل المجموعة أو المرتبطة بشكل ضعيف بالمجموعة فقط وبالتالي قد تكون حالة غير طبيعية في عملية إنشاء البيانات.

يمكن أيضًا استخدام التجميع لتقليل تعقيد مجموعات البيانات الكبيرة عن طريق تقليل عدد أبعاد البيانات. إذا رأيت أن الفئات محددة بواسطة سمتين أو ثلاث سمات فقط، فقد تتمكن من إزالة السمات الدخيلة أو استخدام تقنيات تقليل الأبعاد مثل تحليل العناصر الرئيسية (PCA).ويُعَد التجميع مفيدًا جدًا أيضًا في إنشاء تصورات لمجموعات البيانات لمعرفة الخصائص الناشئة للبيانات بالإضافة إلى الكثافة والعلاقات بين المجموعات.

يتم أحيانًا تقسيم خوارزميات التجميع إلى نوعين: التجميع الصارم، حيث تنتمي كل نقطة بيانات إلى مجموعة واحدة فقط ولها قيمة ثنائية تُحدد إن كانت في المجموعة أم لا، والتجميع اللين، الذي يمنح كل نقطة بيانات احتمال الانتماء إلى كل مجموعة محددة. لا توجد عملية تجميع واحدة هي الأفضل، بل يتعين عليك اختيار الأسلوب الذي يتناسب أكثر مع احتياجاتك والبيانات التي تعمل عليها.

أنواع التجميع

هناك العديد من خوارزميات التجميع المختلفة؛ وذلك لوجود طرق متعددة لتحديد المجموعة.تختلف فاعلية الأساليب باختلاف أنواع النماذج، حيث يعتمد ذلك على حجم البيانات المدخلة، وأبعادها، وصرامة الفئات، وعدد المجموعات الموجودة في مجموعة البيانات.تجدر الإشارة إلى أن إحدى الخوارزميات قد تعمل بشكل جيد للغاية مع مجموعة بيانات واحدة وبشكل سيئ للغاية في مجموعة أخرى.يتناول هذا القسم خمسة من الأساليب شائعة الاستخدام في التجميع.هناك تقنيات أخرى مثل التجميع الطيفي أو التجميع بالمتوسط المتحوّل، لكنها خارج نطاق هذه المقالة.

التجميع القائم على النقطة المركزية

التجميع القائم على النقطة المركزية هو نوع من طرق التجميع التي تقوم بتقسيم مجموعة البيانات أو تصنيفها إلى مجموعات متشابهة بناءً على المسافة بين نقاطها المركزية.النقطة المركزية، أو المركز، لكل مجموعة هو إما متوسط أو وسيط لجميع النقاط في المجموعة؛ وذلك اعتمادًا على البيانات.

تُعَد خوارزمية التجميع بالمتوسطات (k-means) إحدى أكثر تقنيات التجميع القائمة على النقطة المركزية استخدامًا.تفترض خوارزمية K-means أن مركز كل مجموعة يحدد المجموعة باستخدام مقياس المسافة إلى المركز، وعادةً ما تكون المسافة الإقليدية. لتهيئة التجميع، يمكنك توفير عدد من المجموعات المتوقعة، والتي تمثل "K" في K-means، وتحاول الخوارزمية العثور على مجموعات معقولة عبر البيانات لمطابقة هذا الرقم.يتم تحديد مجموعات k المثلى في مجموعة البيانات المحددة عن طريق تقليل المسافة الإجمالية بشكل متكرر بين كل نقطة والمجموعة المركزية المخصصة لها.

تُعَد K-means (التجميع بالمتوسطات) نهج تجميع صعبًا، ما يعني أنه يتم تعيين كل نقطة بيانات إلى مجموعة منفصلة ولا يوجد احتمال مرتبط بعضوية المجموعة. تعمل K-mean بشكل جيد عندما تكون المجموعات ذات حجم مكافئ تقريبًا، ولا توجد قيم خارجية كبيرة أو تغييرات في الكثافة عبر البيانات. غالبًا ما يكون أداء K-means ضعيفًا عندما تكون البيانات عالية الأبعاد أو عندما يكون للمجموعات أحجام أو كثافات مختلفة بشكل كبير. كما أن K-means حسَّاسة بشكل خاص للقيم الخارجية؛ لأنها تحاول إنشاء نقاط مركزية بناءً على القِيَم المتوسطة لجميع القِيَم في المجموعة، وبالتالي فهي عرضةً للتكيّف المفرط لتضمين تلك القيم الخارجية.

وهناك نهج آخر قائم على النقطة المركزية في خوارزمية K-means، وهو K-medoids. تُعَد Medoids كائنات تمثيلية لمجموعة بيانات أو مجموعة ضمن مجموعة بيانات يكون مجموع المسافات بينها وبين الكائنات الأخرى في تلك المجموعة هو الحد الأدنى.وبدلًا من اختيار نقطة مركزية عشوائية لتكون مركز المجموعة في الرسم البياني، تُنشئ الخوارزمية مجموعات باستخدام نقاط بيانات فردية كوسيط أو مركز للمجموعة.ونظرًا لأن خوارزمية K-medoids تستخدم نقاط البيانات الموجودة بدلًا من استخدام نقاط مركزية عشوائية، فإنها تكون أقل حساسية للتأثيرات الناتجة عن القِيَم الخارجية.

التجميع الهرمي

يعمل التجميع الهرمي، الذي يُطلق عليه أحيانًا اسم التجميع القائم على الاتصال، على تجميع نقاط البيانات معًا بناءً على مدى قرب سماتها وارتباطها. تحدد هذه الطريقة المجموعات بناءً على مدى قرب نقاط البيانات من بعضها عبر جميع الأبعاد.وتكمن الفكرة في أن الأشياء القريبة من بعضها تكون أكثر ارتباطًا من تلك التي تكون بعيدة عن بعضها.وعلى عكس k-means، ليست هناك حاجة إلى تحديد عدد المجموعات مسبقًا. بدلًا من ذلك، تُنشئ خوارزمية التجميع شبكة رسم بياني للمجموعات على كل مستوى من مستويات التسلسل الهرمي.هذه الشبكة هرمية، ما يعني أن أي عقدة معينة فيها تحتوي على عقدة أصل واحدة فقط ولكن قد تحتوي على عقد فرعية متعددة. يمكن رسم المجموعات الهرمية بيانيًا باستخدام مخطط الشجرة النمطية للمساعدة على تلخيص وتنظيم المجموعات المكتشفة مرئيًا والتسلسل الهرمي الذي قد تحتويه.

هناك طريقتان لإجراء تحليل التجميع الهرمي:

النهج التصاعدي: في التجميع التصاعدي يبدأ النهج التصاعدي من الأسفل إلى الأعلى بنقاط بيانات فردية ويدمج المجموعات تباعًا عن طريق حساب مصفوفة القُرب لجميع المجموعات في المستوى الحالي من التسلسل الهرمي لإنشاء بنية تشبه الشجرة. بمجرد إنشاء مستوى واحد من المجموعات لا يوجد فيه تشابه بين جميع المجموعات أو يوجد تشابه ضئيل، تنتقل الخوارزمية إلى مجموعة من المجموعات التي تم إنشاؤها حديثًا وتكرِّر العملية حتى تكون هناك عقدة جِذر واحدة في الجزء العلوي من الرسم البياني الهرمي. هناك مجموعة متنوعة من الخيارات الممكنة من حيث كيفية دمج هذه المجموعات مع بعضها مع توازنات من حيث جودة التجميع وكفاءته. في التجميع باستخدام الربط الأحادي، يتم استخدام أقصر مسافة بين أي زوج من نقاط البيانات في مجموعتين كمقياس للتشابه.وفي ربط جميع الأزواج، يتم استخدام المتوسط عبر جميع أزواج نقاط البيانات، بينما في الربط العيني، يتم استخدام عينة من نقاط البيانات في المجموعتين لحساب متوسط المسافة.وفي ربط النقاط المركزية، يتم استخدام المسافة بين النقاط المركزية. أحد التحديات التي تواجه الأساليب التصاعدية هو أنها يمكن أن تُظهر ظاهرة التوسع التسلسلي، حيث تميل المجموعات الكبيرة إلى أن تكون أقرب إلى النقاط الأخرى بشكل طبيعي، ما يؤدي إلى استمرار زيادة حجمها وجذب المزيد من نقاط البيانات إلى تلك المجموعة. ومن عيوب الأساليب التصاعدية أنها قد تكون أبطأ بكثير من الأساليب التنازلية في بناء التسلسل الهرمي.

النهج التنازلي: في الأساليب التنازلية للتجميع الهرمي، يقوم النهج التنازلي بتقسيم نقاط البيانات تباعًا إلى بنية شبيهة بالشجرة.الخطوة الأولى هي تقسيم مجموعة البيانات إلى مجموعات باستخدام طريقة تجميع مسطح مثل K-Means. ثم يتم تقسيم المجموعات ذات أكبر مجموع من الأخطاء التربيعية (SSE) بشكل أكبر باستخدام طريقة التجميع المسطح.تتوقف الخوارزمية إما عندما تصل إلى عقد فردية أو إلى حد أدنى من مجموع الأخطاء التربيعية. يسمح التقسيم التنازلي بمزيد من المرونة من حيث كل من الهيكل الهرمي للشجرة ومستوى التوازن في المجموعات المختلفة. ليس من الضروري أن تكون لديك شجرة متوازنة تمامًا من حيث أعماق العُقَد المختلفة أو شجرة تكون فيها درجة كل فرع هي اثنان بالضبط.ويُتيح ذلك بناء هيكل شجرة يسمح بمفاضلات مختلفة في موازنة أعماق العقدة وأوزان العُقَد (عدد نقاط البيانات في العقدة). يمكن أن يكون التجميع الهرمي التنازلي أسرع من التجميع الهرمي التصاعدي، خاصةً عندما لا تتطلب البيانات إنشاء الشجرة وصولًا إلى نقاط البيانات الفردية.

التجميع القائم على التوزيع

يقوم التجميع القائم على التوزيع، والذي يُطلق عليه أحيانًا التجميع الاحتمالي، بتجميع نقاط البيانات معًا بناءً على توزيعها الاحتمالي. يفترض هذا النهج أن هناك عملية تولِّد توزيعات طبيعية لكل بُعد من أبعاد البيانات التي تنشئ مراكز المجموعات.وهو يختلف عن التجميع القائم على النقطة المركزية من حيث إنه لا يستخدم مقياس مسافة مثل المسافة الإقليدية أو مسافة مانهاتن. بدلًا من ذلك، تبحث الأساليب القائمة على التوزيع عن توزيع محدد بوضوح يظهر في كل بُعد من أبعاد البيانات. متوسطات المجموعات هي متوسطات توزيع غاوسي (Gaussian) في كل بُعد من أبعاد البيانات. التجميع القائم على التوزيع هو نهج قائم على النماذج لتجميع البيانات؛ حيث يتطلب تطبيق توزيع على البيانات عدة مرات عبر كل بُعد من الأبعاد للعثور على المجموعات، وهذا يعني أنه يمكن أن يكون مكلفًا حسابيًا عند التعامل مع مجموعات بيانات كبيرة.

أحد الأساليب شائعة الاستخدام للتجميع القائم على التوزيع هو إنشاء نموذج مزيج غاوسي (GMM) من خلال التوقع-التعظيم. سُمِّي نموذج GMM بهذا الاسم بسبب افتراض أن كل مجموعة يتم تعريفها بواسطة توزيع غاوسي، وغالبًا ما يُطلق عليه التوزيع الطبيعي.

يمكننا التفكير في مجموعة بيانات تحتوي على مجموعتين متميزتين، A و B، حيث يتم تعريف كل مجموعة بواسطة توزيع غاوسي مختلف: واحد يمتد على المحور السيني (x-axis) وآخر يمتد على المحور الصادي (y-axis).تبدأ خوارزمية التوقع-التعظيم (Expectation-Maximization) بتخمين عشوائي لماهية التوزيعات الموجودة على كل محور، ثم تبدأ بتحسين هذا التخمين بشكل تدريجي من خلال التبديل بين خطوتين:

التوقع: عيِّن كل نقطة بيانات إلى كل مجموعة من المجموعات واحسب احتمال أن تكون قد أتت من المجموعة A والمجموعة B.

التعظيم: تحديث المَعلمات التي تحدد كل مجموعة وموقع المتوسط المرجح ومصفوفة التباين والتغاير، بناءً على احتمالية وجود كل نقطة بيانات في المجموعة. ثم تكرار خطوة التوقع حتى تتقارب المعادلة مع التوزيعات الملاحظة لكل مجموعة.

يتم إعطاء كل نقطة بيانات احتمال ارتباطها بمجموعة ما.وهذا يعني أن التجميع باستخدام خوارزمية "التوقع-التعظيم" هو نهج تجميع ناعم وأن نقطة معينة قد تكون مرتبطة بشكل محتمل بأكثر من مجموعة واحدة.وقد يكون هذا منطقيًا في بعض السيناريوهات، مثل أن تكون الأغنية تحتوي على تأثيرات أو عناصر من أنواع موسيقية متعددة (الفولك أو الروك)، أو أن يكون لدى المستخدم تفضيل لمشاهدة البرامج التليفزيونية باللغة الإسبانية، لكنه أحيانًا يشاهد أيضًا برامج باللغة الإنجليزية.

التجميع القائم على الكثافة

يعمل التجميع القائم على الكثافة من خلال اكتشاف المناطق التي تتركز فيها النقاط وأماكن فصلها بمساحات فارغة أو قليلة.على عكس الأساليب القائمة على النقاط المركزية، مثل K-means، أو الأساليب القائمة على التوزيع، مثل "التوقع-التعظيم"، يمكن للتجميع القائم على الكثافة اكتشاف مجموعات بأشكال غير محددة. يمكن أن يكون هذا مفيدًا للغاية عندما لا يتم تحديد المجموعات حول موقع أو توزيع معين.على عكس خوارزميات التجميع الأخرى، مثل K-means والتجميع الهرمي، يمكن للخوارزمية القائمة على الكثافة اكتشاف مجموعات من أي شكل أو حجم أو كثافة في بياناتك. يمكن للتجميع القائم على الكثافة أيضًا التمييز بين نقاط البيانات التي تشكل جزءًا من المجموعة وتلك التي يجب تصنيفها على أنها ضوضاء. يُعَد التجميع القائم على الكثافة مفيدًا بشكل خاص عند العمل مع مجموعات البيانات ذات الضوضاء أو القيم الخارجية أو عندما لا يكون لدينا معرفة مسبقة بعدد المجموعات في البيانات.

تُعَد DBSCAN مثالًا على خوارزمية التجميع التي تتبع نهجًا قائمًا على الكثافة في التجميع. وهي تَستخدِم نهج التجميع المكاني القائم على الكثافة لإنشاء مجموعات تعتمد على كثافة يحدِّدها المستخدم والتي تتمحور حول نقطة مركزية مكانية.يُشار إلى المنطقة المحيطة بالنقطة المركزية مباشرةً على أنها حي وتحاول DBSCAN تحديد الأحياء من المجموعات التي لها الكثافة المحددة.لكل مجموعة، ستحدِّد DBSCAN ثلاثة أنواع من نقاط البيانات:

النقاط الأساسية: تُعتبر نقطة البيانات نقطة أساسية إذا كان الحي المحيط بنقطة البيانات تلك يحتوي على الأقل على عدد من النقاط يساوي الحد الأدنى لعدد النقاط الذي حدده المستخدم.

نقاط الحدود: تُعَد نقطة البيانات نقطةً حدوديةً إذا كان الحي المحيط بنقطة البيانات هذه يحتوي على أقل من الحد الأدنى لعدد نقاط البيانات ولكن الحي المحيط بهذه النقطة يحتوي على نقطة أساسية.

النقاط الخارجية: تُعتبر نقطة البيانات خارجية إذا لم تكن نقطة أساسية ولا نقطة حدودية.وفي الأساس، هذه هي الفئة "الأخرى".

يُعتبر HDBSCAN متغيرًا من DBSCAN لا يتطلب تعيين أي مَعلمات، ما يجعله أكثر مرونة مقارنةً بالإصدار الأصلي. وهو أقل حساسية للقيم غير الطبيعية والقيم الخارجية في البيانات. بالإضافة إلى ذلك، يمكن أن يواجه DBSCAN أحيانًا مشكلة في تحديد المجموعات ذات الكثافة غير المنتظمة. كان ذلك دافعًا رئيسيًا لتطوير HDBSCAN، وهو يتعامل مع المجموعات ذات الكثافة المتغيرة بطريقة أكثر فاعلية.

التجميع القائم على الشبكة

لا يتم استخدام خوارزميات التجميع القائمة على الشبكة بالقدر نفسه مثل الأساليب الأربعة السابقة، ولكن يمكن أن تكون مفيدة في تجميع البيانات عالية الأبعاد حيث قد لا تكون الخوارزميات الأخرى فعَّالة بالقدر نفسه.في هذا النهج، تقوم الخوارزمية بتقسيم مجموعة البيانات عالية الأبعاد إلى خلايا. ويتم تعيين معرِّف فريد لكل خلية يُسمَّى معرِّف الخلية، وتُعتبر جميع نقاط البيانات التي تقع داخل الخلية جزءًا من المجموعة نفسها.

يُعَد التجميع القائم على الشبكة خوارزميةً فعَّالة لتحليل مجموعات البيانات الكبيرة متعددة الأبعاد؛ لأنه يقلل من الوقت اللازم للبحث عن الجيران الأقرب، وهي خطوة شائعة في العديد من طرق التجميع.

تُسمَّى إحدى خوارزميات التجميع الشائعة القائمة على الشبكة "STING"، والتي تعني شبكة المعلومات المعيارية.في STING، تنقسم المنطقة المكانية إلى خلايا مستطيلة وعدة مستويات من الخلايا بمستويات دقة مختلفة.تنقسم الخلايا عالية المستوى إلى عدة خلايا منخفضة المستوى. يمكن أن تكون خوارزمية STING فعَّالة للغاية في مجموعات الحوسبة في سيناريوهات البيانات الكبيرة حيث تكون مجموعات البيانات كبيرة للغاية؛ لأنها ببساطة تقسِّم مجموعة البيانات بشكل متكرر إلى شبكات أدق وتُقيِّم عدد النقاط داخل تلك الشبكة. يتمثل أحد عيوب STING في أن حدود المجموعات يجب أن تكون محددة أفقيًا أو رأسيًا، ولا تستطيع الخوارزمية اكتشاف حدود المجموعات غير المستطيلة.

هناك خوارزمية أخرى قائمة على الشبكة، وهي خوارزمية CLIQUE (أو Clustering In Quest)، والتي تُعتبر قوية بشكل خاص مع البيانات عالية الأبعاد.تجمع خوارزمية CLIQUE بين النهج القائم على الشبكة والنهج القائم على الكثافة للتجميع. في هذه الخوارزمية، يتم تقسيم مساحة البيانات إلى شبكة وتتم مقارنة الكثافة النسبية للنقاط داخل خلايا الشبكة ويتم دمج المساحات الفرعية ذات الكثافات المتشابهة. يعثر هذا النهج على الوحدات الكثيفة في جميع المساحات الفرعية ذات الأهمية ثم يقيِّم إذا ما كان ينبغي ربط المجموعات المتشابهة معًا. وهذا يعني أن خوارزمية CLIQUE يمكنها اكتشاف مجموعات من الأشكال العشوائية في البيانات عالية الأبعاد.

تقييم التجميع

هناك العديد من مقاييس التقييم لتحليل التجميع، واختيار المقياس المناسب يعتمد على نوع خوارزمية التجميع ومجموعة البيانات المعنية. ويمكن تقسيم مقاييس التقييم بشكل عام إلى فئتين رئيسيتين: الخارجية والجوهرية.

المقاييس الجوهرية

المقاييس الجوهرية هي مقاييس تقييم لتحليل المجموعات تَستخدِم فقط المعلومات الموجودة داخل مجموعة البيانات. ويمكن أن تكون هذه المقاييس مفيدة عند العمل مع بيانات غير مصنَّفة. وتعتمد جودة التحليل بالكامل على العلاقات بين نقاط البيانات. ويمكن استخدام هذه المقاييس عند عدم توفر معلومات سابقة عن البيانات أو تصنيفات لها. ومن المقاييس الجوهرية الشائعة ما يلي:

مؤشر السيلويت (Silhouette): يقيِّم هذا المقياس مدى التشابه والاختلاف لكل نقطة بيانات بالنسبة إلى مجموعتها الخاصة وبقية المجموعات. تتراوح قِيَم المقاييس من -1 إلى +1. تُشير القيمة العالية إلى أن الكائن متطابق جيدًا مع مجموعته الخاصة وغير متطابق بشكل جيد مع المجموعات المجاورة.

مؤشر دافيس-بولدين (Davies-Bouldin): يحسب هذا المقياس نسبة المسافة داخل المجموعة إلى المسافة بين المجموعات.وكلما انخفضت درجة المؤشر، كان أداء التجميع أفضل.

مؤشر كالينسكي–هاراباز (Calinski–Harabasz): يُعرف أيضًا باسم معيار نسبة التباين، وهو يقيس نسبة التباين بين المجموعات وداخلها.وكلما زادت نسبة كالينسكي-هاراباز، كان التجمع أكثر وضوحًا.

يمكن أن تساعدنا مقاييس التقييم هذه على مقارنة أداء خوارزميات التجميع ونماذجه المختلفة، وتحسين مَعلمات التجميع، والتحقق من دقة التجميع وجودة نتائجه.

المقاييس الخارجية

تَستخدِم المقاييس الخارجية الحقيقة الأساسية أو المعلومات الخارجية لتقييم صحة أداء خوارزمية التجميع. ويتطلب ذلك شكلًا من أشكال البيانات المصنَّفة التي تؤكِّد الفئة أو المجموعة التي تنتمي إليها كل نقطة بيانات. في هذه الحالة، يمكنك مقارنة دقة تحليل التجميع الخاص بك مع المقاييس المستخدمة غالبًا في دقة التصنيف. ومن المقاييس الخارجية الشائعة ما يلي:

F-score (المعروف أيضًا بمقياس F): يقيس هذا المقياس دقة خوارزمية التجميع من خلال النظر في الدقة والاسترجاع عند مقارنة تجميع مقترح مع الحقائق الأساسية.في حالة استخدام مقياس F-score، كلما كانت القيمة أعلى، كانت النتيجة أفضل.

النقاء: يقيس هذا المقياس نسبة نقاط البيانات التي تم تعيينها بشكل صحيح إلى الفئة أو المجموعة نفسها التي تنتمي إليها. في حالة استخدام مقياس النقاء، كلما كانت القيمة أعلى، كانت النتيجة أفضل.

مؤشر راند (Rand): هو مقياس لمدى التشابه بين التصنيفات الحقيقية والتصنيفات المتوقعة لخوارزمية التجميع، ويكون المقياس من 0 إلى 1. حيث تُشير القيمة الأعلى إلى أداء تجميع أفضل.

مقياس تباين المعلومات (Variation of Information) (ويُسمَّى أيضًا "مسافة المعلومات المشتركة"): وهو مقياس يُستخدم لتحديد كمية المعلومات التي تم فقدانها واكتسابها بين مجموعتين.ويمكن أن يكون هذا بين تجميع حقيقي أساسي وتجميع تم إنشاؤه بواسطة خوارزمية أو بين مجموعتين مختلفتين.والرقم الأصغر هو الأفضل؛ لأنه يشير إلى وجود مسافة أصغر بين نتيجتين للتجميع.

تطبيقات التجميع

هناك العديد من المجالات التطبيقية التي يكون فيها التجميع أداة قيمة لاستخراج البيانات أو تحليل البيانات الاستكشافية. ويمكننا ذكر أمثلة قليلة فقط من هذه المجالات هنا لإعطاء فكرة عن أهمية هذا النوع من التحليل.

الكشف عن حالات الخلل

يمكن أن يساعد التجميع على الكشف عن الحالات غير الطبيعية عن طريق قياس نقاط البيانات غير المدرجة في بنية التجميع المحددة بواسطة تحليل المجموعة.يمكن اعتبار نقاط البيانات التي تنتمي إلى مجموعات صغيرة أو متفرقة جدًا أو بعيدة عن المجموعة المخصصة لها حالات غير طبيعية. تُستخدم الطرق القائمة على الكثافة مثل "التوقع-التعظيم" لتحديد نقاط البيانات في المناطق الكثيفة على أنها عادية وتلك الموجودة في المناطق منخفضة الكثافة على أنها حالات غير طبيعية.

أبحاث السوق

عندما نحاول فهم شخصيات العملاء أو المجموعات الفرعية من الأسواق التي قد توجد، يمكن أن يكون التجميع أداة قوية للمساعدة على تقسيم العملاء. ويمكنك دمج البيانات الديموغرافية مع بيانات سلوك العملاء للعثور على أنواع الخصائص وأنماط الشراء التي تتوافق في كثير من الأحيان.

تقسيم الصورة

يمكن تجميع وحدات البكسل الخاصة بالصور بطرق متنوعة تساعد على تقسيم الصورة إلى أقسام مختلفة لفصل المقدمة عن الخلفية، أو الكشف عن الكائنات باستخدام أوجه التشابه في اللون والسطوع، أو تقسيم الصور إلى مناطق ذات أهمية لمزيد من المعالجة.بالنسبة إلى الصور، تقوم طرق التجميع بمعالجة وحدات البكسل في الصورة وتحديد المناطق التي تمثِّل المجموعة داخل الصورة.

معالجة الوثائق

يمكن أن يكون تحليل التجميع مفيدًا في معالجة المستندات بطرق متعددة.حيث يمكن تجميع المستندات حسب التشابه لإظهار المستندات الأكثر تشابهًا مع بعضها. ويمكن أن يعتمد ذلك على طول المستند أو توزيع تكرار الكلمات أو طرق مختلفة أخرى لتحديد الخصائص الرئيسية حول المستند. ومن حالات الاستخدام الشائعة الأخرى تحليل مجموعات أقسام المستند بناءً على تكرار الكلمات الرئيسية أو طول الجمل أو توزيعات المصطلحات. يمكن أن يساعد ذلك على تلخيص المستندات أو تقسيم المستندات الكبيرة إلى مجموعات بيانات أصغر لمزيد من التحليل.