تُعزز تقنيات تقليل الأبعاد، مثل تحليل مكونات البيانات الرئيسية (PCA) والتحليل التمييزي الخطي (LDA) وتضمين الجوار العشوائي الموزع (t-SNE)، نماذج التعلم الآلي،حيث تحافظ هذه التقنيات على الميزات الأساسية لمجموعات البيانات المعقدة من خلال تقليل عدد المتغيرات المتنبئة لزيادة قابلية التعميم.
يُعد تقليل الأبعاد طريقة لتمثيل مجموعة بيانات معينة باستخدام عدد أقل من السمات (أي الأبعاد) مع الحفاظ على السمات ذات المغزى للبيانات الأصلية.1 ويعني ذلك إزالة السمات غير ذات الصلة أو المكررة أو ببساطة البيانات الصاخبة لإنشاء نموذج يحتوي على عدد أقل من المتغيرات. كما يشمل تقليل الأبعاد مجموعة من أساليب اختيار السمات وضغط البيانات المستخدمة أثناء المعالجة المسبقة. وعلى الرغم من اختلاف طرق تقليل الأبعاد في آلية العمل، فإنها جميعًا تحول المساحات عالية الأبعاد إلى مساحات منخفضة الأبعاد من خلال استخراج المتغيرات أو دمجها.
في التعلم الآلي، الأبعاد (أو السمات) هي المتغيرات المتنبئة التي تحدد مخرجات النموذج. كما يُمكن أن تُسمى المتغيرات المدخلة.وتُشير البيانات عالية الأبعاد إلى أي مجموعة بيانات تحتوي على عدد كبير من المتغيرات المتنبئة.حيث يمكن أن تظهر مثل هذه المجموعات من البيانات بشكل متكرر في علم الأحياء الإحصائي وكذلك في الدراسات الرصدية للعلوم الاجتماعية، حيث يفوق عدد نقاط البيانات (أي الملاحظات) عدد المتغيرات المتنبئة.
تُشكل مجموعات البيانات عالية الأبعاد عددًا من المخاوف العملية لخوارزميات التعلم الآلي، مثل زيادة وقت الحوسبة ومساحة التخزين للبيانات الكبيرة وغيرها الكثير. ومع ذلك، فإن التحدي الأكبر قد يكون انخفاض الدقة في النماذج التنبؤية. فغالبًا ما تعمم النماذج الإحصائية ونماذج التعلم الآلي المدربة على مجموعات البيانات عالية الأبعاد بشكل سيئ.
تُشير لعنة الأبعاد إلى العلاقة العكسية بين زيادة أبعاد النموذج وانخفاض قابليته للتعميم.فمع زيادة عدد المتغيرات المدخلة للنموذج، تزداد مساحة النموذج. ومع ذلك، إذا ظل عدد نقاط البيانات كما هو، تصبح البيانات متناثرة.ويعني هذا أن معظم مساحة سمات النموذج فارغة، أي بدون نقاط بيانات قابلة للملاحظة. فمع زيادة تباعد البيانات، تصبح نقاط البيانات مختلفة لدرجة أن النماذج التنبؤية تصبح أقل فعالية في تحديد الأنماط التفسيرية.2
لتفسير الأنماط بشكل كافٍ في البيانات المتناثرة، قد تقوم النماذج بفرط الملاءمة مع بيانات التدريب. وبهذه الطريقة، يمكن أن تؤدي الزيادات في الأبعاد إلى ضعف القابلية للتعميم. يمكن أيضًا للأبعاد العالية أن تعيق تفسير النموذج من خلال إحداث التعدد الخطي. فمع زيادة كمية متغيرات النموذج، تزداد أيضًا إمكانية أن تكون بعض المتغيرات مكررة أو مترابطة.
يُمكن أن يقلل جمع مزيد من البيانات من تباعد البيانات وبالتالي يعوض عن لعنة الأبعاد. ومع زيادة عدد الأبعاد في النموذج، يزداد عدد نقاط البيانات اللازمة للحد من لعنة الأبعاد بشكل كبير.3 وبطبيعة الحال، فإن جمع بيانات كافية ليس ممكنًا دائمًا. وبالتالي، هناك حاجة إلى تقليل الأبعاد لتحسين عملية تحليل البيانات.
تُقلل تقنيات تقليل الأبعاد عادةً من النماذج إلى مساحة أقل أبعادًا عن طريق استخراج ميزات النموذج أو دمجها. ومع ذلك، تختلف خوارزميات تقليل الأبعاد فيما بينها رغم هذا التشابه الأساسي.
تحليل المكونات الرئيسية (PCA) هو ربما الطريقة الأكثر شيوعًا لتقليل الأبعاد.فهو شكل من أشكال استخراج السمات، مما يعني أنه يجمع ويحوّل الميزات الأصلية لمجموعة البيانات لإنتاج سمات جديدة، تُسمى المكونات الرئيسية. وفي الأساس، يختار تحليل المكونات الرئيسية (PCA) مجموعة فرعية من المتغيرات من أحد النماذج بحيث تشكل معًا غالبية أو كل التباين الموجود في مجموعة المتغيرات الأصلية. ثم يقوم تحليل المكونات الرئيسية (PCA) بإسقاط البيانات على مساحة جديدة تُعرَّف بهذه المجموعة الفرعية من المتغيرات.4
على سبيل المثال ، تخيل أن لدينا مجموعة بيانات حول الثعابين بخمسة متغيرات: طول الجسم (X1)، وقطر الجسم عند أوسع نقطة (X2)، وطول الأنياب (X3)، والوزن (X4)، والعمر (X5). بالطب ، قد تكون بعض هذه السمات الخمس مرتبط ، مثل طول الجسم وقطره ووزنه. يمكن أن يؤدي هذا التكرار في السمات إلى بيانات متناثرة والإفراط في الملاءمة، مما يقلل من التباين (أو قابلية التعميم) للنموذج الذي تم إنشاؤه من هذه البيانات. يحسب تحليل المكونات الرئيسية (PCA) متغيرًا جديدًا (PC1) من هذه البيانات الذي يخلط بين متغيرين أو أكثر ويزيد من تباين البيانات. من خلال الجمع بين المتغيرات الزائدة عن الحاجة، يقوم PCA أيضا بإنشاء نموذج بمتغيرات أقل من النموذج الأولي. وبالتالي، نظرًا لأن مجموعة البيانات الخاصة بنا بدأت بخمسة متغيرات (أي خماسية الأبعاد)، يمكن أن يحتوي النموذج المُخفَّض على أي عدد من واحد إلى أربعة متغيرات (أي نموذج أحادي إلى رباعي الأبعاد). وبعد ذلك، يتم تعيين البيانات على هذا النموذج الجديد.5
هذا المتغير الجديد ليس أيًا من المتغيرات الأصلية الخمسة ولكنه سمة مجمعة تم حسابها من خلال تحويل خطي لمصفوفة التباين في البيانات الأصلية. وتحديدًا، يكون مكوننا الرئيسي المجمع هو المتجه الذاتي المقابل لأكبر قيمة ذاتية في مصفوفة التباين. كما يمكننا إنشاء مكونات رئيسية إضافية تجمع بين متغيرات أخرى. المكون الرئيسي الثاني هو المتجه الذاتي للقيمة الذاتية الثانية الأكبر وهكذا.6
التحليل التمييزي الخطي (LDA) يُشابه تحليل المكونات الرئيسية (PCA) من حيث أنه يقوم بإسقاط البيانات على مساحة جديدة أقل أبعادًا، وتُستمد الأبعاد من النموذج الأولي. حيث يختلف التحليل التمييزي الخطي (LDA) عن تحليل المكونات الرئيسية (PCA) في اهتمامه بالاحتفاظ بتسميات التصنيف في مجموعة البيانات. فبينما ينتج تحليل المكونات الرئيسية (PCA) متغيرات مكونات جديدة تهدف إلى زيادة تباين البيانات، ينتج التحليل التمييزي الخطي (LDA) متغيرات مكونات تهدف أيضًا إلى زيادة الفرق بين الفئات في البيانات.7
فخطوات تنفيذ التحليل التمييزي الخطي (LDA) مشابهة لتلك الخاصة بتحليل المكونات الرئيسية (PCA). والاستثناء الرئيسي هو أن الأول يستخدم مصفوفة التشتت بينما يستخدم الأخير مصفوفة التباين. وإلا، كما هو الحال في تحليل المكونات الرئيسية (PCA)، يحسب التحليل التمييزي الخطي (LDA) بحساب تركيبات خطية لسمات البيانات الأصلية التي تتوافق مع أكبر القيم الذاتية في مصفوفة التشتت. فأحد أهداف التحليل التمييزي الخطي (LDA) هو زيادة الفرق بين الفئات إلى الحد الأقصى مع تقليل الفرق داخل الفئات.8
التحليل التمييزي الخطي (LDA) وتحليل المكونات الرئيسية (PCA) هما نوعان من خوارزميات تقليل الأبعاد الخطية. ومع ذلك، يُعد تضمين الجوار العشوائي الموزع (t-SNE) شكل من أشكال تقليل الأبعاد غير الخطية (أو التعلم المتشعب/متعدد الأبعاد). في حين يهدف التحليل التمييزي الخطي (LDA) وتحليل المكونات الرئيسية (PCA) بشكل أساسي إلى الحفاظ على تباين النموذج، فإنهما يُركزان على الاحتفاظ بالمسافات بين نقاط البيانات غير المتشابهة في تمثيلاتها الأقل أبعادًا.وفي المقابل، يهدف تضمين الجوار العشوائي الموزع (t-SNE) إلى الحفاظ على الهيكل المحلي للبيانات مع تقليل أبعاد النموذج، كما يختلف تضمين الجوار العشوائي الموزع (t-SNE) عن التحليل التمييزي الخطي (LDA) وتحليل المكونات الرئيسية (PCA) في أن الأخيرين قد ينتجان نماذج تحتوي على أكثر من ثلاثة أبعاد، طالما أن النموذج الناتج يحتوي على أبعاد أقل من البيانات الأصلية. أما تضمين الجوار العشوائي الموزع (t-SNE)، فيقوم بتصور جميع مجموعات البيانات في بُعدين أو ثلاثة أبعاد.
وكأسلوب تحويل غير خطي، يتخلى تضمين الجوار العشوائي الموزع (t-SNE) عن مصفوفات البيانات. وبدلاً من ذلك، يستخدم تضمين الجوار العشوائي الموزع (t-SNE) نواة غاوسي (Gaussian) لحساب التشابه الزوجي بين نقاط البيانات. حيث يكون للنقاط القريبة من بعضها في المجموعة الأصلية احتمالية أكبر أن تكون قريبة من بعضها مقارنة بالنقاط الأبعد. وبعد ذلك، يرسم تضمين الجوار العشوائي الموزع (t-SNE) نقاط البيانات على مساحة ثلاثية أو ثنائية الأبعاد مع محاولة الحفاظ على أزواج البيانات.9
هناك عدد من طرق تقليل الأبعاد الأخرى، مثل تحليل المكونات الرئيسية (PCA) ذو النواة، وتحليل العوامل، والغابات العشوائية، وتحليل القيمة المفردة (SVD).فطرق تحليل المكونات الرئيسية (PCA) والتحليل التمييزي الخطي (LDA) وتضمين الجوار العشوائي الموزع (t-SNE) هم من بين الأكثر استخدامًا وتداولًا. لاحظ أن كثير من الحزم والمكتبات، مثل scikit-learn، تأتي محملة مسبقًا بوظائف لتنفيذ هذه التقنيات.
غالبًا ما يُستخدم تقليل الأبعاد لغرض عرض البيانات عرضًا مصورًا.
في سياق الأبحاث البيولوجية، حيث يتجاوز عدد المتغيرات الجينية عدد الملاحظات، يتم اللجوء إلى تقنيات تقليل الأبعاد. وعلى هذا النحو، تقارن مجموعة من الدراسات بين تقنيات مختلفة لتقليل الأبعاد، مع تحديد تقنية تضمين الجوار العشوائي الموزع (t-SNE) وتحليل المكونات الرئيسية (PCA) للنواة كأكثر الأساليب فعالية لمجموعات البيانات الجينومية المختلفة.10 وتقترح دراسات أخرى معيارًا أكثر تحديدًا لاختيار أساليب تقليل الأبعاد في الأبحاث البيولوجية الحاسوبية.11 وإحدى الدراسات الحديثة تقترح نسخة معدلة من تحليل المكونات الرئيسية (PCA) للتحليلات الجينية المتعلقة بالأصول (الأسلاف) مع توصيات للحصول على إسقاطات غير متحيزة.12
يُعد التحليل الدلالي الكامن (LSA) شكلاً من أشكال تحليل القيمة المفردة (SVD) والذي يُطبق على المستندات النصية في معالجة اللغة الطبيعية. وبشكل أساسي، يعتمد التحليل الدلالي الكامن (LSA) على مبدأ أن الكلمات المتشابهة في المعنى تميل إلى الظهور معًا في المساحات الفرعية أو العينات الصغيرة من اللغة.13 حيث يُستخدم التحليل الدلالي الكامن لمقارنة لغة الدعم العاطفي الذي يقدمه العاملون في المجال الطبي للجدال من أجل أفضل الممارسات الخطابية للمرضى في نهاية حياتهم.14 كما تستخدم أبحاث أخرى التحليل الدلالي الكامن كمقياس تقييم لتأكيد الرؤى والفعالية التي توفرها تقنيات التعلم الآلي الأخرى.15
1 Lih-Yuan Deng, Max Garzon, and Nirman Kumar, Dimensionality Reduction in Data Science, Springer, 2022.
2 Ian Goodfellow Yoshua Bengio, and Aaron Courville, Deep Learning, MIT Press, 2016.
3 Richard Bellman, Adaptive Control Processes: A Guided Tour, Princeton University Press, 1961.
4 I.T. Jollife, Principal Component Analysis, Springer, 2002.
5 Chris Albon, Machine Learning with Python Cookbook, O’Reilly, 2018. Nikhil Buduma, Fundamentals of Deep Learning, O’Reilley, 2017.
6 I.T. Joliffe, Principal Component Analysis, Springer, 2002. Heng Tao Shen, “Principal Component Analysis,” Encyclopedia of Database Systems, Springer, 2018.
7 Chris Albon, Machine Learning with Python Cookbook, O’Reilly, 2018.
8 Chris Ding, “Dimension Reduction Techniques for Clustering,” Encyclopedia of Database Systems, Springer, 2018.
9 Laurens van der Maaten and Geoffrey Hinton, “Visualizing Data Using t-SNE,” Journal of Machine Learning Research, vol. 9, no. 86, 2008, pp. 2579−2605, https://www.jmlr.org/papers/v9/vandermaaten08a.html .
10 Shunbao Li, Po Yang, and Vitaveska Lanfranchi, "Examing and Evaluating Dimension Reduction Algorithms for Classifying Alzheimer’s Diseases using Gene Expression Data," 17th International Conference on Mobility, Sensing and Networking (MSN), 2021, pp. 687-693, https://ieeexplore.ieee.org/abstract/document/9751471. Ruizhi Xiang, Wencan Wang, Lei Yang, Shiyuan Wang, Chaohan Xu, and Xiaowen Chen, "A Comparison for Dimensionality Reduction Methods of Single-Cell RNA-seq Data," Frontiers in Genetics, vol. 12, 2021, https://www.frontiersin.org/journals/genetics/articles/10.3389/fgene.2021.646936/full.
11 Shiquan Sun, Jiaqiang Zhu, Ying Ma, and Xiang Zhou, “Accuracy, robustness and scalability of dimensionality reduction methods for single-cell RNA-seq analysis,” Genome Biology, vol. 20, 2019, https://genomebiology.biomedcentral.com/articles/10.1186/s13059-019-1898-6. Lan Huong Nguyen and Susan Holmes, “Ten quick tips for effective dimensionality reduction,” PLoS Computational Biology, vol. 15, no. 6, 2019, https://journals.plos.org/ploscompbiol/article?id=10.1371/journal.pcbi.1006907.
12 Daiwei Zhang, Rounak Dey, and Seunggeun Lee, "Fast and robust ancestry prediction using principal component analysis," Bioinformatics, vol. 36, no. 11, 2020, pp. 3439–3446, https://academic.oup.com/bioinformatics/article/36/11/3439/5810493.
13 Nitin Indurkhya and Fred Damerau, Handbook of Natural Language Processing, 2nd edition, CRC Press, 2010.
14 Lauren Kane, Margaret Clayton, Brian Baucom, Lee Ellington, and Maija Reblin, "Measuring Communication Similarity Between Hospice Nurses and Cancer Caregivers Using Latent Semantic Analysis," Cancer Nursing, vol. 43, no. 6, 2020, pp. 506-513, https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6982541/.
15 Daniel Onah, Elaine Pang, and Mahmoud El-Haj, "Data-driven Latent Semantic Analysis for Automatic Text Summarization using LDA Topic Modelling," 2022 IEEE International Conference on Big Data, 2022, pp. 2771-2780, https://ieeexplore.ieee.org/abstract/document/10020259.
IBM web domains
ibm.com, ibm.org, ibm-zcouncil.com, insights-on-business.com, jazz.net, mobilebusinessinsights.com, promontory.com, proveit.com, ptech.org, s81c.com, securityintelligence.com, skillsbuild.org, softlayer.com, storagecommunity.org, think-exchange.com, thoughtsoncloud.com, alphaevents.webcasts.com, ibm-cloud.github.io, ibmbigdatahub.com, bluemix.net, mybluemix.net, ibm.net, ibmcloud.com, galasa.dev, blueworkslive.com, swiss-quantum.ch, blueworkslive.com, cloudant.com, ibm.ie, ibm.fr, ibm.com.br, ibm.co, ibm.ca, community.watsonanalytics.com, datapower.com, skills.yourlearning.ibm.com, bluewolf.com, carbondesignsystem.com