شهدت السنوات الأخيرة ثورة هائلة في انتشار وحدات التخزين الذاتي. ظهرت وحدات التخزين الكبيرة هذه على المستوى المحلي كصناعة مزدهرة لسبب واحد—وهو أن الشخص العادي لديه ممتلكات في الوقت الحالي ولا يعرف ماذا يفعل بها.
وحدث الأمر ذاته في عالم تقنية المعلومات. نحن في خضم عصر ثورة البيانات. حتى الأشياء اليومية البسيطة نسبيًا، أصبحت الآن قادرة على إعداد البيانات تلقائيًا بفضل وظيفة إنترنت الأشياء (IOT) . لم يجر من قبل على مر الزمان إنشاء هذا الكم الهائل من البيانات وجمعه وتحليله. ولم يحدث من قبل أن عانى الكثير من مديري البيانات من مشكلة كيفية تخزين هذا الكم الهائل من البيانات.
قد تفشل الشركة في بداية الأمر في التعرف على المشكلة أو معرفة إلى أي مدى قد تتطور، ومن ثم يتعين على هذه الشركة إيجاد حل تخزين متزايد. وبمرور الوقت، قد تتجاوز الشركة أيضًا نظام التخزين هذا، ما يستدعي المزيد من الاستثمار. وستمل الشركة من هذه اللعبة لا محالة، وستبحث عن خيار أرخص وأبسط—وهو ما يقودنا إلى عمليات إلغاء البيانات المكررة.
على الرغم من أن العديد من المنظمات تستخدم تقنيات إلغاء البيانات المكررة (أو ما يسمى "تنقية البيانات") كجزء من نظام إدارة البيانات لديها، إلا أن الكثيرين لا يفهمون حقًا عملية إلغاء البيانات المكررة والهدف منها. لذلك، دعونا نوضح عملية تنقية البيانات ونشرح كيف تجري عملية إلغاء البيانات المكررة.
أولاً، دعونا نوضح المصطلح الرئيسي. عملية إلغاء البيانات المكررة هي عملية تستخدمها المنظمات لتبسيط ما لديها من قواعد بيانات وتقليل كمية البيانات التي تقوم بأرشفتها عن طريق التخلص من النسخ المكررة من البيانات.
علاوة على ذلك، يجب أن نشير إلى أنه عندما نتحدث عن البيانات المكررة، فإننا نتحدث في الواقع عن مستوى الملف ونشير إلى الانتشار الواسع لملفات البيانات. لذلك عندما نناقش جهود إلغاء البيانات المكررة، فهي في الواقع النظام المطلوب لإلغاء البيانات المكررة في الملف.
بعض الناس لديهم فكرة خاطئة عن طبيعة البيانات، وينظرون إليها على أنها سلعة موجودة ببساطة ليتم جمعها وحصادها—مثل حصاد التفاح من شجرة في حديقتك.
الحقيقة هي أن كل ملف بيانات جديد يترتب عليه تكلفة مالية. أولًا، عادة ما يكون الحصول على هذه البيانات مكلفًا (عن طريق شراء قوائم البيانات). أو يحتاج الأمر إلى استثمار مالي كبير لتتمكن المؤسسة من جمع البيانات وتحليلها بمفردها، حتى ولو كانت هذه البيانات ناتجة عن عملياتها الخاصة وتجمعها بشكل طبيعي. لذلك، تعتبر مجموعات البيانات استثمارًا، وكأي استثمار ذو قيمة، يجب اتخاذ تدابير صارمة لحمايتها.
في هذه الحالة، نحن نتحدث عن مساحة تخزين البيانات—سواء كانت على شكل خوادم أجهزة داخلية أو من خلال التخزين السحابي باستخدام مركز بياناتقائم على السحابة - يتم شراؤه أو استئجاره.
ونتيجة لذلك، تضر النسخ المكررة من البيانات التي تعرضت للتكرار بالنتيجة النهائية من خلال فرض تكاليف تخزين إضافية تتجاوز تلك المرتبطة بنظام التخزين الأساسي ومساحة تخزينه. باختصار، يجب تخصيص المزيد من أصول وسائط التخزين لاستيعاب كل من البيانات الجديدة والبيانات المخزنة بالفعل. في مرحلة ما من مسار الشركة، يمكن أن تنجم عن البيانات المكررة التزامات مالية بكل سهولة.
لذا، فالأمر باختصار هو أن الهدف الرئيسي من عملية إلغاء البيانات المكررة هو توفير المال من خلال تمكين المنظمات من إنفاق أموال أقل على التخزين الإضافي.
هناك أيضًا أسباب أخرى لتبني حلول إلغاء البيانات المكررة تتجاوز سعة تخزين الشركات—لعل أهمها خدمة حماية البيانات وتحسينها التي توفرها. تقوم المنظمات بتعزيز أحمال تشغيل البيانات غير المكررة وتحسينها بحيث تعمل بكفاءة أكثر من البيانات المليئة بالملفات المكررة.
جانب آخر مهم من جوانب عملية إلغاء البيانات المكررة وهو أنها تساعد على تعزيز جهود التعافي من الكوارث السريعة والناجحة وتقلل من كمية فقدان البيانات التي يمكن أن تنتج غالبًا عن مثل هذا الحدث. تساعد عملية تنقية البيانات على تعزيز عملية نسخ احتياطي فائقة بحيث يكون نظام النسخ الاحتياطي للمنظمة مساويًا لمهمة معالجة بيانات النسخ الاحتياطي لديها. إلى جانب المساعدة في عمليات النسخ الاحتياطي الكاملة، تساعد عملية تنقية البيانات أيضًا في جهود الاحتفاظ بها.
ولا تزال تكمن ميزة أخرى من مزايا عملية إلغاء البيانات المكررة في مدى نجاحها مع عمليات نشر البنية التحتية لسطح المكتب الافتراضي (VDI)، وذلك بفضل حقيقة أن الأقراص الصلبة الافتراضية خلف أجهزة سطح المكتب البعيدة الخاصة بالبنية التحتية لسطح المكتب الافتراضي (VDI) تعمل بشكل متطابق. تتضمن منتجات سطح المكتب كخدمة (DaaS) الشهيرة Azure Virtual Desktop من إصدار شركة Microsoft وWindows VDI. تنتج هذه المنتجات أجهزة افتراضية (VMs)، والتي يتم إنشاؤها أثناء عملية المحاكاة الافتراضية للخادم. في المقابل، تعزز هذه الأجهزة الافتراضية تقنية البنية التحتية لسطح المكتب الافتراضي (VDI).
الشكل الأكثر استخدامًا من أشكال عملية إلغاء البيانات المكررة هو إلغاء البيانات المكررة على شكل كتلة. تعمل هذه الطريقة باستخدام وظائف آلية لتحديد حالات التكرار في كتل البيانات ثم إزالة تلك الحالات المكررة. وبالعمل على مستوى الكتلة، يمكن تحليل أجزاء من البيانات الفريدة وتحديدها على أنها ينقصها التحقق من الصحة والحفظ. بعد ذلك، عندما يكتشف برنامج إلغاء البيانات المكررة حالة تكرار لكتلة البيانات نفسها، يزيل هذا التكرار ويشير إلى البيانات الأصلية في مكانها الأصلي.
هذا هو الشكل الرئيسي لعملية تنقية البيانات، ويكاد يكون الطريقة الوحيدة. في حالات الاستخدام الأخرى، تعمل طريقة بديلة لإلغاء البيانات المكررة على مستوى الملف. يقارن التخزين أحادي المحتوى نسخ البيانات داخل خادم الملفات كاملةً، ولكن ليس أجزاء أو كتل البيانات. ومثل الطريقة النظيرة، تعتمد عملية إلغاء البيانات المكررة للملف على الاحتفاظ بالملف الأصلي داخل نظام الملفات وإزالة النسخ الإضافية.
تجدر الإشارة إلى أن تقنيات إزالة البيانات المكررة لا تعمل بنفس الطريقة ذاتها التي تعمل بها خوارزميات ضغط البيانات (مثل، LZ77 ، LZ78)، رغم أن كلاهما يسعى إلى تحقيق نفس الهدف العام المتمثل في تقليل تكرار البيانات. تعمل تقنيات إزالة البيانات المكررة على تحقيق هذا الهدف على نطاق أكبر مقارنة بخوارزميات الضغط، التي تهدف بشكل اقل إلى استبدال الملفات المتطابقة بنسخ مشتركة وتركز اكثر على تشفير تكرار البيانات بشكل أكثر كفاءة.
هناك أنواع مختلفة من تقنيات إزالة البيانات المكررة اعتمادًا على توقيت حدوث عملية إزالة البيانات المكررة:
هنا تجدر الإشارة إلى أن كلا النوعين من أنواع إلغاء البيانات المكررة يتأثران بحسابات التجزئة المتأصلة في عملية إلغاء البيانات المكررة. تعد هذه الحسابات التشفيرية جزءًا لا يتجزأ من تحديد الأنماط المتكررة في البيانات. أثناء عملية إلغاء البيانات المكررة الضمنية، يتم إجراء هذه الحسابات في لحظتها، والتي يمكن أن تهيمن على وظائف الكمبيوتر وتطغى عليها مؤقتًا. في عمليات إلغاء البيانات المكررة بعد المعالجة، يمكن إجراء حسابات التجزئة في أي وقت بعد إضافة البيانات بطريقة ما وفي وقت ما بحيث لا يشكل عبئًا على موارد الكمبيوتر لدى المنظمة.
لا تقتصر الفروقات الدقيقة بين أنواع إزالة البيانات المكررة على هذا الحد. فهناك طريقة أخرى لتصنيف أنواع إزالة التكرار بناً على مكان حدوث هذه العمليات.
ونظرًا لوجود أنواع مختلفة من عملية إلغاء البيانات المكررة على أرض الواقع، يجب على المنظمات ذات التطلعات المستقبلية اتخاذ قرارات دقيقة ومدروسة فيما يتعلق بالنوع المختار من أنواع عملية إلغاء البيانات المكررة، وتحقيق التوازن بين هذه الطريقة والاحتياجات الخاصة لتلك الشركة.
في كثير من الحالات، قد يعتمد اختيار المؤسسة لطريقة إزالة التكرار بشكل كبير على مجموعة من المتغيرات الداخلية، مثل الآتي:
كما هو الحال مع جميع مخرجات الكمبيوتر، فإن إزالة البيانات المكررة على استعداد للاستفادة بشكل متزايد من الذكاء الاصطناعي مع استمرار تطورها. ستنمو Dedupe بشكل متزايد مع تطويرها لمزيد من الفروق الدقيقة التي تساعدها في السعي للعثور على أنماط التكرار أثناء فحص كتل البيانات.
أحد الاتجاهات الناشئة في عملية تنقية البيانات هو التعلم المعزز. ويستخدم نظامًا للمكافآت والعقوبات (كما هو الحال في التدريب المعزز) ويطبق سياسة مثالية لفصل السجلات أو دمجها بدلاً من ذلك.
هناك اتجاه آخر يستحق إلقاء نظرة عليه وهو استخدام الأساليب التجميعية، حيث يتم استخدام نماذج أو خوارزميات مختلفة معًا لضمان دقة أكبر في عملية تنقية البيانات.
أصبح عالم تقنية المعلومات يركز على المسألة المستمرة لانتشار البيانات بشكل متزايد وما يجب فعله حيال ذلك. تجد العديد من الشركات نفسها في موقف حرج يتمثل في الرغبة الفورية في الاحتفاظ بجميع البيانات التي عملت على جمعها والرغبة أيضًا في وضع بياناتها الجديدة الفائضة في أي حاوية تخزين ممكنة، حتى لو كان ذلك فقط لإخراجها من الطريق.
وبينما تستمر هذه المعضلة، سيستمر التركيز على جهود إلغاء البيانات المكررة حيث تعتقد المنظمات أن عملية تنقية البيانات هي البديل الأرخص لشراء المزيد من مساحات التخزين. لأنه في النهاية، على الرغم من أننا نفهم بشكل بديهي أن الأعمال تحتاج إلى بيانات، فإننا نعلم أيضًا أن البيانات تتطلب في كثير من الأحيان عملية إلغاء البيانات المكررة.
IBM web domains
ibm.com, ibm.org, ibm-zcouncil.com, insights-on-business.com, jazz.net, mobilebusinessinsights.com, promontory.com, proveit.com, ptech.org, s81c.com, securityintelligence.com, skillsbuild.org, softlayer.com, storagecommunity.org, think-exchange.com, thoughtsoncloud.com, alphaevents.webcasts.com, ibm-cloud.github.io, ibmbigdatahub.com, bluemix.net, mybluemix.net, ibm.net, ibmcloud.com, galasa.dev, blueworkslive.com, swiss-quantum.ch, blueworkslive.com, cloudant.com, ibm.ie, ibm.fr, ibm.com.br, ibm.co, ibm.ca, community.watsonanalytics.com, datapower.com, skills.yourlearning.ibm.com, bluewolf.com, carbondesignsystem.com