حساب IBM الخاص بي تسجيل الدخول اشترك

الصفحة الرئيسية

الموضوعات

البيانات المظلمة

ما هي البيانات المظلمة؟

ما هي البيانات المظلمة؟

استكشف حل IBM للبيانات المظلمة سجل للتعرف على تحديثات الذكاء الاصطناعي
رسم توضيحي يحتوي على مجموعة من الرموز التوضيحية على شكل سُحُب، ومخطط دائري، ورسم بياني من الرموز التوضيحية
ما هي البيانات المظلمة؟

ما هي البيانات المظلمة؟

وفقا لتقرير Gartner، تشير البيانات المظلمة إلى الأصول المعلوماتية التي تجمعها المنظمات وتعالجها وتخزنها أثناء الأنشطة التجارية الروتينية، ولكنها تفشل عموما في استخدامها لأغراض أخرى، مثل التحليلات والعلاقات التجارية وتحقيق الربح المباشر.1

تخزن معظم الشركات اليوم كميات هائلة من البيانات المظلمة. في استطلاع بحثي عالمي أجرته Splunk وشمل أكثر من 1,300 من صناع القرار في مجال الأعمال وتقنية المعلومات، أفاد 60 بالمائة من المستجيبين أن نصف بيانات منظماتهم أو أكثر تعتبر بيانات مظلمة. كما أفاد ثلث المستجيبين بأن هذه النسبة تصل إلى 75 بالمائة أو أكثر.2

تتراكم البيانات المظلمة لأن المنظمات تتبنى فكرة أن تخزين جميع المعلومات الممكن جمعها في بحيرات البيانات الكبيرة ذو قيمة. ويرجع ذلك جزئيا إلى ظهور حلول التخزين منخفضة التكلفة، مما يجعل من السهل تبرير تخزين الكثير من البيانات - على أمل أن تصبح ذات قيمة في يوم من الأيام.

لكن في النهاية، لا تستخدم معظم الشركات حتى جزءًا صغيرًا مما تخزنه، إما لأن مستودعات التخزين لا توثق البيانات الوصفية بشكل مناسب، أو لأن بعض البيانات موجودة بتنسيقات لا تستطيع الأدوات المدمجة قراءتها، أو لأن البيانات لا يمكن استرجاعها من خلال الاستعلامات.

تعد البيانات المظلمة عاملًا رئيسيًا يحد من إنتاج تحليل بيانات دقيق، لأن جودة أي تحليل للبيانات تعتمد على حجم المعلومات المتاحة لأدوات التحليل، بشكل كامل وفي الوقت المناسب.

من بين المشكلات الأخرى المتعلقة بالبيانات المظلمة أنها تزيد من المسؤوليات، وتؤدي إلى تكاليف تخزين كبيرة، وتفوت الفرص بسبب عدم إدراك الفرق للبيانات التي يحتمل أن تكون متاحة لهم.

لماذا تعتبر حوكمة الذكاء الاصطناعي ضرورة تجارية لتوسيع نطاق الذكاء الاصطناعي للمؤسسات

تعرَّف على المعوقات التي تَحُول دون اعتماد الذكاء الاصطناعي، لا سيما عدم تطبيق حوكمة الذكاء الاصطناعي، وعدم إيجاد حلول لإدارة المخاطر.

محتوى ذو صلة سجِّل للحصول على تقرير IDC
أسباب تحويل البيانات إلى بيانات مظلمة

أسباب تحويل البيانات إلى بيانات مظلمة

هناك عدة أسباب تجعل بيانات المنظمة تتحول إلى بيانات مظلمة، منها:

  • نقص الوعي: غالبًا ما تتحول البيانات التي يتم جمعها أثناء العمليات التجارية الروتينية إلى بيانات مظلمة لأن المنظمات إما لا تدرك وجودها، أو لا تدرك قيمتها أو أهميتها.

  • البيانات المعزولة في صوامع: عندما تجمع الأقسام المختلفة داخل المنظمة البيانات وتخزنها بشكل مستقل، يمكن أن يؤدي ذلك إلى تجزئة البيانات وعزلها. قد لا يكون الوصول إلى صوامع البيانات هذه متاحًا أو مرئيًا للفرق الأخرى، التي من المحتمل أن تجد البيانات ذات قيمة كبيرة.

  • نقص إدارة البيانات: بدون وجود إطار عمل قوي لإدارة البيانات ، قد تكافح المنظمات في إدارة البيانات وتتبعها بشكل فعال عبر نظامها البنائيّ. يؤدي هذا إلى عدم تنظيم البيانات وفقدانها وعدم استخدامها.

  • الأنظمة القديمة: عندما تقوم المنظمات بترقية البرمجيات والأجهزة، قد يتم إهمال الأنظمة القديمة أو تصبح أقل أهمية. تصبح البيانات المخزّنة في هذه الأنظمة القديمة مظلمة إذا لم يكن بالإمكان دمجها مع أدوات التحليلات الحديثة للمنظمة.

  • تكامل البيانات غير المكتمل: يمكن أن تؤدي عمليات تكامل البيانات غير المكتملة أو غير الفعالة إلى فجوات وتناقضات في البيانات، مما قد يؤدي إلى عدم إمكانية الوصول إلى بعض مجموعات البيانات أو عدم ربطها بشكل صحيح بمصادر البيانات الأخرى.

  • تغيّر أولويات العمل: مع تطور أولويات العمل، قد تصبح بعض مجموعات البيانات أقل أهمية أو يتم تجاهلها. وقد يتم تجاهل البيانات التي كانت تُستخدم بفعالية سابقًا مع تحوّل أهداف المنظمة.

  • محدودية الموارد ونقص المعرفة بالبيانات: قد تفضل المنظمات ذات الموارد المحدودة جمع البيانات وتخزينها على تحليلها. كما أن نقص المعرفة بالبيانات بين الموظفين يمكن أن يعيق اكتشاف البيانات القيّمة والاستفادة منها.

  • مشاكل جودة البيانات: يمكن أن تؤدي جودة البيانات السيئة، مثل البيانات غير الدقيقة أو غير المكتملة، إلى استبعاد البيانات أو تجاهلها. فالبيانات التي يُنظر إليها على أنها غير موثوقة تصبح أقل استخدامًا، مما يجعلها فعليًا بيانات مظلمة.

  • أغراض الامتثال التنظيمي: تفرض العديد من معايير الامتثال والمعايير الحاكمة على المنظمات اتباع لوائح صارمة فيما يتعلق بالمدة التي يجب أن تخزن فيها البيانات الحساسة. غالبًا ما تجد المنظمات نفسها تخزن هذه البيانات لفترة أطول من المطلوب لأنها لا تتمكن من تتبع البيانات الحساسة التي يجب إتلافها.

  • البيانات الزائدة والمتقادمة والتافهة (ROT): يتم إنشاء هذه البيانات عندما يقوم الموظفون بحفظ نسخ متعددة من نفس المعلومات، أو معلومات قديمة، أو معلومات غير ذات صلة لا تساعد المنظمة على تحقيق أهدافها.
أنواع البيانات المظلمة

أنواع البيانات المظلمة

بالنسبة لقابليتها للاكتشاف لأغراض مبادرات تحليل البيانات الكاملة في الوقت المناسب، قد تكون البيانات المظلمة إما بيانات منظمة أو بيانات غير منظمة أو بيانات شبه منظمة.   

البيانات المنظمة هي المعلومات التي تضاف إلى جدول بيانات أو حقول قاعدة بيانات محددة بوضوح قبل تخزينها.

تعد ملفات سجل الخادم وبيانات أجهزة إنترنت الأشياء (IoT) وقواعد بيانات إدارة علاقات العملاء (CRM) وأنظمة تخطيط موارد المؤسسة (ERP) من الأمثلة على البيانات المظلمة التي يتم إنشاؤها من مصادر البيانات المنظمة.

على الرغم من أن معظم أشكال البيانات الحساسة، مثل كشوف الحسابات المصرفية الإلكترونية والسجلات الطبية وبيانات العملاء المشفرة تكون عادةً في شكل منظم، إلا أن عرضها وتصنيفها يصبح صعبًا بسبب مشاكل في الحصول على الأذونات.

على عكس البيانات المنظمة، تشمل البيانات غير المنظمة  المعلومات التي لا يمكن تنظيمها في قواعد البيانات أو جداول البيانات للتحليل دون تحويلها وترميزها وتصنيفها وهيكلتها.

تشمل أمثلة البيانات المظلمة الناشئة عن مصادر بيانات غير منظمة: مراسلات البريد الإلكتروني، ملفات PDF، الوثائق النصية، منشورات وسائل التواصل الاجتماعي، تسجيلات مركز الاتصالات، سجلات المحادثات، ولقطات فيديو المراقبة.

البيانات شبه المنظمة هي بيانات غير منظمة تحتوي على بعض المعلومات في حقول بيانات محددة. على الرغم من أنها ليست سهلة الاكتشاف مثل البيانات المنظمة، إلا أنه يمكن البحث عنها أو فهرستها.

ومن الأمثلة على ذلك كود HTML والفواتير والرسوم البيانية والجداول ومستندات XML.

تكاليف البيانات المظلمة

تكاليف البيانات المظلمة

تتعدى تكاليف تخزين البيانات المظلمة إلى ما هو أكثر من التكلفة المالية المباشرة لتخزينها. تشمل التكاليف المباشرة وغير المباشرة ما يلي:

تكاليف تخزين البيانات

يتطلب تخزين البيانات، حتى إذا لم تكن مستخدمة بنشاط، بنية تحتية للتخزين سواء كانت مادية أو رقمية. تشمل هذه الحلول الخوادم ومراكز البيانات وحلول التخزين السحابي وأنظمة النسخ الاحتياطي. فكلما زاد عدد البيانات في نظامك البنائي، زادت الحاجة إلى سعة تخزين بيانات، مما يؤدي إلى زيادة تكاليف البنية التحتية.

تكلفة المسؤولية

أدخلت الحكومات مجموعة من قوانين الخصوصية العالمية على مدى السنوات العديدة الماضية، والتي تنطبق على جميع البيانات - حتى البيانات غير المستخدمة في مستودعات التحليلات.

تكاليف الفرص

تفقد العديد من الشركات الفرص نيجة عدم استخدام هذه البيانات . على الرغم من أنه من الجيد التخلص من البيانات المظلمة غير القابلة للاستخدام - بسبب المخاطر والتكاليف المرتبطة بها - إلا أنه من المفيد أولًا تحليل البيانات المتاحة لتحديد ما يمكن الاستفادة منه.

تكاليف عدم الكفاءة

يمكن أن تؤدي إدارة كميات كبيرة من البيانات، بما في ذلك البيانات المظلمة، إلى إبطاء عمليات استرجاع البيانات وتحليلها. قد يضطر الموظفون إلى قضاء وقت أطول في البحث عن المعلومات ذات الصلة، مما يؤدي إلى تقليل الإنتاجية وزيادة تكاليف العمالة.

تكلفة المخاطر

تشكل البيانات المظلمة مخاطر تتعلق بعدم كفاية الأمن الإلكتروني واختراق أمن البيانات وانتهاكات الامتثال وفقدان البيانات. يمكن أن تؤدي هذه المخاطر إلى الإضرار بالسمعة وتبعات مالية كبيرة.

مشكلات جودة البيانات والبيانات المظلمة

مشكلات جودة البيانات والبيانات المظلمة

في بعض الأحيان يتم إنشاء البيانات المظلمة بسبب مشكلات في جودة البيانات.

على سبيل المثال، يتم إنشاء نسخة مكتوبة من تسجيل صوتي تلقائيا، لكن الذكاء الاصطناعي الذي أنشأ النسخة المكتوبة يرتكب بعض الأخطاء في النص. يحتفظ شخص ما بهذه النسخة معتقدًا أنه سيصلحها في وقت لاحق، لكنه لا يفعل ذلك أبدًا.

عندما تحاول المنظمات تنظيف البيانات ذات الجودة السيئة، فإنها تفشل أحيانا في تحديد السبب الأساسي للمشكلة. بدون الفهم الصحيح، يصبح من المستحيل ضمان عدم تكرار مشكلة جودة البيانات في المستقبل.

ثم يصبح هذا الوضع دوريًا، لأنه بدلًا من مجرد اتباع سياسات الحذف للبيانات المظلمة غير المستخدمة على الإطلاق، تتركها المنظمات تتراكم، مما يساهم في زيادة مشكلة جودة البيانات.

لحسن الحظ، هناك ثلاث خطوات يمكن للمنظمات اتباعها لإدارة جودة البيانات والتخفيف من هذه المشكلة:

  1. تحليل وتحديد الوضع الحالي "كما هو": لتحديد أولويات المشكلات، يجب أولًا التعرف على جميع المشكلات الحالية، ومعايير البيانات القائمة، وتأثيرها على الأعمال.

  2. منع تكرار البيانات السيئة: بعد ذلك، يجب تقييم السبب الأساسي لكل مشكلة، وتخصيص الموارد لحل المشكلة بطريقة مستدامة حتى لا تتكرر مرة أخرى.

  3. التواصل المستمر طوال العملية:  يجب مشاركة ما يحدث، وما يقوم به الفريق، وتأثير هذا العمل، وكيفية ارتباط هذه الجهود بأهداف العمل.
كيفية تسليط الضوء على البيانات المظلمة

كيفية تسليط الضوء على البيانات المظلمة

على الرغم من كل التكاليف ومشاكل جودة البيانات الخاصة بالبيانات المظلمة، إلا أن هناك إيجابيات لها. كما أشارت Splunk، "قد تكون البيانات المظلمة واحدة من أكبر الموارد غير المستغلة في المنظمة".3

من خلال اتباع نهج استباقي لإدارة البيانات المظلمة، يمكن للمنظمات تسليط الضوء على هذه البيانات. وهذا لا يقلل من المسؤوليات والتكاليف فحسب، بل يوفر أيضًا للفرق الموارد التي يحتاجونها لاكتشاف معارف جديدة من البيانات المخفية.

عندما يتعلق الأمر بالتعامل مع البيانات المظلمة وإمكانية استخدامها لاتخاذ قرارات أفضل قائمة على البيانات، هناك العديد من أفضل الممارسات التي يجب اتباعها:

تفكيك صوامع البيانات

غالبًا ما تنشأ البيانات المظلمة بسبب الصوامع داخل المنظمة. يقوم أحد الفريقين بإنشاء بيانات قد تكون مفيدة لفريق آخر، لكن هذا الفريق الآخر لا يدرك وجودها. يؤدي تفكيك تلك الصوامع إلى إتاحة تلك البيانات للفريق الذي يحتاج إليها، مما يحولها من بيانات غير مستخدمة إلى بيانات ذات قيمة كبيرة.

تحسين إدارة البيانات

من الضروري فهم البيانات الموجودة داخل المنظمة. يبدأ هذا الجهد بتصنيف جميع البيانات داخل المنظمة للحصول على رؤية كاملة ودقيقة. من هناك، يمكن للفرق تنظيم بياناتها بشكل أفضل بهدف تسهيل وصول الأفراد في الفرق إلى البيانات التي يحتاجون إليها واستخدامها.

وضع سياسات إدارة البيانات

يمكن أن يساعد تقديم سياسة إدارة البيانات في تحسين هذا التحدي على المدى الطويل. يجب أن تغطي هذه السياسة كيفية مراجعة جميع البيانات الجديدة وتقديم إرشادات واضحة حول ما يجب الاحتفاظ به (وتنظيمه للحفاظ على إدارة واضحة للبيانات) أو أرشفته أو إتلافه. جزء مهم من هذه السياسة هو الالتزام الصارم بإتلاف البيانات التي يجب إتلافها وتحديد الوقت المناسب لذلك. سيساعد تطبيق سياسة إدارة البيانات ومراجعة الممارسات بانتظام على تقليل كمية البيانات المظلمة التي لن يتم استخدامها أبدًا.

استخدم أدوات التعلم الآلي والذكاء الاصطناعي لتحليل البيانات

يمكن لأدوات التعلم الآلي (ML) والذكاء الاصطناعي (AI) أن تؤدي دورًا كبيرًا في اكتشاف البيانات المظلمة من خلال إجراء تحليل للبيانات وتصنيفها لاستخراج معارف قيّمة. بالإضافة إلى ذلك، يمكن لأتمتة التعلم الآلي أن تساعد في لوائح الامتثال لقوانين خصوصية البيانات عن طريق إزالة المعلومات الحساسة تلقائيا من البيانات المخزنة.

منتجات ذات صلة

منتجات ذات صلة

IBM Databand

إن IBM® Databand هو برنامج متخصص في قابلية الملاحظة يستهدف مستودعات ومسارات البيانات، ويجمع البيانات الوصفية تلقائيًّا لبناء خطوط أساس تاريخية، ويكشف عن الحالات الشاذة وفرز التنبيهات لمعالجة مشكلات جودة البيانات.

استكشف Databand

IBM DataStage

من خلال دعم أنماط الاستخراج والتحويل والتحميل (ETL) وأنماط الاستخراج والتحميل والتحويل (ELT)، يوفر ®IBM ®DataStage عملية تكامل بيانات مرنة وفي زمن شبه حقيقي سواء محليًا أو على السحابة.

استكشف ®DataStage

IBM Knowledge Catalog

يتيح لك كتالوج البيانات الذكي لعصر الذكاء الاصطناعي، IBM® Knowledge Catalog إمكانية الوصول إلى البيانات والأصول المعرفية وعلاقاتها وتنظيمها وتصنيفها ومشاركتها-بغض النظر عن مكان تواجدها.

استكشف Knowledge Catalog
الموارد

الموارد

ما المقصود بعلم البيانات؟

تعرف على علم البيانات وكيف يمكنه فتح آفاق معارف الأعمال وتسريع التحول الرقمي وتمكين اتخاذ قرارات قائمة على البيانات.

ما المقصود بالذكاء الاصطناعي (AI)؟

تعرف على الذكاء الاصطناعي وأنواعه المختلفة وتاريخه ولماذا أدى الذكاء الاصطناعي التوليدي إلى تسريع تبني الذكاء الاصطناعي في المنظمات.

6 ركائز لجودة البيانات وكيفية تحسين بياناتك

تعرف على أهمية البيانات عالية الجودة لاتخاذ قرارات مدروسة وإجراء تحليلات دقيقة وتطوير استراتيجيات فعالة.

ما الذي يجب فعله بالبيانات المظلمة؟

تجمع كل شركة بيانات مظلمة. تعرف على كيفية تحويل أدوات الإدارة البيانات من عبء مالي إلى مورد قيّم مليء بالفرص غير المستغلة.

الحواشي

1 Gartner Glossary (الرابط موجود خارج موقع ibm.com)، Gartner

2 The State of Dark Data (الرابط موجود خارج موقع ibm.com)، Splunk، 2019

3 Dark Data: Discovery, Uses & Benefits of Hidden Data (الرابط موجود خارج موقع ibm.com)، Splunk، 03 أغسطس 2023