الصفحة الرئيسية
الموضوعات
Hadoop
Apache Hadoop هو إطار برمجي مفتوح المصدر تم تطويره من جانب دوغلاس كوتنج، الذي كان يعمل في Yahoo آنذاك، ويوفر معالجة موزعة موثوقة للغاية لمجموعات البيانات الكبيرة باستخدام نماذج برمجة بسيطة.
تغلبت Hadoop على قيود قابلية التوسع في Nutch، وهي مبنية على مجموعات من أجهزة الكمبيوتر السلعية، ما يوفر حلاً فعالاً من حيث التكلفة لتخزين كميات هائلة من البيانات المنظمة وشبه المنظمة وغير المنظمة من دون متطلبات التنسيق ومعالجتها.
يمكن أن توفر بنية بحيرة البيانات بما في ذلك Hadoop حلاً مرنًا لإدارة البيانات لمبادرات تحليلات البيانات الضخمة الخاصة بك. ونظرًا لأن Hadoop عبارة عن مشروع مفتوح المصدر ويتبع نموذج الحوسبة الموزعة، فإنه يمكن أن يوفر أسعارًا موفرة للميزانية لبرامج البيانات الضخمة وحلول التخزين.
يمكن أيضًا تثبيت Hadoop على خوادم سحابية لإدارة موارد الحوسبة والتخزين المطلوبة للبيانات الكبيرة بشكل أفضل. ولمزيد من السهولة، يتم تكوين وكيل نظام التشغيل Linux ووكيل UNIX OS ووكيل نظام التشغيل Windows مسبقًا ويمكن تشغيله تلقائيًا. يقدم كبار موردو السحابة مثل Amazon Web Services (AWS) و Microsoft Azure الحلول. يدعم Cloudera أحمال عمل Hadoop محليًا وفي السحابة، بما في ذلك خيارات لبيئة سحابية عامة واحدة أو أكثر من موردين متعددين. استخدم واجهات برمجة تطبيقات مراقبة Hadoop لإضافة المجموعات والخدمات وتحديثها وحذفها وعرضها على المجموعات، ولجميع أنواع المراقبة الأخرى على Hadoop.
اكتشف قوة دمج استراتيجية مستودع البيانات في بنية البيانات لديك، بما في ذلك التحسينات لتوسيع نطاق الذكاء الاصطناعي وفرص تحسين التكلفة.
يتضمن إطار عمل Hadoop، الذي أنشأته مؤسسة Apache للبرمجيات، ما يلي:
عزز Hadoop بمشاريع برامج إضافية مفتوحة المصدر.
أداة قائمة على الويب لتوفير مجموعات Hadoop وإدارتها ومراقبتها.
نظام تسلسل البيانات.
قاعدة بيانات NoSQL قابلة للتوسع، مصممة بحيث لا تحتوي على نقطة إخفاق واحدة.
نظام جمع البيانات لرصد الأنظمة الموزعة الكبيرة؛ بنيت على رأس HDFS وMapReduce.
خدمة لجمع كميات كبيرة من البيانات المتدفقة وتجميعها ونقلها إلى HDFS.
قاعدة بيانات موزعة قابلة للتطوير وغير ارتباطية تدعم تخزين البيانات المنظمة للجداول الكبيرة للغاية.
بنية تحتية لمستودع البيانات للاستعلام عن البيانات وتخزين البيانات الوصفية للجداول والتحليل في واجهة تشبه SQL.
مكتبة قابلة للتطوير للتعلم الآلي واستخراج البيانات.
مُجدول عبء العمل المستند إلى Java لإدارة مهام Hadoop.
لغة تدفق بيانات عالية المستوى وإطار عمل تنفيذي للحوسبة المتوازية.
أداة لنقل البيانات بكفاءة بين Hadoop ومخازن البيانات المنظمة مثل قواعد البيانات العلائقية.
منصة ذكاء اصطناعي موحدة لتشغيل التعلم الآلي وأحمال تشغيل التعلم العميق في مجموعة موزعة.
إطار برمجة عام لتدفق البيانات، قائم على YARN؛ ويجري اعتماده داخل نظام Hadoop البنائي ليحل محل MapReduce.
خدمة تنسيق عالية الأداء للتطبيقات الموزعة.
تمت كتابة Apache Hadoop بلغة Java، ولكن بحسب مشروع البيانات الضخمة، يمكن للمطورين البرمجة باللغة التي يختارونها، مثل Python أو R أو Scala. تتيح الأداة المساعدة Hadoop Streaming المضمنة للمطورين إنشاء مهام MapReduce وتنفيذها باستخدام أي برنامج نصي أو قابل للتنفيذ كمُعيِّن أو مخفض.
غالبًا ما تتم المقارنة بين Apache Spark وHadoop لأنه أيضًا إطار عمل مفتوح المصدر لمعالجة البيانات الضخمة. في الواقع، تم تصميم Spark في البداية لتحسين أداء المعالجة وتوسيع أنواع العمليات الحسابية الممكنة باستخدام Hadoop MapReduce. يستخدم Spark معالجة داخل الذاكرة، ما يعني أنه أسرع بكثير من قدرات القراءة / الكتابة في MapReduce.
في حين أن Hadoop هو الأفضل لمعالجة كميات ضخمة من البيانات على دفعات ، فإن Spark يدعم كلاً من معالجة البيانات على دفعات وفي الوقت الفعلي وهو مثالي لتدفق البيانات وحسابات الرسوم البيانية. يحتوي كل من Hadoop وSpark على مكتبات للتعلم الآلي، ولكن مرة أخرى، بسبب المعالجة داخل الذاكرة، يكون التعلم الآلي في Spark أسرع بكثير.
قرارات أفضل تعتمد على البيانات: دمج البيانات في الوقت الفعلي (بث الصوت والفيديو ومشاعر وسائل التواصل الاجتماعي وبيانات تدفق النقرات) وغيرها من البيانات شبه المنظمة وغير المنظمة غير المستخدمة في مستودع البيانات أو قاعدة البيانات العلائقية. توفر البيانات الأكثر شمولاً قرارات أكثر دقة.
تحسين الوصول إلى البيانات وتحليلها: تعزيز الوصول في الوقت الفعلي والخدمة الذاتية لعالم البيانات ومالكي خطوط الأعمال والمطورين. يمكن لـ Hadoop أن يغذي علم البيانات، وهو مجال متعدد التخصصات يستخدم البيانات والخوارزميات والتعلم الآلي والذكاء الاصطناعي للتحليل المتقدم للكشف عن الأنماط وبناء التنبؤات.
تفريغ البيانات وتوحيدها: تبسيط التكاليف في مراكز بيانات مؤسستك عن طريق نقل البيانات "الباردة" غير المستخدمة حاليًا إلى توزيع قائم على Hadoop للتخزين. أو دمج البيانات على مستوى المؤسسة لزيادة إمكانية الوصول وخفض التكاليف.
دعم التحليلات التنبئية والوصفية للذكاء الاصطناعي اليوم. اجمع بين توزيع Hadoop على مستوى المؤسسات من Cloudera في نظام بنائي واحد من المنتجات والخدمات المتكاملة من كل من IBM و Cloudera لتحسين اكتشاف البيانات واختبارها والاستعلامات المخصصة وشبه الفورية. الاستفادة من التعاون بين IBM وCloudera لتقديم حلول Hadoop للمؤسسات.
استخدم محرك SQL-on-Hadoop الهجين المتوافق مع ANSI على مستوى المؤسسات لتقديم معالجة متوازية على نطاق واسع (MPP) واستعلام بيانات متقدم.
نسخ البيانات في أثناء تدفقها حتى لا تحتاج الملفات إلى كتابتها بالكامل أو إغلاقها قبل النقل.
استفد بشكل أكثر توفيرًا للتكلفة من البيانات الضخمة باستخدام قواعد بيانات مفتوحة المصدر من كبار الموردين مثل MongoDB وEDB.
تعرف على كيفية قيامهم بقيادة التحليلات المتقدمة باستخدام بحيرة بيانات آمنة ومحكومة ومفتوحة المصدر على مستوى المؤسسات.
أضف بحيرة البيانات إلى إستراتيجية إدارة البيانات الخاصة بك لدمج المزيد من البيانات غير المنظمة للحصول على معارف أعمق.
استكشف تقنيات التخزين والحوكمة اللازمة لبحيرة البيانات الخاصة بك لتقديم بيانات جاهزة مدعومة بالذكاء الاصطناعي.
شاهد كيف يمكن لحلول الحوكمة التي أثبتت جدواها أن تؤدي إلى تكامل البيانات والجودة والأمان بشكل أفضل لبحيرات البيانات الخاصة بك.
اختر مسار التعلم الخاص بك، بناء على مستوى المهارة، من الدورات التدريبية المجانية في مجال علوم البيانات والذكاء الاصطناعي والبيانات الضخمة وغيرها.
انضم الى مجتمع IBM لإدارة البيانات مفتوحة المصدر للتعاون والمصادر وغيرها.