حساب IBM الخاص بي تسجيل الدخول اشترك

الصفحة الرئيسية

الموضوعات

Hadoop

ما هو Apache Hadoop؟

ما هو Apache Hadoop؟

استكشف حل Hadoop من IBM سجل للتعرف على تحديثات الذكاء الاصطناعي
رسم توضيحي يحتوي على مجموعة من الرموز التوضيحية على شكل سُحُب، ومخطط دائري، ورسم بياني من الرموز التوضيحية
ما هو Apache Hadoop؟

ما هو Apache Hadoop؟

Apache Hadoop هو إطار برمجي مفتوح المصدر تم تطويره من جانب دوغلاس كوتنج، الذي كان يعمل في Yahoo آنذاك، ويوفر معالجة موزعة موثوقة للغاية لمجموعات البيانات الكبيرة باستخدام نماذج برمجة بسيطة.

تغلبت Hadoop على قيود قابلية التوسع في Nutch، وهي مبنية على مجموعات من أجهزة الكمبيوتر السلعية، ما يوفر حلاً فعالاً من حيث التكلفة لتخزين كميات هائلة من البيانات المنظمة وشبه المنظمة وغير المنظمة من دون متطلبات التنسيق ومعالجتها.

يمكن أن توفر بنية بحيرة البيانات بما في ذلك Hadoop حلاً مرنًا لإدارة البيانات لمبادرات تحليلات البيانات الضخمة الخاصة بك. ونظرًا لأن Hadoop عبارة عن مشروع مفتوح المصدر ويتبع نموذج الحوسبة الموزعة، فإنه يمكن أن يوفر أسعارًا موفرة للميزانية لبرامج البيانات الضخمة وحلول التخزين.

يمكن أيضًا تثبيت Hadoop على خوادم سحابية لإدارة موارد الحوسبة والتخزين المطلوبة للبيانات الكبيرة بشكل أفضل. ولمزيد من السهولة، يتم تكوين وكيل نظام التشغيل Linux ووكيل UNIX OS ووكيل نظام التشغيل Windows مسبقًا ويمكن تشغيله تلقائيًا. يقدم كبار موردو السحابة مثل Amazon Web Services (AWS) و Microsoft Azure الحلول. يدعم Cloudera أحمال عمل Hadoop محليًا وفي السحابة، بما في ذلك خيارات لبيئة سحابية عامة واحدة أو أكثر من موردين متعددين. استخدم واجهات برمجة تطبيقات مراقبة Hadoop لإضافة المجموعات والخدمات وتحديثها وحذفها وعرضها على المجموعات، ولجميع أنواع المراقبة الأخرى على Hadoop.

مخزن البيانات للذكاء الاصطناعي

اكتشف قوة دمج استراتيجية مستودع البيانات في بنية البيانات لديك، بما في ذلك التحسينات لتوسيع نطاق الذكاء الاصطناعي وفرص تحسين التكلفة.

محتوى ذو صلة التسجيل للحصول على المستند التقني حول حوكمة الذكاء الاصطناعي
النظام البنائي لـ Hadoop

النظام البنائي لـ Hadoop

يتضمن إطار عمل Hadoop، الذي أنشأته مؤسسة Apache للبرمجيات، ما يلي:

  • Hadoop Common: الأدوات المساعدة والمكتبات الشائعة التي تدعم وحدات Hadoop الأخرى. يُعرف أيضًا باسم Hadoop Core.

  • Hadoop HDFS (نظام الملفات الموزعة Hadoop): نظام ملفات موزع لتخزين بيانات التطبيق على أجهزة السلع. وتم تصميم HDFS لتوفير قدرة التسامح مع الأخطاء لـ Hadoop ويوفر عرض نطاق ترددي إجماليًا عاليًا للبيانات ووصولاً عالي الإنتاجية إلى البيانات. يتم نسخ كتل البيانات عبر عقد متعددة في وقت التحميل أو الكتابة بشكل افتراضي. درجة التكرار قابلة للتكوين: درجة التكرار الافتراضي هي ثلاثة. تتميز بنية HDFS بـ NameNode لإدارة مساحة اسم نظام الملفات والوصول إلى الملفات وDataNodes متعددة لإدارة تخزين البيانات. ومن خلال تمكين التوافر العالي، يمكن استخدام عقدة ثانوية في حال تعطل عقدة نشطة.

  • Hadoop YARN: يُعد Apache Hadoop YARN مفتوح المصدر من Apache Hadoop YARN إطار عمل لجدولة المهام وإدارة موارد المجموعة التي يمكن استخدامها مع IBM® Spectrum Symphony على Linux® وLinux على POWER®. YARN تعني مدير موارد آخر. وهو يدعم المزيد من أعباء العمل، مثل SQL التفاعلية والنمذجة المتقدمة والبث في الوقت الحقيقي.

  • Hadoop MapReduce: نظام قائم على YARN يخزن البيانات على مصادر متعددة ويعمل على المعالجة المتوازية لكميات كبيرة من البيانات. تتوفر تقنيات تحسين متعددة لـ MapReduce لتسريع الوظائف.

  • Hadoop Ozone: مخزن كائنات قابل للتوسع والتكرار والتوزيع مصمم لتطبيقات البيانات الضخمة.
دعم مشاريع Apache

دعم مشاريع Apache

عزز Hadoop بمشاريع برامج إضافية مفتوحة المصدر.

Ambari

أداة قائمة على الويب لتوفير مجموعات Hadoop وإدارتها ومراقبتها.

Avro

نظام تسلسل البيانات.

تعرّف على Avro
Cassandra

قاعدة بيانات NoSQL قابلة للتوسع، مصممة بحيث لا تحتوي على نقطة إخفاق واحدة.

Chukwa

نظام جمع البيانات لرصد الأنظمة الموزعة الكبيرة؛ بنيت على رأس HDFS وMapReduce.

Flume

خدمة لجمع كميات كبيرة من البيانات المتدفقة وتجميعها ونقلها إلى HDFS.

HBase

قاعدة بيانات موزعة قابلة للتطوير وغير ارتباطية تدعم تخزين البيانات المنظمة للجداول الكبيرة للغاية.

تعرف على Apache HBase
Hive

بنية تحتية لمستودع البيانات للاستعلام عن البيانات وتخزين البيانات الوصفية للجداول والتحليل في واجهة تشبه SQL.

تعرف على Apache Hive
Mahout

مكتبة قابلة للتطوير للتعلم الآلي واستخراج البيانات.

Oozie

مُجدول عبء العمل المستند إلى Java لإدارة مهام Hadoop.

Pig

لغة تدفق بيانات عالية المستوى وإطار عمل تنفيذي للحوسبة المتوازية.

تعرف على Apache Pig
Sqoop

أداة لنقل البيانات بكفاءة بين Hadoop ومخازن البيانات المنظمة مثل قواعد البيانات العلائقية.

Submarine

منصة ذكاء اصطناعي موحدة لتشغيل التعلم الآلي وأحمال تشغيل التعلم العميق في مجموعة موزعة.

Tez

إطار برمجة عام لتدفق البيانات، قائم على YARN؛ ويجري اعتماده داخل نظام Hadoop البنائي ليحل محل MapReduce.

ZooKeeper

خدمة تنسيق عالية الأداء للتطبيقات الموزعة.

Hadoop للمطورين

Hadoop للمطورين

تمت كتابة Apache Hadoop بلغة Java، ولكن بحسب مشروع البيانات الضخمة، يمكن للمطورين البرمجة باللغة التي يختارونها، مثل Python أو R أو Scala. تتيح الأداة المساعدة Hadoop Streaming المضمنة للمطورين إنشاء مهام MapReduce وتنفيذها باستخدام أي برنامج نصي أو قابل للتنفيذ كمُعيِّن أو مخفض.

مقارنة بين Spark وHadoop

مقارنة بين Spark وHadoop

غالبًا ما تتم المقارنة بين Apache Spark وHadoop لأنه أيضًا إطار عمل مفتوح المصدر لمعالجة البيانات الضخمة. في الواقع، تم تصميم Spark في البداية لتحسين أداء المعالجة وتوسيع أنواع العمليات الحسابية الممكنة باستخدام Hadoop MapReduce. يستخدم Spark معالجة داخل الذاكرة، ما يعني أنه أسرع بكثير من قدرات القراءة / الكتابة في MapReduce.

في حين أن Hadoop هو الأفضل لمعالجة كميات ضخمة من البيانات على دفعات ، فإن Spark يدعم كلاً من معالجة البيانات على دفعات وفي الوقت الفعلي وهو مثالي لتدفق البيانات وحسابات الرسوم البيانية. يحتوي كل من Hadoop وSpark على مكتبات للتعلم الآلي، ولكن مرة أخرى، بسبب المعالجة داخل الذاكرة، يكون التعلم الآلي في Spark أسرع بكثير.

تعرف على المزيد حول Apache Spark
حالات استخدام Hadoop

حالات استخدام Hadoop

قرارات أفضل تعتمد على البيانات: دمج البيانات في الوقت الفعلي (بث الصوت والفيديو ومشاعر وسائل التواصل الاجتماعي وبيانات تدفق النقرات) وغيرها من البيانات شبه المنظمة وغير المنظمة غير المستخدمة في مستودع البيانات أو قاعدة البيانات العلائقية. توفر البيانات الأكثر شمولاً قرارات أكثر دقة.

تحسين الوصول إلى البيانات وتحليلها: تعزيز الوصول في الوقت الفعلي والخدمة الذاتية لعالم البيانات ومالكي خطوط الأعمال والمطورين. يمكن لـ Hadoop أن يغذي علم البيانات، وهو مجال متعدد التخصصات يستخدم البيانات والخوارزميات والتعلم الآلي والذكاء الاصطناعي للتحليل المتقدم للكشف عن الأنماط وبناء التنبؤات.

تفريغ البيانات وتوحيدها: تبسيط التكاليف في مراكز بيانات مؤسستك عن طريق نقل البيانات "الباردة" غير المستخدمة حاليًا إلى توزيع قائم على Hadoop للتخزين. أو دمج البيانات على مستوى المؤسسة لزيادة إمكانية الوصول وخفض التكاليف.

حلول ذات صلة

حلول ذات صلة

IBM وCloudera

دعم التحليلات التنبئية والوصفية للذكاء الاصطناعي اليوم. اجمع بين توزيع Hadoop على مستوى المؤسسات من Cloudera في نظام بنائي واحد من المنتجات والخدمات المتكاملة من كل من IBM و Cloudera لتحسين اكتشاف البيانات واختبارها والاستعلامات المخصصة وشبه الفورية. الاستفادة من التعاون بين IBM وCloudera لتقديم حلول Hadoop للمؤسسات.

استكشف IBM وCloudera

IBM® Db2® Big SQL

استخدم محرك SQL-on-Hadoop الهجين المتوافق مع ANSI على مستوى المؤسسات لتقديم معالجة متوازية على نطاق واسع (MPP) واستعلام بيانات متقدم.

استكشف Db2 Big SQL

IBM Big Replicate

نسخ البيانات في أثناء تدفقها حتى لا تحتاج الملفات إلى كتابتها بالكامل أو إغلاقها قبل النقل.

استكشف Big Replicate
قواعد بيانات مفتوحة المصدر

استفد بشكل أكثر توفيرًا للتكلفة من البيانات الضخمة باستخدام قواعد بيانات مفتوحة المصدر من كبار الموردين مثل MongoDB وEDB.

استكشف قواعد بيانات مفتوحة المصدر

الموارد

الموارد

IBM + Cloudera

تعرف على كيفية قيامهم بقيادة التحليلات المتقدمة باستخدام بحيرة بيانات آمنة ومحكومة ومفتوحة المصدر على مستوى المؤسسات.

كيفية توصيل المزيد من البيانات

أضف بحيرة البيانات إلى إستراتيجية إدارة البيانات الخاصة بك لدمج المزيد من البيانات غير المنظمة للحصول على معارف أعمق.

بحيرة بيانات قوية ومحكومة للذكاء الاصطناعي

استكشف تقنيات التخزين والحوكمة اللازمة لبحيرة البيانات الخاصة بك لتقديم بيانات جاهزة مدعومة بالذكاء الاصطناعي.

حوكمة بحيرة البيانات

شاهد كيف يمكن لحلول الحوكمة التي أثبتت جدواها أن تؤدي إلى تكامل البيانات والجودة والأمان بشكل أفضل لبحيرات البيانات الخاصة بك.

دورات تحليلات البيانات الكبيرة

اختر مسار التعلم الخاص بك، بناء على مستوى المهارة، من الدورات التدريبية المجانية في مجال علوم البيانات والذكاء الاصطناعي والبيانات الضخمة وغيرها.

مجتمع مفتوح المصدر

انضم الى مجتمع IBM لإدارة البيانات مفتوحة المصدر للتعاون والمصادر وغيرها.