ما هي بحيرة البيانات

ما هي بحيرة البيانات

ما هي بحيرة البيانات ؟ لقد تمّ تقديم مصطلح “بحيرة البيانات” بواسطة جيمس ديكسون، وهو رئيس قسم التكنولوجيا في بينتاهو برامج ذكاء الأعمال. إن وصف هذا النوع من المستودعات على أنّه بحيرة أمر منطقي لأنّه يخزن مجموعة من البيانات في حالتها الطبيعية، مثل جسم مائي لم يتم تصفيته أو تعبئته. حيث تتدفق المعلومات من مصادر متعدّدة إلى البحيرة ويتم تخزينها بتنسيقها الأصلي.

ما هي بحيرة البيانات

بحيرة البيانات هي نوع من مستودع البيانات، حيث يخزّن مجموعات كبيرة ومتنوعة من البيانات الأوليّة، وبتنسيقها الأصلي. كما تسمح بالحفاظ على عرض غير مكرّر للبيانات. في الواقع، لقد أصبحت استراتيجيّة إدارة البيانات أكثر شيوعاً لدى المؤسّسات التي تريد مستودعاً شاملاً وكبيراً لبياناتها:

  • في حين أنّ البيانات الأوليّة هي التي لم تتم معالجتها بعد لغرض معيّن. حيث لا يتمّ تعريفها تلك الموجودة في بحيرة البيانات حتى يتم الاستعلام عنها.
  • كما يمكن للعلماء بالوصول إلى البيانات الأوليّة عندما يحتاجون إليها باستخدام أدوات تحليلات أكثر تقدماً أو نمذجة تنبؤيّة.
  • في حين يتمّ الاحتفاظ بجميع البيانات عند استخدام بحيرة البيانات؛ ولا تتم إزالة أيّ منها أو تصفيتها قبل التخزين. وقد يتم استخدامها للتحليل قريباً أو في المستقبل أو على الإطلاق.
  • كما يمكن أيضاً استخدام البيانات مرات عديدة لأغراض مختلفة، على عكس الوقت الذي يتم فيه تنقيحها لغرض معين. مما يجعل من الصعب إعادة استخدام البيانات بطريقة مختلفة.
  • لا يتم تحويل البيانات الموجودة في البحيرة حتى تكون مطلوبة للتحليل، ثم يتمّ تطبيق المخطط بحيث يمكن التحليل. يسمى هذا “المخطط عند القراءة”، لأنّه يتمّ الاحتفاظ بالبيانات الأوليّة حتى تصبح جاهزة للاستخدام.
  • كما تسمح البحيرات البيانية للمستخدمين بالوصول إليها واستكشافها بطريقتهم الخاصة، وذلك بدون الحاجة إلى نقلها إلى نظام آخر.
  • عادةً ما تحدث الرؤى والتقارير التي يتمّ الحصول عليها من بحيرة البيانات على أساس مخصّص، بدلاً من سحب تقرير التحليلات بانتظام من نظام أساسي آخر أو نوع من مستودع البيانات. ومع ذلك، يمكن للمستخدمين تطبيق المخطط والأتمتة لتمكين تكرار التقرير إذا لزم الأمر.
  • في حين تحتاج إلى حوكمة وتتطلّب صيانة مستمرة لجعل البيانات قابلة للاستخدام ويمكن الوصول إليها.
  • بدون هذه الصيانة، فإنك تخاطر بالسماح لبياناتك بأن تصبح غير مهمة، حيث لا يمكن الوصول إليها، وغير عمليّة، ومكلفة، وغير مجدية.
  • يُشار إلى البحيرات التي يتعذر وصول مستخدميها إليها باسم “مستنقعات البيانات”.

اقرأ أيضاًتسجيل حساب بمنصة مسار الإلكترونية وتحديث البيانات في المنصة

بحيرة البيانات مقابل مستودع البيانات

في السياق نفسه، فإنّه على الرغم من أنّ غالباً ما يتمّ الخلط بين بحيرة البيانات ومستودع البيانات، إلاّ أنها ليست هي نفسها وتخدم أغراضاً مختلفة. في الواقع إنّ البحيرة ومستودع البيانات عبارة عن مستودعات لتخزين البيانات الضخمة، ولكن هنا تنتهي أوجه التشابه. وفيما يلي نقدّم بعض الفروق بينهما كما يلي:

  • ستستخدم العديد من المؤسسات بحيرة ومستودع البيانات لتلبية احتياجاتها وأهدافها المحدّدة.
  • يوفّر مستودع البيانات نموذج منظّم ومصمّم لإعداد التقارير. هذا هو الاختلاف الرئيسي بين البحيرة ومستودع البيانات.
  • تخزن البحيرات البيانات الأوليّة غير المهيكلة بدون غرض محدّد. وقبل أن يتمّ وضع البيانات في مستودع بيانات، يجب معالجتها.
  • يتم اتخاذ القرارات بشأن البيانات التي سيتمّ تضمينها أو عدم تضمينها في المستودع، والتي يشار إليها باسم “المخطط عند الكتابة”.
  • يمكن أن تكون عمليّة تنقية البيانات قبل تخزينها في المستودع مضيعة للوقت وصعبة. وقد تستغرق أحياناً شهوراً أو حتى سنوات، مما يمنعك أيضاً من جمع البيانات على الفور.
  • باستخدامها، يمكن البدء في جمع البيانات على الفور، ومعرفة ما يجب فعله بها في المستقبل.
  • نظراً لهيكلها، فغالباً ما يتمّ استخدام مستودعات البيانات من قبل محلّلي الأعمال ومستخدمي الأعمال الآخرين الذين يعرفون البيانات التي يحتاجون إليها مسبقاً لإعداد التقارير المنتظمة.
  • غالباً ما يتمّ استخدامها من قبل علماء ومحلّلي البيانات، لأنهم يقومون بإجراء بحث باستخدام البيانات. وتحتاج البيانات إلى مزيد من المرشحات والتحليلات المتقدّمة المطبقة عليها قبل أن تكون مفيدة.
  • عادةً ما تستخدم بحيرات البيانات ومخازن البيانات أجهزة مختلفة للتخزين.
  • كما يمكن أن تكون مستودعات البيانات باهظة الثمن، بينما يمكن أن تظل بحيرة البيانات غير مكلفة على الرغم من حجمها الكبير؛ لأنها غالباً ما تستخدم أجهزة سلعة.

هندسة البحيرات البيانية

تحتوي بحيرة البيانات على بنية مسطّحة لأنها يمكن أن تكون غير منظّمة أو شبه منظمة أو منظمة. ويتم تجميعها من مصادر مختلفة عبر المؤسسة، مقارنة بالمستودعات التي تخزن البيانات في ملفات أو مجلدات. ونظراً لبنيتها، توفر قابليّة واسعة وهائلة تصل إلى مقياس إكس بايت. هذا مهم لأنّه عند إنشائها، فأنت لا تعرف مسبقاً حجم المعطيات التي ستحتاج للاحتفاظ بها. لا يمكن لأنظمة تخزين البيانات التقليديّة التوسّع بهذه الطريقة. كما تفيد هذه البنية العلماء القادرين على استخراج البيانات واستكشافها من جميع أنحاء المؤسسة ومشاركتها والمراجع التبادليّة، بما في ذلك غير المتجانسة من مختلف المجالات، لطرح الأسئلة والعثور على رؤى جديدة. يمكنهم أيضاً الاستفادة من تحليلات البيانات الضخمة والتعلم الآلي للتحليل. وعلى الرغم من أن البيانات لا تحتوي على مخطّطٍ ثابت قبل التخزين ، إلاّ أن إدارة البيانات لا تزال مهمة لتجنب مستنقع البيانات. يجب تمييز البيانات بالوصفية عند وضعها في البحيرة لضمان إمكانيّة الوصول إليها لاحقاً.

اقرأ أيضاًما هي خطة استعادة البيانات بعد الكوارث

وأخيراً، قدّمنا تعريفاً حول ما هي بحيرة البيانات، والتي تمكّن العلماء بالوصول إلى البيانات وإعدادها وتحليلها بشكل أسرع، وبدقّة أكبر باستخدام. كم أنّها توفّر بالنسبة لخبراء التحليلات مجموعة هائلة من البيانات، الموجودة بتنسيقات مختلفة غير تقليديّة. والتي من شأنها أن تتيح الفرصة للوصول إليها من مجموعة متنوعة من حالات الاستخدام مثل تحليل المشاعر أو اكتشاف الاحتيال.

المراجع

  1. ^ redhat.com , What is a data lake? , 7/8/2021

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *