شريط الأخبار

8 اتجاهات كبيرة في تحليلات البيانات الكبيرة

” نستشعر أهمية البيانات في حياتنا في التي تخلق المعلومات وتمثل سجل حياتنا اليومي وترسم مستقبل تسويق الشركات وتعتمد عليها الدول في خططها التنموية ورسم سياساتها الاقتصادية ، اليوم نعيش في عصر البيانات الكبيرة الذي انفتح مع نمو الحوسبة السحابية التي تقوم بمهمة التخزين والتحليل للبيانات …والحقيقة أن مع نمو هذه المعلومات تنمو مشكلة القدرة على التحليل لذا فهناك اتجاهات دولية تتعلق بتحليل تلك البيانات الكبيرة نستعرضها في السطور التالية”

  • التحليل بالسحابة شهد تطورات هائلة فبعض الشركات تحلل البيانات في الوقت الحقيقي لتقدم رسائل فورية لتجار التجزئة.
  • –          بحيرات البيانات الكبيرة مصطلح انطلق من نظرية قاعدة البيانات التقليدية.
  • المزيد من البيانات الخاضعة للتحليل تزيد من درجة وموثوقية التنبؤ بالمستقبل .
  • التعلم العميق (Deep learning) البحث عن البيانات الكبيرة في النصوص الكثيرة.

الخيارات التكنولوجيا لا تزال بعيدة عن النضج

برغم نمو البيانات في مختلف الوسائط مثل الأقراص و الخوادم العملاقة والأقراص الصلبة والمحمولة والسحابة وغيرها ، ألا أن الخيارات التكنولوجيا في مجال تخصصات البيانات وتحليل البيانات الكبيرة لا تزال بعيدة عن النضج، فقد التكنولوجيات الناشئة سنوات لتنضج لذا فالبيانات الكبيرة تمثل أكبر التحديات برغم ظهور مواقع واعدة تعمل كمنصة لتحليل البيانات مثل[Hadoop]  تعمل على تحيل البيانات الكبيرة للصناعيين والاستشاريين وقادة تكنولوجيا المعلومات عبر الويب .لذا فهناك اتجاهات لنمو هذه الصناعة نلخصها في الاتجاهات التالية:

الاتجاه الأول : تحليل البيانات الكبيرة في السحابة   

يشمل موقع Hadoop  إطارا ومجموعة من الأدوات لمعالجة مجموعات متنوعة من البيانات الكبيرة جدا فقد كان مصمما أصلا للعمل على مجموعات من الآلات المادية وقد تغير لاحقا. يقول براين هوبكنز محلل بيانات في مؤسسة فورستر للأبحاث (Forrester) ” هناك اتجاه متزايد من التكنولوجيات المتاحة لمعالجة البيانات في سحابة”  فمثلا تستخدم شركة Amazon على مستضيفها موقع السحابة Redshift  نظام مستودع البيانات و استقصاء المعلومات BI data والذي يعمل بنظام BigQuery وهي خدمة تحليل بيانات Google وكذلك موقع سحابة Bluemix التابعة لشركة IBM وهي منصة تستخدم خدمة وكينسيس (Kinesis) لمعالجة وتحليل البيانات و أمازن لديها أيضا نفس الخدمة وكينسيس وفي المستقبل سيكون معالجة هجينة للبيانات الكبيرة على أساس الحوسبة السحابية في تلقي البيانات وتحليلها أولا بأول وليس مجرد تخزينها فحسب.  

وتحتاج الشركات لتلك المنصات في أعادة التسويق الأكثر ذكاء، فهي موفر بياني لتحليلات بيانات التجزئة القائمة على أدارة العلاقات، وخدمات تجارة التجزئة والتسويق والتي تعتمد على برنامج التحليل الإحصائي الشهير SaaS . وانتقلت تقنيات قواعد البيانات MongoDB  من Hadoopإلى موقع التسوق العالمي المعروف الأمازون عبر موقعها Redshift كمستودع البيانات القائم على السحابة، شركة Indianapolis لتحليل البيانات تجمع مبيعات الجملة والتجزئة على الانترنت من الشركات التجارية التي تتعاقد معها  والبيانات الديموغرافية للعملاء فضلا عن البيانات السلوكية في الوقت الحقيقي ومن ثم تقوم بتحليل تلك المعلومات لمساعدة تجار التجزئة في خلق الرسائل المستهدفة للحصول على الاستجابة المطلوبة من جانب المتسوقين، و في بعض الحالات يتم عمل تلك الرسائل في الوقت الحقيقي.  وتسمي تلك البيانات بالبيانات الذكية التي تنتج قرارات فورية وقدرة على الإبلاغ للشركة المنتجة أو التي تقدم خدمة.

وفي سياق متصل بهذا الاتجاه نجد شركة ماونتن فيو المالية (Mountain View) بولاية كاليفورنيا الأمريكية تعتمد بحذر على تحليلات سحابة لأنها بحاجة إلى بيئة آمنة ومستقرة وقابلة للتدقيق. أما الآن، فإن شركة البرمجيات المالية تعمل على الحفاظ على كل شيء ضمن نطاق خاص يمكنها من استخدام تحليلات الغيمة.        

وتسعي شركتي الأمازون وCloudera  لجعل استخدام تطبيقاتها التحليلية على السحابة للقطاعين العام والخاص، وهي متاحة للغاية وآمنة ويمكنها أن تشمل مختلف دول العالم ، ولكن إلى الآن لا نشهد نمو برغم أن الاتجاه نحو الغيمات في تخزين البيانات وتحليلها أمر لا مفر وربما يعود السبب للتكاليف الباهظة في نقل البيانات عبر الانترنت كونها بيانات كبيرة وكذلك رسوم تحليلها مقارنة بالبرمجيات المتوفرة على الأقراص أو الشركات الاستشارية.

الاتجاه الثاني : نظام التشغيل الجديد للبيانات

الأطر التحليلية الموزعة مثل MapReduce تتطور وتشمل مديري الموارد الموزعة التي يتحولون تدريجيا إلى نظام تشغيل البيانات للأغراض العامة من Hadoop و مع هذه الأنظمة يمكن تنفيذ العديد من تشغيل البيانات وعمليات التحليل المختلفة عن طريق توصيلها بنظام تخزين الملفات الموزع. ويعني هذا أن أطر تحليل مثل SQL, MapReduce والرسوم البيانية وأنواع أخرى من أعباء العمل يمكن تشغيلها على منصات متقدمة مثل Hadoop لذا فالشركات تستخدم هذه المنصة كمركز بيانات المؤسسة القادرة على تشغيل العديد من أنواع مختلفة من [الاستفسارات وعمليات البيانات] بتكلفة منخفضة ومكان لتخزين البيانات والأغراض العامة وتعمل منصة Hadoop بشكل وثيق مع MapReduce للاستفادة من نظام الملفات الموزعة وتمكين جميع أنواع التفاعلات مع الناس والمنتجات.       

الاتجاه الثالث : بحيرات البيانات الكبيرة (Big data lakes)

بحيرات البيانات الكبيرة (Big data lakes) مصطلح جديد ولكنه ينطلق من نظرية قاعدة البيانات التقليدية التي تقوم على تصميم وتصنيف مجموعة البيانات قبل إدخال أي بيانات. بحيرة البيانات تسمى كذلك بحيرة مركز البيانات أو بحيرة بيانات المشروع المحورية للشركة (Enterprise Data Hub)، ويتحول هذا النموذج رأسا على عقب عندما نأخذ مصادر البيانات ونفرغ كل منهم في مستودع تخزين البيانات، مع ملاحظة أنه ليس علينا أن نحاول تصميم نموذج البيانات مسبقاً.فبدلا من ذلك يمكن تجهيز أدوات للمستهدفين من جمع البيانات (الناس) بهدف تحليل البيانات جنبا إلى جنب مع تعريف بسيط عن وجود البيانات المطلوبة في البحيرة ليقوم المستخدمين بالوصول إليها بناء على الآراء المكونة للبيانات واسعة النطاق، والجانب السلبي هنا أنه يجب على المستخدمين أن يكون من ذوي المهارات العالية لذا فعلى المستخدمين الأعضاء عدم الذهاب مباشرة للبيانات إلا وفقاً لنموذج العضوية لزيادة قدرتهم على استيعاب أسلوب بناء قاعدة البيانات.أن المستشعر بتحليلات الغيمة يستشعر أن لدية بحيرة البيانات التي تتضمن بيانات المستخدم وبيانات الشركات وبيانات الطرف الثالث ولكن يجب التركيز على ” دمقرطة  democratizing” الأدوات المحيطة لتلك البيانات لتتيح لرجال الأعمال استخدامها بفاعلية ، أحد مخاوف بناء بحيرات البيانات هو أن النظام الأساسي لم يبني لمشاريع جاهزة ومن تلك العناصر مراقبة التحكم للوصول إلى تلك البيانات والتشفير، وتأمين البيانات وتتبع نسب البيانات من المصدر إلى الوجهة.   

 الاتجاه الرابع : المزيد من التحليلات التنبؤية

ليس بالمزيد من بيانات العمل والمحلل نصنع التحليل بل بقوة المعالجة للتعامل مع عدد كبير من السجلات وبالعديد من السمات، فعند العودة والنظر في استخدام الآلية التعلم التقليدية للتحليل الإحصائي القائمة على أساس استخراج عينة من إجمالي مجموعة البيانات لتحليلها وبناء النتائج بشأنها والتي تكون تنبؤات ضعيفة ولكن مع العمل الالكتروني للتعامل مع حزم كبيرة من البيانات وبالتالي التعامل مع أعداد كبيرة جدا من السجلات وأعداد كبيرة جدا من السمات لكل سجل وهذا يزيد من القدرة على التنبؤ.    

أذن فالاتجاه الجديد يتيح للمحللين استكشاف البيانات السلوكية الجديدة على مدار اليوم وعند القيام بالتحليل يتم على كل أو اغلب البيانات المتوفرة وليس بالعينات، بالإضافة لقدرة التحليل في الوقت الحقيقي وبمعدل 20 مرة زيادة عمل لمحركات معالجة البيانات على نطاق واسع، وأداة الاستعلام SQL المرتبط بها. فمثلا SQL سبارك يضمن استعلام تفاعلي سريع فضلا عن خدمات الرسم البياني وقدرات التدفق وحفظ البيانات ضمن منصة  Hadoop، و إعطاء أداء يكفي لسد الفجوة بالنسبة لنا.    

الاتجاه الخامس : استخدام التطبيق والغيمة الأسرع والأفضل  

المبرمج الذكي والمحلل يمكنه إسقاط البيانات في غيمة Hadoop والقيام بالتحليل ولكن المشكلة كما يراها مارك باير من مؤسسة جارتنر أننا بحاجة إلى شخص يضعها في شكل وبنية اللغة التي يتعامل معها فتطبيق الاستعلامات SQL يقدم أساليب مشابهة لتلك البيانات ، فالشركات لا تحتاج إلى الاستثمار في البيانات الراقية ومحللي التي يمكن كتابة البرامج النصية باستخدام جافا، جافا سكريبت وبيثون. هذه الأدوات ليست شيئا جديدا فان تطبيق Apache Hive يعرض هيكلة التنظيمي مثل SQL  لغة الاستعلام في Hadoop ، لكن البدائل التجارية من شركات أخرى مثل  Cloudera, Pivotal Software, IBM وغيرها والتي تقدم أداء أفضل وأسرع بكثير.   

الاتجاه السادس : أفضل لغات الاستعلام NoSQL القصيرة  

قواعد البيانات التقليدية تستند إلى SQL الارتباطية ولكن لغة الاستعلام الجديدة تدعي NoSQL للدلالة على عدم اعتمادها على SQL وتكتسب هذه الأداة شعبية بسرعة لاستخدامها في أنواع محددة من التطبيقات التحليلية، وسوف يستمر هذا الزخم في النمو بسبب أن هناك من 15-20 موقع مفتوح المصدر من قواعد بيانات NoSQL ولكل منها تخصصها الخاص على سبيل المثال منتج NoSQL قواعد بيانات بقدرة على الرسم البياني مثل تطبيق ArangoDB وهو سريع ويحلل بطريقة مباشرة لتحليل شبكة من العلاقات بين العملاء ومندوبي المبيعات مما يساعد على بناء قاعدة بيانات ارتباطية ” علائقية”.

الاتجاه السابع : التعلم العميق (Deep learning)

مجموعة من تقنيات آلة التعلم القائمة على الشبكات العصبية، ولكنها لا تزال تتطور وتظهر إمكانات كبيرة من أجل حل مشاكل العمل. يستخدم التعليم العميق أجهزة الكمبيوتر للتعرف على البنود ذات الأهمية من كميات كبيرة من البيانات غير المهيكلة والثنائية، وتستنتج العلاقات دون الحاجة إلى نماذج محددة أو برمجة لتعليماتها.  وقد تم تجربة خوارزمية التعلم العميقة عبر فحصها ببيانات من ويكيبيديا واستنباط مجموعة من المعلومات مثل مفهوم الدولة واستطاعت تلك الخوازميات الحاسوبية جمع بيانات من موقع الموسوعة العالمية.وهذا يشير لحجم استخراج البيانات الكبيرة من نصوص كثيرة والتعرف على البيانات المرافقة لها مثل الأشكال والألوان والكائنات أو حتى الفيديو وهذا ما فعلته Google عام 2012م من فكرة الاشتباك المعرفي حيث قدمت تحليلات متقدمة للبيانات والأشياء وهذا يمثل الاتجاه المستقبلي.     

الاتجاه الثامن : التحليل في الذاكرة

استخدام قواعد البيانات في الذاكرة لتسريع معالجة التحليل تحظى بشعبية على نحو متزايد ومفيد للغاية في المسار الصحيح ، فالعديد من الشركات تستقطب المعالجات الهجينة التحليلية (HTAP) للسماح للمعاملات ويتم ذلك في نفس قاعدة البيانات في الذاكرة.

ولكن هناك الكثير من الضجيج حول HTAP، وخاصة مع إفراط  الشركات في استعمال ذلك الأسلوب من التحليل.  حيث يحتاج المستخدم عرض نفس البيانات في نفس المسارات ولمرات عديدة خلال اليوم وليس هناك تغيير كبير في البيانات كونها مخزنة على الذاكرة وهي تخفف من تكاليف التخزين الخارجي.

بينما يمكن إجراء تحليلات أسرع مع HTAPلكل بيانات المعاملات يجب أن يتواجد داخل نفس قاعدة البيانات وهنا تكمن المشكلة فالعديد من المعاملات لها العديد من الأنظمة المختلفة وبمجرد وضع كل ذلك على قاعدة بيانات واحدة يكون غير واقعي إلا أذا كنت ستطبق وتستخدم نظام  HTAP لجميع التحليلات الخاصة بك، فإنه يتطلب منك أن تجمع جميع المعاملات الخاصة بك لتكون في مكان واحد. فمثلا عند استخدام Spark في احتضان قواعد البيانات في الذاكرة فأننا سنتمكن من حل 100% من حالات الاستخدام لدينا مع البنية التحتية للنظام (السرفرات)  بينما يمكن حل 70%  فقط في الغيمة وهذا يدلل على استخدام الذاكرة في عملية تحليل البيانات.

مواضيع ذات صلة

التعليقات مغلقة.

Developed By: HishamDalal@gmail.com