بيت اعمال أساسيات البيانات الضخمة: كيفية بناء خطة حوكمة البيانات

أساسيات البيانات الضخمة: كيفية بناء خطة حوكمة البيانات

فيديو: بسم الله Official CLIP BISMILLAH Edition 2013 ARABE (سبتمبر 2024)

فيديو: بسم الله Official CLIP BISMILLAH Edition 2013 ARABE (سبتمبر 2024)
Anonim

لقد كتبنا الكثير عن دور البيانات في الأعمال الحديثة. من الشركات الناشئة والشركات الصغيرة والمتوسطة الحجم (SMBs) إلى الشركات الكبيرة ، أصبحت رؤى البيانات وتحليلها في متناول الشركات من جميع الأحجام أكثر من أي وقت مضى. هذا جزئيًا بفضل ظهور ذكاء أعمال الخدمة الذاتية (BI) وأدوات تصور البيانات.

على الرغم من ذلك ، قبل أن تتمكن من استخدام أدوات استقصاء المعلومات أو تشغيل التحليلات التنبؤية على مجموعة بيانات ، هناك مجموعة من العوامل التي يجب تحديدها. يبدأ الأمر ببساطة بفهم ماهية البيانات الكبيرة ، وما هي ليست (تلميح: ليست كرة بلورية) ، وكيفية إدارة تخزين البيانات ، والتنظيم ، والأذونات ، والأمن داخل بنية بيانات المؤسسة. هذا هو المكان الذي تأتي فيه إدارة البيانات. تختلف العمليات التي تضمن بها الإدارة داخل المؤسسة اعتمادًا على من تتحدث إليه. ولكن في جوهرها ، تتعلق إدارة البيانات بثقة البيانات والمساءلة ، وتزوجها بأفضل ممارسات أمان البيانات الشاملة.

تحدثت إلى Hortonworks و MapR ، وهما من أكبر بائعي Hadoop في السوق. شرح كل من سكوت جناو ، كبير المسؤولين التقنيين في Hortonworks ، وجاك نوريس ، نائب الرئيس الأول للبيانات والتطبيقات في MapR ، معنى إدارة البيانات لمؤسساتهم. وناقشوا كيفية مواجهة التحدي المعقد المتمثل في ضمان حوكمة البيانات ضمن هياكل البيانات المعقدة والتسلسلات الهرمية التنظيمية لمؤسسة كبيرة.

ما هو بالضبط حوكمة البيانات ولماذا نحتاجها؟

الحوكمة تعني التأكد من أن بيانات المؤسسة مرخصة ومُنظمة ومصرح بها في قاعدة بيانات بأقل عدد ممكن من الأخطاء ، مع الحفاظ على الخصوصية والأمان. ليس من السهل تحقيق توازن ، خاصة عندما يكون واقع مكان وكيفية معالجة البيانات ومعالجتها في حالة تغير مستمر. أوضح Norris من MapR سبب حاجة الشركات إلى النظر في حوكمة البيانات من مستوى أعلى والتركيز على خط أنابيب البيانات الأكبر قيد التشغيل.

"عندما تبدأ في زيادة تنوع وسرعة البيانات الضخمة التي نتعامل معها ، يجب أن يكون لديك حوكمة البيانات لكنها في هذا السياق الأوسع. ما هي البيانات التي لديك ، ومن لديه حق الوصول إليها ، وكيف حالك إدارة نسب تلك البيانات مع مرور الوقت؟ " قال نوريس. "من وجهة نظر حوكمة البيانات ، يمكنك الحصول على مراحل مختلفة من البيانات الموجودة داخل نظام يمكن التقاطه حتى تتمكن من الرجوع في أي وقت في خط الأنابيب. إنه يتعلق ببناء القدرة على التدقيق والتحكم في الوصول إلى منصة البيانات لجعل تأكد من أن اكتشاف البيانات والتحليلات شفافان ، سواء أكنت مدير أعمال يبحث في مجموعات البيانات المالية أو عالِم بيانات يعمل مع البيانات الأولية الأولية."

المصدر: ريمس. انقر على الصورة للعرض الكامل.

جنو هورتونووركس في نقطة مماثلة. سواء كنت تتعامل مع مستودع بيانات أو هندسة بحيرة البيانات ، فإن إدارة البيانات تتعلق بموازنة القوى المتعارضة. يتعلق الأمر بالوصول غير المقيد للبيانات لدفع الابتكار واستنباط الرؤى والأذونات الدقيقة والخصوصية لحماية هذه البيانات في وقت واحد من طرف إلى آخر.

وقال جنو: "قارن بين العالم القديم للحكم التقليدي في مساحة البيانات ومقارنته ؛ لقد كان الأمر أسهل قليلاً". "اعتادت البيانات أن تكون محددة جيدًا من خلال دور الوظيفة أو التطبيق. في العالم الجديد ، تحصل على أكبر قيمة عندما يتمكن علماء البيانات من الوصول إلى أكبر قدر ممكن من البيانات ، وإيجاد وسيلة سعيدة أمر مهم للغاية.

وأضاف جناو: "إنها تقود نموذجًا جديدًا تمامًا فيما يتعلق بكيفية التعامل مع الحكم". "في هذا العالم الجديد ، أعتبر موضوعات الحوكمة والأمن التي يجب تغطيتها معًا. لا تزال العديد من الشركات تكافح من أجل التحرك من أجل تمكين علماء البيانات من أن يكونوا فعالين في العثور على حالات الاستخدام الجديدة هذه ، وفي الوقت نفسه وفهم كيفية التعامل مع الأمان والخصوصية والحوكمة - كل الأشياء المهمة من منظور القاع وأيضًا من منظور سمعة الشركة."

كيف من المفترض أن تشمل خطة حوكمة بيانات المؤسسات وتلبية جميع القوى المعارضة؟ عن طريق معالجة كل شرط بشكل منهجي ، خطوة واحدة في كل مرة.

كيفية بناء خطة حوكمة البيانات

تعد Hortonworks و MapR و Cloudera أكبر ثلاثة لاعبين مستقلين في مساحة Hadoop. الشركات لها مجالات نفوذها الخاصة عندما يتعلق الأمر بحوكمة البيانات. أصدرت MapR عددًا من الأوراق البيضاء حول الموضوع وبنت حوكمة البيانات من خلال منصة البيانات المتقاربة ، بينما تمتلك Hortonworks حلها الخاص بأمان البيانات وحوكمتها وشاركت في تأسيس مبادرة حوكمة البيانات (DGI) في عام 2015. وقد أدى ذلك إلى الانفتاح -مصدر مشروع أطلس أباتشي الذي يوفر إطار حوكمة بيانات مفتوح لـ Hadoop.

ولكن عندما يتعلق الأمر بكيفية صياغة كل بائع لاستراتيجيات شاملة لإدارة البيانات والأمن ، تحدث كل من Gnau و Norris على نفس الخطوط. فيما يلي الخطوات المدمجة التي يوصي Hortonworks و MapR بأن تضعها الشركات في الاعتبار عند وضع خطة لحوكمة البيانات.

الكبير واحد: الوصول إلى البيانات الحبيبية والترخيص

تتفق الشركتان على أنه لا يمكن أن يكون لديك حوكمة بيانات فعالة بدون ضوابط محببة. ينجز MapR هذا بشكل أساسي من خلال تعبيرات التحكم في الوصول (ACEs). كما أوضح نوريس ، تستخدم ACEs منطق التجميع والمنطق للتحكم المرن في الوصول إلى البيانات والترخيص ، مع أذونات تستند إلى الأدوار وإعدادات الرؤية.

وقال للتفكير في الأمر مثل نموذج غارتنر. على المحور ص في الطرف السفلي توجد إدارة صارمة وخفة الحركة ، وعلى المحور العاشر في النهاية العليا هناك خفة أعلى وأقل حوكمة.

وقال نوريس: "على المستوى المنخفض ، فإنك تحمي البيانات الحساسة من خلال التعتيم عليها. في الأعلى ، لديك عقود سرية لعلماء البيانات ومحللي استقصاء المعلومات". "نحن نميل إلى القيام بذلك من خلال إمكانات التقنيع ووجهات النظر المختلفة حيث تقوم بحبس البيانات الخام في الأسفل قدر الإمكان ، وتوفر تدريجياً مزيدًا من الوصول حتى تقوم ، في النهاية العليا ، بإعطاء المشرفين رؤية أوسع. ولكن كيف تعطي الوصول إلى الأشخاص المناسبين؟

وأضاف نوريس: "إذا نظرت إلى قائمة التحكم في الوصول اليوم ، فستقول شيئًا مثل" كل شخص في الهندسة يمكنه الوصول إلى ذلك ". "ولكن إذا كنت ترغب في أن يتمكن عدد قليل من المديرين المختارين في مشروع داخل تكنولوجيا المعلومات من الوصول أو الجميع باستثناء شخص ، فيجب عليك إنشاء مجموعة خاصة. إنها طريقة معقدة للغاية ومعقدة للنظر في الوصول."

هذا هو المكان الذي يتم فيه منح حقوق الوصول إلى مستويات ومجموعات مختلفة ، وفقًا لنوريس. "لقد قمنا بدمج ACEs مع الطرق المختلفة التي يمكنك من خلالها الوصول إلى البيانات - من خلال الملفات ، والجداول ، والتدفقات ، وما إلى ذلك - وجهات النظر المنفذة مع عدم وجود نسخ منفصلة من البيانات. لذلك نحن نقدم طرق عرض على نفس البيانات الخام وطرق العرض يمكن أن يكون لديك مستويات مختلفة من الوصول. هذا يمنحك المزيد من الأمان المتكامل الذي هو أكثر مباشرة."

Hortonworks يعالج الوصول الحبيبي بطريقة مماثلة. من خلال دمج Apache Atlas للحوكمة و Apache Ranger ، قال جنو إن الشركة تتعامل مع التفويض على مستوى المؤسسة من خلال جزء واحد من الزجاج. وقال إن المفتاح هو القدرة على منح سياق الوصول إلى قاعدة البيانات وعلامات بيانات تعريف محددة باستخدام سياسات قائمة على العلامات.

وقال جنو: "بمجرد وجود شخص ما في قاعدة البيانات ، فهو يتعلق بتوجيههم عبر البيانات التي يجب أن يتمتعوا بوصول ذي صلة إليها". "يمكن للسياسات الأمنية للحارس على مستوى الكائن ، والحبيبات الدقيقة ، وفي كل مكان بينهما التعامل مع ذلك. ربط هذا الأمن بالحكم هو المكان الذي تصبح فيه الأمور مثيرة للاهتمام حقًا.

وأضاف جنو: "لتوسيع نطاق المنظمات الكبيرة ، تحتاج إلى دمج هذه الأدوار في نظام الإدارة ووضع علامات التعريف". "إذا كنت أقوم بتسجيل الدخول من سنغافورة ، فربما تكون هناك قواعد مختلفة تستند إلى قوانين الخصوصية المحلية أو استراتيجية الشركة. بمجرد تعريف الشركة لهذه القواعد وتعيينها وفهمها من منظور شامل من الأعلى إلى الأسفل ، يمكنك إيقاف الوصول استنادًا إلى قواعد محددة تحدد أثناء تنفيذ كل شيء داخل المنصة الأساسية."

المصدر: IBM Big Data & Analytics Hub. انقر على الصورة للعرض الكامل.

2. محيط الأمن ، وحماية البيانات ، والمصادقة المتكاملة

لا يحدث الحكم بدون أمان نقطة النهاية. قال جنو إنه من المهم بناء محيط وجدار ناري جيد حول البيانات التي تتكامل مع أنظمة ومعايير المصادقة الحالية. وافق Norris على أنه عندما يتعلق الأمر بالمصادقة ، من المهم للشركات أن تتزامن مع الأنظمة التي تم اختبارها واختبارها.

وقال نوريس "تحت المصادقة ، يدور حول كيفية تكاملك مع LDAP و Active Directory وخدمات دليل الجهات الخارجية". "نحن ندعم أيضًا اسم مستخدم وكلمات مرور Kerberos. الشيء المهم هو عدم إنشاء بنية تحتية منفصلة بالكامل ، ولكن كيف تتكامل مع الهيكل الحالي وأنظمة النفوذ مثل Kerberos."

3. تشفير البيانات و Tokenization

الخطوة التالية بعد تأمين محيطك ومصادقة كل الوصول إلى البيانات الحبيبية التي تمنحها: تأكد من تشفير الملفات والمعلومات الشخصية (PII) ورمزها من طرف إلى آخر عبر خط أنابيب البيانات. ناقش جنو كيفية قيام Hortonworks بتأمين بيانات PII.

وقال جنو: "بمجرد تجاوزك المحيط وإمكانية الوصول إلى النظام ، تصبح القدرة على حماية بيانات PII مهمة للغاية". "أنت بحاجة إلى تشفير هذه الرموز وتمييزها بالرمز ، لذا ، بغض النظر عمن لديه القدرة على الوصول إليها ، يمكنهم تشغيل التحليلات التي يحتاجون إليها دون الكشف عن أي من بيانات PII على طول الخط."

بالنسبة لكيفية الوصول الآمن إلى البيانات المشفرة في الحركة والراحة ، أوضح نوريس من MapR أنه من المهم مراعاة حالات الاستخدام مثل النسخ الاحتياطي والتعافي من الكوارث (DR) أيضًا. وناقش مفهومًا لمجلدات MapR تسمى وحدات التخزين المنطقية ، والتي يمكنها تطبيق سياسات الحوكمة على مجموعة متزايدة من الملفات والدلائل.

وقال نوريس: "في أدنى مستوى ، قام MapR بحفظ النسخ المتماثل لشبكة WAN من أجل DR ، ولقطات متسقة مع الوقت عبر جميع البيانات التي يمكن إعدادها بترددات مختلفة حسب الدليل أو الحجم". "إنه أوسع من مجرد حوكمة البيانات. يمكنك الحصول على مجموعة مادية تحتوي على أدلة ، ومن ثم يعد مفهوم الحجم المنطقي وحدة إدارة مثيرة للاهتمام حقًا وطريقة لتجميع الأشياء أثناء التحكم في حماية البيانات وتكرارها. إنه سهم آخر في بيانات مسؤول تكنولوجيا المعلومات. جعبة الحكم ".

4. التدقيق المستمر والتحليلات

بالنظر إلى صورة الحوكمة الأوسع نطاقًا ، قال كل من Hortonworks و MapR إن الاستراتيجية لا تعمل بدون تدقيق. هذا المستوى من القابلية للتوافق والمساءلة في كل خطوة من العملية هو ما يسمح لتكنولوجيا المعلومات ب "تحكم" البيانات فعليًا بدلاً من تحديد السياسات والتحكم في الوصول والأمل في الأفضل. إنها أيضًا الطريقة التي يمكن بها للمؤسسات أن تبقي استراتيجياتها محدثة في بيئة تتغير فيها كيفية رؤية البيانات والتقنيات التي نستخدمها لإدارة وتحليلها كل يوم.

وقال جنو: "إن الجزء الأخير من استراتيجية الحكم الحديثة هو قطع الأشجار والتتبع". "نحن في مهد بيانات Big Data و IoT ، ومن الأهمية بمكان أن تكون قادرًا على تتبع الوصول إلى أنماط البيانات والتعرف عليها ، حيث أننا بحاجة إلى تحديث ، فنحن في طليعة المنحنى".

وقال نوريس إن التدقيق والتحليل يمكن أن يكونا بسيطين مثل تتبع ملفات JavaScript Object Notation (JSON). لن تستحق كل قطعة من البيانات تتبعها وتحليلها ، لكن عملك لن يعرف أبدًا أي شيء - إلى أن تتعرف على فكرة تغيير اللعبة أو تحدث أزمة وتحتاج إلى تشغيل مسار تدقيق.

وقال نوريس: "يتم فتح كل ملف سجل JSON للتحليل ولدينا Apache Drill للاستعلام عن ملفات JSON من خلال المخططات ، لذا فهي ليست خطوة تكنولوجيا معلومات يدوية لإعداد تحليل البيانات الوصفية". "عندما تقوم بتضمين جميع أحداث الوصول إلى البيانات وكل إجراء إداري ، فهناك مجموعة واسعة من التحليلات الممكنة."

5. بنية البيانات الموحدة

في النهاية ، يجب أن يفكر مسؤول التكنولوجيا أو مسؤول تكنولوجيا المعلومات الذي يشرف على استراتيجية حوكمة بيانات المؤسسة في تفاصيل الوصول الحبيبي والمصادقة والأمان والتشفير والتدقيق. ولكن لا ينبغي أن يتوقف مسؤول التكنولوجيا أو مسؤول تكنولوجيا المعلومات عن ذلك ؛ بدلاً من ذلك ، يجب أن يفكر هذا الشخص أيضًا في كيفية تغذية كل عنصر من هذه المكونات في بنية البيانات الكبيرة الخاصة به. يجب عليه أيضًا التفكير في كيفية احتياج البنية الأساسية إلى مستوى قابل للتوسع والأمان - من جمع البيانات وتخزينها وصولاً إلى المعلومات الشخصية والتحليلات وخدمات الأطراف الثالثة. وقال جنو إن حوكمة البيانات تدور حول إعادة التفكير في الاستراتيجية والتنفيذ بقدر ما تتعلق بالتكنولوجيا نفسها.

وقال جناو " إنه يتجاوز جزء واحد من الزجاج أو مجموعة من القواعد الأمنية". "إنها بنية واحدة يمكنك من خلالها إنشاء هذه الأدوار وتتم مزامنتها عبر النظام الأساسي بالكامل وجميع الأدوات التي تجلبها إليه. إن جمال البنية التحتية الخاضعة للحكم الآمن هو المرونة التي يتم بها إنشاء طرق جديدة. في كل مستوى من مستويات النظام الأساسي ، أو حتى في بيئة سحابية مختلطة ، لديك نقطة مرجعية واحدة لفهم كيفية تنفيذ القواعد الخاصة بك. تمر جميع البيانات عبر هذه الطبقة من الأمن والحكم."

أساسيات البيانات الضخمة: كيفية بناء خطة حوكمة البيانات