بيت اعمال قواعد بيانات منظمة العفو الدولية: ما هي وماذا يجب أن يهتم عملك

قواعد بيانات منظمة العفو الدولية: ما هي وماذا يجب أن يهتم عملك

2024

جدول المحتويات:

ما هي قواعد بيانات الذكاء الاصطناعى؟
كيف تعمل قاعدة بيانات منظمة العفو الدولية
الضجيج أو الواقع؟

فيديو: Ø¨Ù†ØªÙ†Ø§ ÙŠØ§ Ø¨Ù†ØªÙ†Ø§ (شهر نوفمبر 2024)

البيانات والمعلومات التجارية (BI) وجهان لعملة واحدة. أدت التطورات في مجال التخزين والمعالجة والتحليل إلى إضفاء الطابع الديمقراطي على البيانات إلى درجة لا تحتاج فيها إلى أن تكون خبيرًا في قواعد البيانات أو عالمًا للبيانات للعمل مع مجموعات البيانات الضخمة واستخلاص رؤى. لا يزال هناك منحنى تعليمي ، لكن أدوات BI للخدمة الذاتية وتصور البيانات تعيد تحديد الطريقة التي تستغل بها الشركات جميع البيانات التي تجمعها في تحليلات عملية. ومع ذلك ، هناك فرق بين شركة BI أو شركة قواعد البيانات التي تتجول في التحليلات المتقدمة وقاعدة بيانات الذكاء الاصطناعي (AI) التي تم تصميمها خصيصًا لأغراض التدريب على التعلم الآلي (ML) ونماذج التعلم العميق.

يتم حيازة خوارزميات ML في نسيج الكثير من برامج اليوم. تتداخل تجارب العملاء مع الذكاء الاصطناعي من خلال مساعدين افتراضيين ، وفي برامج الأعمال ، هناك أمثلة مثل Salesforce Einstein التي تعمل كطبقة ذكية أسفل محفظة إدارة علاقات العملاء (CRM) الخاصة بالشركة بأكملها. يدفع عمالقة التكنولوجيا ، بما في ذلك Google و Microsoft ، مستقبلنا الذكي إلى أبعد من ذلك ، ليس فقط من خلال البحث ولكن من خلال إعادة كتابة الطريقة التي تعمل بها تقنيتهم من AI.

يتمثل أحد التحديات التي تواجه آلة التدريب ونماذج التعلم العميق في حجم البيانات الهائل وقوة المعالجة التي تحتاجها لتدريب شبكة عصبية ، على سبيل المثال ، على التعرف على الأنماط المعقدة في مجالات مثل تصنيف الصور أو معالجة اللغة الطبيعية (NLP). وبالتالي ، بدأت قواعد بيانات الذكاء الاصطناعى في الظهور في السوق كوسيلة لتحسين عملية التعلم والتدريب في مجال الذكاء الاصطناعى. تحدثنا مع Kinetica مزود قاعدة البيانات العلائقية المعجلة من GPU ، والتي قامت ببناء قاعدة بيانات AI خاصة بها ، وخبير قاعدة البيانات المقيم لدى PCMag ، Pam Baker ، لإزالة الغموض عن ماهية قاعدة بيانات AI وكيف تعمل بالمقارنة مع قواعد البيانات التقليدية. الأهم من ذلك ، لقد طلبنا مساعدتهم للفرز من خلال الضجيج والتحدث التسويقي لتحديد ما إذا كانت هذه التكنولوجيا الناشئة لها قيمة تجارية حقيقية أم لا.

ما هي قواعد بيانات الذكاء الاصطناعى؟

إن الطبيعة المتغيرة بسرعة لمساحة الذكاء الاصطناعي يمكن أن تجعل من الصعب تحديد المصطلحات. غالبًا ما تسمع مصطلحات مثل ML ، والتعلم العميق ، وذكاء الذكاء الاصطناعي بالتبادل عندما ، في الواقع ، لا تزال تقنيات التطوير تحت مظلة أكبر من الذكاء الاصطناعي. على هذا النحو ، قال بيكر إن هناك تعريفين مختلفين إلى حد كبير لما تعتمده قاعدة بيانات الذكاء الاصطناعي على من تتحدث إليه: أحدهما عملي والآخر أكثر في السماء.

"هناك نوع من الإجماع الفضفاض في الصناعة على أن قاعدة بيانات الذكاء الاصطناعى ستكون قاعدة ستعمل تمامًا على استفسارات اللغة الطبيعية. ستكون واجهة المستخدم بحيث لا تضطر إلى الاعتماد على مصطلحات البحث والعبارات الرئيسية للعثور على المعلومات التي تحتاجها ، مما يتيح للمستخدم استدعاء مجموعات البيانات مع البرمجة اللغوية العصبية ، "قال بيكر. "يمكنك تقديم حجة محدودة للغاية وهي أن IBM Watson يمكنه طرح استعلامات اللغة الطبيعية على النظام ، ولكن يجب أن تكون متصلاً بالبيانات بالفعل واختيار البيانات بنفسك. لذلك ، هذا التعريف الآن امتداد."

التعريف العملي ، وموضوع هذا الشرح ، يستخدم أساسًا قاعدة بيانات مدمجة لهذا الغرض لتسريع التدريب على نموذج ML. يقوم عدد من شركات التكنولوجيا بتطوير رقائق AI مخصصة بالفعل لتخفيف عبء المعالجة الثقيلة في منتجات الأجهزة الجديدة حيث يقوم البائعون بنشر المزيد من الميزات المستندة إلى AI والتي تتطلب طاقة حسابية كبيرة. من ناحية البيانات ، يمكن أن يساعدك استخدام قاعدة بيانات AI في تغيير حجم وسرعة وتحديات إدارة البيانات المعقدة المرتبطة بتدريب ML ونماذج التعلم العميق لتوفير الوقت وتحسين الموارد.

الصورة الائتمان: تود Jaquith في Futurism.com. انقر لتوسيع infographic الكامل

"الآن هناك الكثير من الجهود لتسريع تدريب ML من خلال العديد من الأساليب المختلفة" ، أوضح بيكر. "أحدهما هو فصل البنية التحتية عن الباحثين في الذكاء الاصطناعى الذين يقومون بالتشفير ، بحيث تقوم الوظائف الآلية بمعالجة البنية التحتية وتدريب نموذج ML. لذا ، فبدلاً من قضاء ما يقرب من ثلاثة أشهر ، قد تنظر إلى 30 يومًا أو 30 دقيقة."

تقسم Kinetica هذه الفكرة إلى منصة قاعدة بيانات متكاملة محسّنة لنمذجة التعلم المتعمق ونمذجة التعلم. تجمع قاعدة بيانات AI بين تخزين البيانات والتحليلات المتقدمة والتصورات في قاعدة بيانات في الذاكرة. أوضح ماتي رادالج ، نائب الرئيس ومهندس البرمجيات الرئيسي لمجموعة Advanced Technology Group في Kinetica ، أن قاعدة بيانات AI يجب أن تكون قادرة على استيعاب واستكشاف وتحليل وتصور بيانات سريعة الحركة ومعقدة داخل أجزاء من الثانية. الهدف من ذلك هو خفض التكاليف وتوليد إيرادات جديدة ودمج نماذج ML حتى تتمكن الشركات من اتخاذ قرارات أكثر فاعلية وقائمة على البيانات.

وقال رادالج "قاعدة بيانات الذكاء الاصطناعى هي مجموعة فرعية من قاعدة البيانات العامة". "في الوقت الحالي ، تحظى قواعد بيانات الذكاء الاصطناعي بشعبية كبيرة. لكن الكثير من الحلول تستخدم المكونات الموزعة. دائمًا ما تتدفق الشرارة و MapReduce و HDFS ذهابًا وإيابًا وليس في الذاكرة. ليس لديها مجموعة من العوامل مثل قاعدة البيانات الخاصة بنا ، والتي تم بناءه من الألف إلى الياء باستخدام وحدات معالجة مركزية ووحدات معالجة رسومات مدمجة بإحكام على منصة واحدة ، والفائدة الرفيعة المستوى بالنسبة إلينا هي توفير أسرع وخفض بصمة الأجهزة للتدريب القائم على النماذج ، مع تحول سريع وتحليلات مدمجة في نفس المنصة."

كيف تعمل قاعدة بيانات منظمة العفو الدولية

هناك عدد من الأمثلة على قواعد بيانات منظمة العفو الدولية في الممارسة العملية. يوفر Microsoft Batch AI بنية تحتية قائمة على السحابة لتدريب نماذج التعلم العميق و ML التي تعمل على وحدات معالجة الرسومات Microsoft Azure. تمتلك الشركة أيضًا منتج Azure Data Lake لتسهيل قيام رجال الأعمال وعلماء البيانات بمعالجة وتحليل البيانات عبر بنية موزعة.

مثال آخر هو نهج AutoML الخاص بـ Google ، والذي يعيد هندسة أساسيات طريقة تدريب نماذج ML. يقوم Google AutoML بأتمتة تصميم نموذج ML لإنشاء تصميمات جديدة للشبكات العصبية استنادًا إلى مجموعات بيانات معينة ، ثم اختبار تلك المرات وتكرارها لتشفير أنظمة أفضل. في الواقع ، يمكن لمنظمة العفو الدولية من Google الآن إنشاء نماذج أفضل من الباحثين البشر.

قال بيكر: "انظر إلى Google AutoML: ML الذي يكتب رمز ML حتى لا تحتاج إلى أشخاص". "يمنحك هذا فكرة عن الفرق الكبير بين ما يفعله البائعون. البعض يحاول تمرير تحليلات متقدمة مثل ML - وهو ليس كذلك. والبعض الآخر يفعل ML في هذا المستوى المتقدم وهذا يتجاوز ما هو أكثر يمكن للشركات فهمها في الوقت الحالي."

ثم هناك Kinetica. توفر شركة بدء التشغيل في سان فرانسيسكو ، والتي جمعت 63 مليون دولار في تمويل رأس المال الاستثماري (VC) ، قاعدة بيانات SQL عالية الأداء مُحسَّنة لاستيعاب البيانات وتحليلها بسرعة. Kinetica هو ما وصفه Radalj بأنه قاعدة بيانات موزعة معالجة متوازية بشكل واسع (MPP) ومنصة حوسبة تتميز فيها كل عقدة ببيانات موجودة في الذاكرة ووحدة المعالجة المركزية ووحدة معالجة الرسومات.

وأوضح رادالج أن ما يجعل قاعدة بيانات الذكاء الاصطناعي مختلفة عن قاعدة البيانات التقليدية ، يصل إلى ثلاثة عناصر أساسية:

استيعاب البيانات المتسارعة ،
المشاركة المحلية للبيانات الموجودة في الذاكرة (المعالجة المتوازية عبر عقد قاعدة البيانات) ، و
نظام أساسي مشترك لعلماء البيانات ومهندسي البرامج ومسؤولي قواعد البيانات للتكرار واختبار النماذج بشكل أسرع وتطبيق النتائج مباشرةً على التحليلات.

بالنسبة لجميع خبراء التدريب في مجال قواعد البيانات ونماذج الذكاء الاصطناعي الذين قرأوا هذا ، قام رادالج بتحطيم كل من هذه العناصر الأساسية الثلاثة وشرح كيف ترتبط قاعدة بيانات الذكاء الاصطناعى بالقيمة التجارية الملموسة. وقال إن توفر البيانات واستيعابها أمر أساسي ، لأن القدرة على معالجة بيانات الدفق في الوقت الفعلي تتيح للشركات اتخاذ إجراءات سريعة بشأن الأفكار المبنية على الذكاء الاصطناعي.

وقال رادالج "لدينا عميل تجزئة يريد تتبع أسعار البيع عن طريق المتجر كل خمس دقائق". "لقد أردنا استخدام الذكاء الاصطناعي للتنبؤ ، استنادًا إلى الساعات القليلة الماضية من البيانات التاريخية ، بما إذا كان ينبغي تجديد المخزون وتحسين هذه العملية. ولكن للقيام بتجديد المخزون الذي يحركه الجهاز ، يتطلب دعم 600-1200 استفسار في الثانية. نحن هي قاعدة بيانات SQL وقاعدة بيانات AI ، حتى نتمكن من استيعاب البيانات بهذا المعدل. نتج عن تلبية مهمة العمل تلك تطبيق أدى إلى زيادة عائد الاستثمار."

وافق بيكر على أن ML يتطلب كمية هائلة من البيانات ، لذا فإن استيعابها بسرعة سيكون مهمًا جدًا لقاعدة بيانات AI. العامل الثاني ، مفهوم "المشاركة في البيانات الموجودة في الذاكرة" ، يأخذ تفسيرًا أكثر قليلاً. تخزن قاعدة البيانات في الذاكرة البيانات في الذاكرة الرئيسية بدلاً من تخزينها على قرص منفصل. تقوم بذلك بمعالجة الاستعلامات بشكل أسرع ، خاصة في قواعد البيانات التحليلية واستقصاء المعلومات. من خلال المشاركة المحلية ، أوضح Radalj أن Kinetica لا تفصل بين العقد وحدة المعالجة المركزية وحساب GPU مقابل عقد التخزين.

ونتيجة لذلك ، تدعم قاعدة بيانات الذكاء الاصطناعي المعالجة المتوازية - التي تحاكي قدرة الدماغ البشري على معالجة محفزات متعددة - مع الاستمرار في توزيعها عبر بنية تحتية لقاعدة بيانات قابلة للتطوير. هذا يمنع مساحة الأجهزة الأكبر ، الناتجة عن ما أطلق عليه Radalj "شحن البيانات" أو الحاجة إلى إرسال البيانات ذهابًا وإيابًا بين مكونات قاعدة البيانات المختلفة.

وقال رادالج: "تستخدم بعض الحلول أوركسترا مثل IBM Symphony لجدولة العمل عبر مختلف المكونات في حين تؤكد Kinetica على وظيفة الشحن مقابل الموارد الموجودة في موقع واحد ، مع تحسين متقدم للحد من شحن البيانات". "هذا الموقع المشترك يفسح المجال لرفع مستوى الأداء والإنتاجية ، لا سيما بالنسبة للاستعلامات الثقيلة المتزامنة للغاية في مجموعات البيانات الكبيرة."

من حيث أجهزة قاعدة البيانات الفعلية ، تشارك Kinetica مع Nvidia ، التي لديها تشكيلة واسعة من وحدات معالجة الرسومات AI وتستكشف الفرص مع Intel. وقال رادالج أيضًا إن الشركة تراقب عناية الأجهزة الناشئة والبنية التحتية المستندة إلى مجموعة النظراء مثل وحدات معالجة Tensor من Google.

أخيرًا ، هناك فكرة عن عملية تدريب نموذجية موحدة. لا تكون قاعدة بيانات الذكاء الاصطناعى فعالة إلا إذا كانت فوائد الاستيعاب والمعالجة بشكل أسرع تخدم أهدافًا أكبر موجهة نحو العمل من أجل امتلاك شركة ML وجهود تعلم عميقة. يشير Radalj إلى قاعدة بيانات Kinetica AI باعتبارها "منصة خطوط أنابيب نموذجية" التي تقوم باستضافة النماذج المبنية على العلوم.

كل هذا يفسح المجال للاختبار والتكرار بشكل أسرع لتطوير نماذج ML أكثر دقة. في هذا الصدد ، قال بيكر إن التعاون بطريقة موحدة يمكن أن يساعد جميع المهندسين والباحثين الذين يعملون لتدريب ML أو نموذج التعلم العميق على التكرار بشكل أسرع من خلال الجمع بين ما ينجح ، بدلاً من إعادة اختراع كل الخطوات في عملية التدريب باستمرار. وقال رادالج إن الهدف من ذلك هو إنشاء سير عمل يقوم فيه ابتلاع الدُفعات وتدفقها واستعلامها بشكل أسرع بإنشاء نتائج نموذجية يمكن تطبيقها على الفور على BI.

وقال رادالج: "لدى علماء البيانات ، ومهندسي البرمجيات ، ومسؤولي قواعد البيانات منصة واحدة يمكن من خلالها تحديد العمل بشكل نظيف في علوم البيانات نفسها ، وكتابة البرامج ، ونماذج واستعلامات بيانات SQL". "يعمل الناس بشكل أكثر نظافة معًا في هذه المجالات المختلفة عندما تكون منصة مشتركة. والهدف في أكثر الأحيان من خلال تشغيل ML والتعلم العميق هو أنك تريد استخدام نتائج ذلك - المتعاونون والمتغيرات - بالاقتران مع التحليلات واستخدم المخرجات لأشياء مثل التهديف أو التنبؤ بشيء مفيد."

الضجيج أو الواقع؟

إن القيمة الأساسية لقاعدة بيانات AI ، على الأقل بالطريقة التي يعرفها بها Kinetica ، تتمثل في تحسين موارد الحوسبة وقاعدة البيانات. يتيح لك هذا بدوره إنشاء نماذج ML وتعلم أفضل وتدريبها بشكل أسرع وأكثر كفاءة ، والحفاظ على خط مباشر حول كيفية تطبيق الذكاء الاصطناعي على عملك.

أعطى Radalj مثال لإدارة الأسطول أو شركة النقل بالشاحنات. في هذه الحالة ، يمكن لقاعدة بيانات AI معالجة تدفقات هائلة من المعلومات في الوقت الفعلي من أسطول من المركبات. ثم ، من خلال نمذجة تلك البيانات الجغرافية المكانية ودمجها مع التحليلات ، يمكن لقاعدة البيانات إعادة توجيه الشاحنات ديناميكيًا وتحسين المسارات.

"من الأسهل توفير ، النموذج الأولي ، والاختبار بسرعة. يتم طرح كلمة" النمذجة "في الذكاء الاصطناعى ، ولكن الأمر كله يتعلق بالدراجات من خلال طرق مختلفة - كلما زادت البيانات ، كان ذلك أفضل - تشغيلها مرارًا وتكرارًا ، واختبارها ، ومقارنتها ، و قال رادالج: "تم منح الشبكات العصبية الحياة لأن هناك بيانات أكثر من أي وقت مضى. ونحن نتعلم أن نكون قادرين على حسابها من خلالها."

في نهاية المطاف ، تعد قاعدة بيانات Kinetica ذات الموقع المشترك ومنصة خطوط الأنابيب النموذجية مجرد طريقة واحدة في الفضاء يمكن أن تعني الكثير من الأشياء المختلفة اعتمادًا على من تسأل. وقال بيكر إن التحدي الذي يواجه المشتري في السوق والذي لا يزال يتطور ويتسم بالتجربة هو معرفة ما يقوم به بائع قاعدة بيانات AI بشكل دقيق.

وقال بيكر: "كمفهوم للأعمال ، والتعلم العميق ، و ML ، وكل ذلك مفهوم قوي. ما نعمل عليه هو قضايا تقنية قابلة للحل ، حتى لو لم نحلها بعد". "هذا لا يعني أن هذه مساحة ناضجة لأنها بالتأكيد ليست كذلك. أود أن أقول" حذار من المشتري "لأن شيئًا ما قد يكون أو لا يكون ML قد يكون. قد يكون مجرد تحليلات متقدمة متنوعة في الحديقة."

بالنسبة إلى ما إذا كانت قواعد بيانات الذكاء الاصطناعى جميعها مضبوطة في الوقت الحالي أو ما إذا كانت تمثل اتجاهًا مهمًا للمكان الذي تسير فيه الأعمال ، قال بيكر إنها جزء من كليهما. وقالت إن البيانات الكبيرة ، كمصطلح تسويقي ، أصبحت غير مفضلة الآن. قال بيكر إنه يوجد الآن بعض الخلط بين السوق بين التحليلات المتقدمة والمبنية على البيانات وخوارزميات ML والتعلم العميق. بغض النظر ، سواء كنت تتحدث عن قاعدة بيانات لنمذجة ML أو عن AIs التي تحلم بها ثقافة البوب ، فكل شيء يبدأ وينتهي بالبيانات.

وقال بيكر: "سيتم استخدام البيانات في الأعمال التجارية إلى أن ينتهي الوقت ؛ إنه أمر أساسي لممارسة الأعمال". "عندما تتحدث عن الخيال العلمي ، الذكاء الاصطناعى هو ذكاء مدرك ذاتياً. هذا عندما تبدأ بالحديث عن التفرد والروبوتات التي تهيمن على العالم. سواء حدث ذلك أم لا ، لا أعرف. سأترك هذا لستيفن هوكينج."