بيت اعمال 7 نصائح لنجاح تعلم الآلة

7 نصائح لنجاح تعلم الآلة

جدول المحتويات:

فيديو: من زينو نهار اليوم ØµØ Ø¹ÙŠØ¯ÙƒÙ… انشر الفيديو Øتى يراه كل Ø§Ù„Ø (سبتمبر 2024)

فيديو: من زينو نهار اليوم ØµØ Ø¹ÙŠØ¯ÙƒÙ… انشر الفيديو Øتى يراه كل Ø§Ù„Ø (سبتمبر 2024)
Anonim

قام الجزء الأول من دليل الأعمال الخاص بالتعلم الآلي (ML) بتوضيح كيف أن مفهوم مظلة ML أكثر دقة في بيئة الأعمال. تنظر الاستراتيجيات الأكثر فاعلية إلى ML بالمعنى العملي ، حيث تستخدم كل من تقنيات التعليم العميق المعقدة وأسلوب "التعلم الرخيص" الأقل كثافة لتحسين عمليات المؤسسة واكتساب رؤى ذكية في مجال ذكاء الأعمال.

الهدف من نشر ML داخل تطبيقات عملك هو تحسين النتيجة النهائية أو الضغط على الميزة التنافسية لشركتك. ولكن في المخطط الأكبر لمؤسستك ، فإن الاستفادة القصوى من الوقت والموارد التي تستثمرها في هذه العملية تتجاوز الخوارزميات. يجب على صانعي القرار في مجال تكنولوجيا المعلومات في عملك التأكد من أن كل شيء يؤخذ بعين الاعتبار في انحراف ML الخاص بك - من البيانات واللوجستيات إلى كيفية تفاعلك مع المستخدمين - يعمل بشكل متماسك معًا لزيادة الفعالية.

Ted Dunning ، دكتوراه ، هو كبير مهندسي التطبيقات في MapR ، وهي شركة برمجيات مؤسسية تقدم أدوات توزيع البيانات الكبيرة وأدوات إدارة البيانات. شارك دانينغ أيضًا في تأليف كتابين حول ما يشير إليه باسم "التدريب العملي على الآلة" وطور تقنيات ML لعدد من الشركات على مدار السنوات ، بما في ذلك نظام الكشف عن الاحتيال ID Analytics (اشترته LifeLock) وبرنامج Musicmatch Jukebox ، التي أصبحت فيما بعد Yahoo Music. يشغل حاليًا منصب نائب رئيس الاحتضان لمؤسسة Apache Software Foundation.

شاهدت Dunning أن مساحة ML تتطور على مدار عقود ، وتعلمت الكثير عما ينجح وما لا يحدث في بيئة عمل عملية. أدناه ، يحدد Dunning سبعة أفضل الممارسات التي يجب اتباعها عند تطوير حلول الأعمال التي تستند إلى ML.

1. لا تنسى اللوجستية

نجاح ML ليس فقط عن اختيار الأداة المناسبة أو الخوارزمية. قال Dunning إنك بحاجة أيضًا إلى معرفة الطريقة المناسبة للتوافق وتصميمها وفقًا للحالة الخاصة التي تتعامل معها. على سبيل المثال ، تحدث Dunning عن ML في حملة تسويق عبر الإنترنت بدلاً من السيناريوهات الأكثر تعقيدًا مثل الخوارزميات التي توجه سيارة مستقلة. إن إنفاق مواردك من أجل تحسين الخوارزمية الإضافية يستحق العناء للسيارة ، ولكن في سيناريو التسويق ، سترى عائدًا أفضل بكثير من تحسين جميع الخدمات اللوجستية من حوله.

"في كثير من الأحيان ، بالنسبة للشركات ، فإن الخدمات اللوجستية ، وليس التعليم ، هي التي تمنحك القيمة. هذا هو الجزء الذي يجب أن تقضيه وقتك ومواردك" ، قال دونينج. "يمنحك ضبط الخوارزمية تحسينًا بسيطًا. لكن ضبط هذه البيانات ، واجهة المستخدم الرسومية ، وكيف تستمع إلى مستخدمينك وتتعامل معهم يمكن أن يمنحك بسهولة تحسين بنسبة 100 في المائة. الكثير للشركات كما هو الاستماع لمستخدميك."

لتوضيح هذه النقطة ، أوضح دونينغ كيف بنى ذات مرة نموذجًا لتحديد الاحتيال في التطبيق (فتح حسابات مزيفة بهويات مسروقة) في قاعدة بيانات عملاء الشركة. حصل النموذج الذي قام ببنائه على نتائج رائعة ، ولكن دونينج لاحظ أنه يزن جنس مقدم الطلب بشدة.

اتضح أن الخدمات اللوجستية كانت خارج. الطريقة التي عملت بها عملية التقديم ، لم يقم مقدم الطلب بملء جنسه إلا بعد أن أصبح عميلًا بالفعل واجتاز عددًا من خطوات الفحص لتصفية المحتالين. لذلك باستخدام حقل الجنس ، كان نموذج ML يخون لوجستيات عملية الاحتيال بأكملها. لا علاقة لذلك بالخوارزمية ، وكل ما يتعلق بكيفية الحصول على بيانات الشركة في المقام الأول.

2. مانع البيانات الخاصة بك

Dunning مليء بالحكايات الجذابة للحكمة. بعد البدء بـ "إنها اللوجستيات ، وليس التعلم" ، قال أن النصف الآخر من هذه الفكرة هو "إنها البيانات ، وليس الخوارزميات". جزء كبير من ضمان خوارزميات ML الخاصة بك تقديم رؤى قيمة هو التأكد من أنك تغذية لهم البيانات الصحيحة. قال Dunning ، إذا كنت لا تحصل على النتيجة التي تبحث عنها ، فغالبًا ما يكون السبب هو أنك لا تستخدم البيانات الصحيحة.

وقالت دونينج: "ينجذب الناس جميعًا إلى خوارزميات معينة ، ويرتبطون بها الآن ، ولكن في الوقت الحاضر ، وبسبب الأدوات الموجودة هناك ، يمكن للجميع وأمهم الخروج بكل أنواع الخوارزميات الجديدة". "إن البيانات أكثر أهمية بكثير ، وسوف تمنحك المزيد من الرفع من خوارزمياتك إلى ما لا نهاية. إذا كنت تعمل على مشكلة صعبة مثل التعرف على الكلام أو رؤية الكمبيوتر ، فهذا شيء واحد ، لكن هذا حقل يحركه البيانات. في معظم السيناريوهات ، ستستفيد أكثر من ضبط البيانات التي تحصل عليها وتغيير السؤال."

هذا ما فعله Dunning في منتصف العقد الأول من القرن العشرين عند بناء محرك توصيات الفيديو في شركة تدعى Veoh Networks. كان الفريق يعمل على تحديد أزواج من مقاطع الفيديو التي أنشأها المستخدمون والتي نقر عليها الأشخاص أكثر من المتوقع ، لكن الخوارزمية لم تكن تعمل. كانوا يفكرون في الموسيقى ، حيث يعرف المستخدمون الفنانين والأغاني المفضلة لديهم بالاسم. لذلك قاموا بتغيير السؤال عن طريق تعديل واجهة المستخدم دون لمس الخوارزمية نفسها.

وقال دونينج: "في مقاطع الفيديو التي أنشأها المستخدمون ، لا أحد يعلم أن الفنانين والكثير من مقاطع الفيديو لديهم عناوين غير مرغوب فيها حقًا للحصول على المزيد من المشاهدات. لم يكن من شأن ركوب الدراجات على خوارزمية أن يعطينا نتائج جيدة". "ما فعلناه هو تغيير واجهة المستخدم لإصدار إشارة منارة كل 10 ثوانٍ. وجدنا أننا إذا استخدمنا المنارة بدلاً من النقرات للحصول على البيانات الأولية للموصي ، فقد حصلنا على نتائج رائعة. لقد كان الرفع لهذا التغيير واحدًا عدة مرات. مئة في المئة من التحسن في المشاركة بسبب التوصيات ، مع عدم وجود تغييرات خوارزمية."

3. الخوارزميات ليست الرصاص السحري

تطبيقات ML تزدهر باستمرار على التجربة والخطأ. بغض النظر عن مدى جودة الخوارزميات الخاصة بك ، إذا كان النظام الخاص بك يتفاعل مع البشر ، فسوف تحتاج إلى تعديل مع مرور الوقت. وشدد دونينج على أن الشركات يجب أن تقيس باستمرار الفعالية الكلية لتنفيذها ، وتحديد التغييرات والمتغيرات التي تجعلها أفضل وتزيدها سوءًا. قد يبدو هذا كأنه موقف صعب ، لكن دونينغ قال إنه على الرغم من مدى وضوح ذلك ، فإن قلة قليلة من الناس يقومون بهذا أو يقومون بعمل جيد.

وقال دونينج: "الكثير من الناس يرغبون في نشر نظام أو اتخاذ بعض الإجراءات ، ويريدون أن تعمل خوارزميةهم إلى الأبد". "لن تكون أي خوارزمية رمزًا سحريًا. لن يتم تصميم أي تصميم لواجهة المستخدم إلى الأبد. لن يتم إبطال أي طريقة لجمع البيانات. كل هذا يمكن وسيحدث ، وستحتاج الشركات إلى القياس الدقيق والتقييم وإعادة تقييم كيف يعمل النظام."

4. استخدام مجموعة متنوعة من الأدوات

هناك العشرات من أدوات ML المتاحة ، والعديد منها يمكنك استخدامها مجانًا. لقد حصلت على مكتبات أطر عمل مفتوحة المصدر مثل Caffe و H20 و Shogun و TensorFlow و Torch و ML في عدد من مشاريع Apache Software Foundation (ASF) بما في ذلك Mahout و Singa و Spark. ثم هناك خيارات قائمة على الاشتراك بما في ذلك Amazon Machine Learning و BigML و Microsoft Azure Machine Learning Studio. لدى Microsoft أيضًا مجموعة أدوات إدراكية مجانية.

هناك عدد لا يحصى من الموارد المتاحة. تحدث Dunning إلى العديد من الشركات وعلماء البيانات وممارسي ML ويسألهم دائمًا عن عدد الأطر والأدوات المختلفة التي يستخدمونها. في المتوسط ​​، قال معظمهم إنهم يستخدمون ما لا يقل عن 5-7 أدوات وغالبًا ما يستخدمون أكثر.

وقال دونينج: "لا يمكنك الالتصاق بأداة واحدة. سيتعين عليك استخدام العديد منها ، وبالتالي ، من الأفضل أن تبني نظامك بطريقة غير مناسبة". "كل من يحاول إقناعك أن هذه الأداة هو الأداة الوحيدة التي ستحتاج إليها على الإطلاق ، فهو يبيع لك فاتورة من البضائع.

"قد يحدث شيء الأسبوع المقبل يزعج عربة التفاح ، وبمعدل الابتكار الذي نراه ، سيستمر حدوثه لمدة تتراوح بين خمس وعشر سنوات أخرى على الأقل" ، تابع دونينج. "انظر إلى مثال تعليمي رخيص حيث يمكنك إعادة استخدام مصنف صور موجود لتحليل الصور في الكتالوج. هذا تعلم عميق برؤية الكمبيوتر التي تم طرحها. لكن هناك أدوات هناك تم تجميعها بالكامل. تحتاج إلى لقياس وتقييم وتذبذب بين الأدوات المختلفة ، والبنية التحتية الخاصة بك يجب أن تكون موضع ترحيب ".

5. تجربة مع التعلم الهجين

قال دانينج إنه يمكنك أيضًا مزج التعليم الرخيص والعميق معًا في شيء هجين. على سبيل المثال ، إذا اتخذت نموذجًا حاليًا لرؤية الكمبيوتر وأعدت بناء الطبقات القليلة الأولى التي يتم فيها اتخاذ قرار ، فيمكنك اختيار إطار عمل حالي لحالة استخدام جديدة تمامًا. أشار Dunning إلى مسابقة Kaggle التي شارك فيها المتسابقون في ذلك ؛ أخذوا مجموعة بيانات وكتبوا خوارزمية جديدة في الأعلى لمساعدة الكمبيوتر على تمييز القطط عن الكلاب.

"يعتبر تمييز القطط والكلاب أمرًا خفيًا للغاية بالنسبة لخوارزمية ML. فكر في المنطق: القطط لها آذان مدببة ولكن كذلك الرعاة الألمان. الكلاب ليس لديها بقع ، باستثناء الدلماسيين ، إلخ. في حد ذاته ، "قال Dunning. "لقد طور الرجل الذي فاز نظامًا فعل ذلك بدقة 99 بالمائة. لكنني أعجبت بدرجة أكبر بالشخص الذي احتل المركز الثالث. وبدلاً من البناء من نقطة الصفر ، أخذ برنامجًا للتعرف على الصور من مهمة مختلفة ، وخلع الطبقة العليا ، ووضع مصنف بسيط هناك ، أعطاها بعض الأمثلة ، وقريباً ، كان دقيقًا بنسبة 98 بالمائة في تمييز القطط عن الكلاب. العملية برمتها استغرقت الرجل ثلاث ساعات."

6. رخيصة لا يعني سيئة

على الرغم من الدلالة العلنية ، قال دانينج إن التعليم الرخيص لا يعني التعلم السيئ. مقدار الوقت الذي تقضيه في تنفيذ ML لا يرتبط مباشرة بقيمة الأعمال الخاصة به. وقال إن الجودة الأكثر أهمية هي التأكد من أن العملية قابلة للتكرار وموثوقية. إذا كانت الشركة قادرة على تحقيق ذلك دون استثمار كمية غير ضرورية من الموارد ، فهذا أفضل.

وقال دونينج: "رخيصة لا تعني شيئًا سيئًا. إذا نجحت ، فإنها تنجح. إذا كانت رخيصة وعملت ، فهذا أمر عظيم. لكن الجهد الذي تبذله للبناء لا يحدد القيمة. هذا خطأ زائف.". "ما يحدد القيمة هو كيف يحسن العمل. إذا كان يحسن الأرباح أو يخفض التكاليف أو يحسن وضعك التنافسي. إنه التأثير وليس الجهد".

7. لا تسميها منظمة العفو الدولية

أكد دانينج أنه عند الحديث عن هذه التقنيات ، يجب على الشركات استخدام المصطلحات الدقيقة: ML ، أو رؤية الكمبيوتر ، أو التعلم العميق. كل هذا يميل إلى الوقوع تحت مصطلح "الذكاء الاصطناعي" ، لكن بالنسبة إلى Dunning ، فإن تعريف الذكاء الاصطناعي هو ببساطة "أشياء لا تعمل بعد".

وقال دونينج: "إن أفضل تعريف سمعته عن منظمة العفو الدولية هو أنها الأشياء التي لا نستطيع شرحها بعد. الأشياء التي لم نكتشفها بعد". "في كل مرة نحصل على شيء ما ، يقول الناس" أوه ، هذا ليس الذكاء الاصطناعي ، إنه مجرد برنامج. إنه مجرد محرك للقواعد. إنه في الحقيقة مجرد تراجع في اللوجستيات. " قبل أن نكتشف شيئًا ما ، نسميه AI ، وبعد ذلك ، نطلق عليه دائمًا شيئًا آخر ، من نواح كثيرة ، يتم استخدام AI بشكل أفضل ككلمة للحدود التالية ، وفي AI ، ستكون هناك دائمًا الحدود التالية. إلى أين نحن ذاهبون ، وليس إلى حيث وصلنا بالفعل ".

7 نصائح لنجاح تعلم الآلة