فيديو: سكس نار Video (شهر نوفمبر 2024)
في الأسابيع القليلة الماضية ، كان هناك عدد من التقديمات المهمة لمنصات الحوسبة الجديدة المصممة خصيصًا للعمل على الشبكات العصبية العميقة لتعلم الآلات ، بما في ذلك "TPU TPU" الجديدة من Google وتصميم Volta الجديد من Nvidia.
بالنسبة لي ، هذا هو الاتجاه الأكثر إثارة للاهتمام في هندسة الكمبيوتر - أكثر من AMD والآن تقدم Intel Intel وحدات المعالجة المركزية ذات 16 و 18 وحدة المعالجة المركزية. بالطبع ، هناك طرق بديلة أخرى ، لكن نفيديا وجوجل يستحقان الكثير من الاهتمام لمناهجهما الفريدة.
في Google I / O ، رأيت أنه يقدم ما "سحابة TPU" (لوحدة معالجة Tensor ، مما يشير إلى أنه تم تحسينه لإطار تعلم الآلة من Google TensorFlow). الجيل السابق من TPU ، الذي تم عرضه في معرض العام الماضي ، عبارة عن ASIC مصمم أساسًا للاستدلال - تشغيل عمليات تعلم الآلة - ولكن الإصدار الجديد مصمم للاستدلال على مثل هذه الخوارزميات وتدريبها.
في ورقة حديثة ، أعطت Google مزيدًا من التفاصيل حول TPU الأصلي ، الذي وصفته بأنه يحتوي على مصفوفة تضم 256 وحدة 256 متعددة التراكمات (MAC) (إجمالي 65،536) مع أعلى أداء يبلغ 92 teraops (تريليون عملية لكل ثانيا). تحصل على تعليماتها من وحدة المعالجة المركزية المضيفة عبر ناقل PCIe Gen 3. قالت Google إن هذا تموت بمعدل 28 نانومتر وكان أقل من نصف حجم معالج Intel Haswell Xeon 22nm ، وأنه يتفوق على ذلك المعالج ومعالج Nnidia 28nm K80.
تحتوي النسخة الجديدة ، التي يطلق عليها اسم TPU 2.0 أو cloud cloud ، (كما هو موضح أعلاه) ، على أربعة معالجات على السبورة ، وقالت Google إن كل لوحة قادرة على الوصول إلى 180 تيرافلوبس (180 تريليون نقطة عائمة في الثانية). بنفس القدر من الأهمية ، تم تصميم اللوحات للعمل معًا باستخدام شبكة مخصصة عالية السرعة ، بحيث تعمل كجهاز واحد يتعلم الحوسبة الفائقة التي تطلقها Google على "جراب TPU".
يحتوي جراب TPU هذا على 64 جهازًا من الجيل الثاني من أجهزة TPU ويوفر ما يصل إلى 11.5 بيتافلوب لتسريع عملية تدريب نموذج تعلم الآلة الكبيرة. في المؤتمر ، قال Fei Fei Li ، الذي يرأس أبحاث الذكاء الاصطناعي من Google ، إنه على الرغم من أن أحد نماذج التعلم الواسعة النطاق للشركة للترجمة يستغرق يومًا كاملاً للتدريب على 32 من أفضل وحدات معالجة الرسومات المتاحة تجاريا ، فإنه يمكن تدريب الآن على نفس الدقة في فترة ما بعد الظهر باستخدام واحد من ثور TPU. هذه قفزة كبيرة.
افهم أن هذه ليست أنظمة صغيرة - يبدو أن قرنة بحجم أربعة رفوف حسابية عادية.
ويبدو أن لكل من المعالجات الفردية أحواض حرارة كبيرة جدًا ، مما يعني أنه لا يمكن تكديس الألواح بإحكام شديد. لم تقدم Google بعد الكثير من التفاصيل حول ما الذي تغير في هذا الإصدار من المعالجات أو الاتصال البيني ، ولكن من المحتمل أن يكون هذا أيضًا قائمًا على أجهزة MAC 8 بت.
قبل أسبوع ، قدمت Nvidia أحدث إدخال لها في هذه الفئة ، وهي شريحة ضخمة تعرف باسم Telsa V100 Volta ، والتي وصفتها بأنها أول وحدة المعالجة المركزية مع بنية Volta الجديدة هذه ، المصممة لوحدات معالجة الرسومات المتطورة.
قال نفيديا إن الرقاقة الجديدة قادرة على 120 Taforoplow teraflops (أو 15 TFLOPS 32 32 بت أو 7.5 64 بت). وهو عبارة عن صفيف 4x4 × 4 قادر على أداء 64 FMA (Fused Multiply-Add) في الساعة. وقالت نفيديا إنها ستقدم رقاقة في محطات العمل DGX-1V مع 8 لوحات V100 في الربع الثالث ، بعد DGX-1 السابقة للشركة التي استخدمت بنية P100 السابقة.
وقالت الشركة إن هذا الصندوق الذي تبلغ تكلفته 149 ألف دولار يجب أن يقدم 960 ترافلوبس من أداء التدريب ، باستخدام 3200 واط. في وقت لاحق ، قال الأول ، إنها ستشحن محطة DGX الشخصية بأربعة طرز V100 ، وفي الربع الرابع ، قالت إن بائعي الخوادم الكبار سيشحنون خوادم V100.
هذه الرقاقة هي أول من أعلن عن استخدام معالج TSMC بقدرة 12nm ، وستكون شريحة ضخمة بها 21.1 مليار ترانزستور على 815 ملليمتر مربع. ذكرت نفيديا كل من مايكروسوفت وأمازون كزبونين مبكرين للرقاقة.
لاحظ أن هناك اختلافات كبيرة بين هذه الأساليب. إن Google TPUs عبارة عن شرائح مخصصة بالفعل ، تم تصميمها لتطبيقات TensorFlow ، في حين أن Nvidia V100 عبارة عن شريحة أكثر عمومية إلى حد ما ، وقادرة على أنواع مختلفة من الرياضيات لتطبيقات أخرى.
وفي الوقت نفسه ، يبحث مزوّدو الخدمات السحابية الكبرى الآخرون عن بدائل ، حيث تستخدم Microsoft كلاً من وحدات معالجة الرسومات (GPUs) للتدريب ومصفوفات البوابات القابلة للبرمجة ميدانيًا (FPGAs) للاستدلال وتقديمها للعملاء. تتيح خدمات الويب من Amazon الآن كلاً من مثيلات GPU و FPGA للمطورين. وقد إنتل دفع FPGAs ومجموعة من التقنيات الأخرى. وفي الوقت نفسه ، يعمل عدد من الشركات الناشئة الجديدة على أساليب بديلة.
في بعض النواحي ، هذا هو التغيير الأكثر جذرية الذي رأيناه في معالجات محطات العمل والخوادم منذ سنوات ، على الأقل منذ أن بدأ المطورون استخدام "GPU compute" منذ عدة سنوات. سيكون من الرائع رؤية كيف يتطور هذا.