به گزارش سرمدنیوز، شبکهی کپسولی قصد دارد ضعف امروزی سیستمهای یادگیری ماشینی را که منجر به محدودیت در کارایی آنها میشود، رفع کند. نرمافزار تشخیص تصویری که امروزه توسط گوگل و دیگر شرکتها به کار گرفته میشود، نیازمند تعداد بسیار زیادی تصویر نمونه است تا به نحو قابل اطمینانی نحوهی تشخیص اشیاء را در هر وضعیتی یاد بگیرد. این موضوع بدین خاطر است که نرمافزار در تعمیم معلومات خود به سناریوهای جدید عملکرد تقریبا ضعیفی دارد. برای مثال، اگر یک شیء را از زوایای جدید به نرمافزار نشان دهیم، نمیتواند دریابد که این همان شیء پیشین است.
برای آنکه به کامپیوتر یاد بدهیم یک گربه را از زوایای گوناگون تشخیص دهد؛ نیازمند هزاران تصویر از گربه در حالتهای مختلف خواهیم بود. درحالیکه یک کودک برای آنکه نام حیوان خانگی را یاد بگیرد، نیازمند چنین آموزش مشخص و گستردهای نخواهد بود.
ایدهی هینتون برای از میان برداشتن شکاف بین بهترین سیستمهای هوش مصنوعی و انسانهای خردسال، قرار دادن قدری دانش بیشتر از جهان در نرمافزار بینایی کامپیوتری است. کپسولها که دستههای کوچکی از نورونهای مجازی هستند، بهمنظور ردیابی اجزای مختلف یک شیء نظیر بینی و گوشهای یک گربه و موقعیتهای نسبی آنها در فضا طراحی شدهاند. یک شبکهی متشکل از کپسولهای فراوان میتواند با بهکارگیری این آگاهی، دریابد هنگامی که صحنهای جدید از یک شیء میبیند؛ نه یک شیء جدید، بلکه در واقع تنها منظرهای جدید از همان شیء مشاهده میکند.
هینتون در سال ۱۹۷۹ - هنگامی که در تلاش برای آگاهی از این موضوع بود که چگونه انسانها از تصاویر ذهنی استفاده میکنند - به این نتیجه رسید که سیستمهای بصری نیازمند چنین ادراک حسی هندسی هستند. وی در ابتدا در سال ۲۰۱۱ از یک طراحی اولیه برای شبکههای کپسولی رونمایی کرد. پژوهشگران این حوزه، برای مدتها در انتظار تصویر کاملتری بودند که دو هفتهی پیش از آن رونمایی شد. کیانهان چو، استاد دانشگاه نیویورک که از پژوهشگران تشخیص تصویر محسوب میشود، میگوید: «همه منتظر این [نوآوری] و به دنبال دورخیز بزرگ بعدی جف بودند.»