واحد پردازش عصبی (NPU)؛ معماری و کاربرد در هوش مصنوعی

واحد پردازش عصبی یا NPU نوعی ریزپردازنده تخصصی است که با الهام از ساختار بیولوژیکی مغز انسان طراحی شده تا عملیات مرتبط با شبکه‌های عصبی و یادگیری ماشین را با سرعت و بازدهی بالا انجام دهد. برخلاف پردازنده‌های معمولی، این واحدها برای محاسبات پیچیده ریاضی مانند ضرب ماتریس‌ها و عملیات تنسوری بهینه شده‌اند که هسته اصلی الگوریتم‌های هوش مصنوعی را تشکیل می‌دهند. در این مطلب از بخش آموزش هوش مصنوعی به بررسی NPU میپردازیم.

استفاده از NPU در معماری‌های نوین کامپیوتری، امکان اجرای محلی و بلادرنگ مدل‌های هوش مصنوعی را بدون نیاز به مصرف انرژی زیاد فراهم می‌کند. این تراشه‌ها که اغلب در کنار CPU و GPU قرار می‌گیرند، وظایف سنگین پردازش تصویر، تشخیص گفتار و یادگیری عمیق را بر عهده دارند تا تجربه کاربری روان‌تر و هوشمندتری در دستگاه‌های دیجیتال ایجاد شود.

مفهوم و ضرورت پیدایش NPU

واحد پردازش عصبی یا NPU نوعی ریزپردازنده تخصصی است که برای شبیه‌سازی فعالیت‌های مغز انسان طراحی شده است. این تراشه برخلاف پردازنده‌های مرکزی، برای انجام محاسبات ریاضی پیچیده در شبکه‌های عصبی و الگوریتم‌های یادگیری ماشین بهینه شده است. هدف اصلی از ساخت این سخت‌افزار، افزایش سرعت پردازش‌های هوش مصنوعی با مصرف انرژی بسیار کم است.

در پردازش‌های سنگین، پردازنده‌های گرافیکی و مرکزی فشار زیادی را تحمل می‌کنند که منجر به داغ شدن دستگاه و افت عملکرد می‌شود. NPU با تفکیک وظایف، بار محاسباتی مربوط به لایه‌های عصبی را از روی دوش سایر قطعات برمی‌دارد. این جداسازی باعث می‌شود محاسبات تنسوری و برداری با کارایی بیشتری انجام شوند.

تقلید از شبکه‌های عصبی مغز

معماری NPU بر پایه ساختار نورون‌ها و سیناپس‌های مغز شکل گرفته است تا رفتارهای انسانی را در سطح مدار شبیه‌سازی کند. این تراشه‌ها به جای اجرای دستورات به صورت خطی و متوالی، داده‌ها را در لایه‌های موازی پردازش می‌کنند. در این ساختار، هر گره شبکه دارای وزنی است که میزان اهمیت داده را مشخص می‌کند.

در حالی که پردازنده‌های معمولی برای پردازش یک مجموعه از نورون‌های مجازی به هزاران دستور نیاز دارند، NPU این کار را با یک دستور واحد انجام می‌دهد. این ویژگی باعث کاهش چشمگیر تاخیر در پاسخگویی سیستم می‌شود. به همین دلیل، دستگاه‌های مجهز به این تراشه می‌توانند الگوها را با سرعت بیشتری شناسایی کرده و یاد بگیرند.

تخصصی‌سازی سخت‌افزار برای هوش مصنوعی

سخت‌افزارهای عمومی مثل CPU برای دقت بالا طراحی شده‌اند، اما هوش مصنوعی بیشتر به سرعت و تکرار نیاز دارد. NPU با تمرکز بر محاسبات کم‌دقت مانند اعداد ۸ بیتی، پیچیدگی‌های ریاضی را کاهش داده و بازدهی را بالا می‌برد. این رویکرد باعث می‌شود عملیات ضرب و جمع ماتریسی که پایه هوش مصنوعی است، با سرعت خیره‌کننده‌ای انجام شود. اگر در مورد مفاهیم و چیستی هوش مصنوعی به دنبال اطلاعات بیشتری هستید، مقاله هوش مصنوعی چیست؟ را مطالعه کنید.

استفاده از حافظه با پهنای باند بالا در داخل خود تراشه، یکی دیگر از ضرورت‌های پیدایش این سخت‌افزار است. این قابلیت اجازه می‌دهد مجموعه‌های بزرگی از داده‌ها بدون جابه‌جایی مداوم بین رم و پردازنده، در لحظه تحلیل شوند. نتیجه این تخصصی‌سازی، ایجاد تعادل بین قدرت پردازشی بالا و ابعاد کوچک تراشه در دستگاه‌های قابل حمل است.

ویژگی‌های کلیدی معماری پردازش عصبی

معماری پردازش عصبی بر پایه جریان داده (Dataflow) و طراحی فضایی استوار است تا مسیر جابه‌جایی داده‌ها در سخت‌افزار به حداقل برسد. این ریزپردازنده‌ها با حذف واحدهای کنترلی پیچیده که در پردازنده‌های معمولی دیده می‌شود، تمام توان مدار را صرف عملیات‌های ریاضی پرتکرار می‌کنند.

ساختار داخلی این قطعات به گونه‌ای است که داده‌ها به صورت پیوسته در میان سلول‌های پردازشی حرکت می‌کنند. این رویکرد باعث می‌شود بازدهی مصرف انرژی در مقایسه با سایر تراشه‌ها به شکل قابل توجهی بهبود یابد.

پردازش موازی پیشرفته: توانایی شکستن عملیات‌های سنگین ریاضی به هزاران بخش کوچک و اجرای هم‌زمان آن‌ها در هسته‌های پردازشی ساده و کارآمد.
محاسبات با دقت پایین (Low Precision): پشتیبانی سخت‌افزاری از فرمت‌های عددی INT8 و FP16 که حجم داده‌ها را کاهش داده و سرعت اجرای مدل‌های هوش مصنوعی را چندین برابر می‌کند.
معماری آرایه سیستولیک: طراحی ویژه‌ای که در آن داده‌ها بین سلول‌های پردازشی جریان می‌یابند تا نیاز به خواندن و نوشتن مکرر در حافظه اصلی (RAM) از بین برود.
ماژول‌های اختصاصی توابع فعال‌سازی: وجود مدارهای سخت‌افزاری مجزا برای اجرای سریع توابع غیرخطی و عملیات فشرده‌سازی داده‌ها.
حافظه با پهنای باند بالا در تراشه: استفاده از حافظه‌های محلی در نزدیکی هسته‌ها برای جلوگیری از ایجاد گلوگاه در انتقال داده‌های حجیم تنسوری.
سخت‌افزار اختصاصی ضرب ماتریسی: تعبیه بلوک‌های فیزیکی برای انجام مستقیم عملیات ضرب و جمع (MAC) که هسته اصلی یادگیری عمیق محسوب می‌شود.

این ویژگی‌های معماری باعث می‌شود پردازنده عصبی بتواند مدل‌های پیچیده را با مصرف توان بسیار کم در دستگاه‌های کوچک اجرا کند. تمرکز بر بهینه‌سازی سخت‌افزاری برای عملیات‌های خاص، تفاوت اصلی این معماری با پردازشگرهای همه منظوره است.

مقایسه عملکرد NPU با CPU و GPU

تخصیص ترانزیستورها در CPU بیشتر صرف حافظه کش و واحدهای کنترل منطقی می‌شود، اما در NPU فضای اصلی تراشه به واحدهای ضرب و جمع ماتریسی اختصاص می‌یابد. این تفاوت ساختاری باعث شده تا سرعت پردازش بارهای کاری هوش مصنوعی در NPU به مراتب فراتر از توان عملیاتی یک CPU در همان سطح مصرف انرژی باشد.

معیار مقایسه	واحد پردازش مرکزی (CPU)	واحد پردازش گرافیکی (GPU)	واحد پردازش عصبی (NPU)
سبک پردازشی	ترتیبی و خطی (Serial)	موازی عمومی (General Parallel)	موازی تخصصی (Dedicated Parallel)
تعداد و نوع هسته	تعداد کم هسته‌های پیچیده	تعداد بسیار زیاد هسته‌های ساده	هسته‌های بهینه برای جریان داده
دقت محاسباتی	دقت بسیار بالا (FP64)	دقت بالا و متوسط (FP32)	دقت پایین و بهینه (INT8/FP16)
بهره‌وری انرژی	متوسط	پایین (مصرف برق زیاد)	بسیار بالا (کم‌مصرف)
کاربرد اصلی	منطق سیستم‌عامل و نرم‌افزار	رندرینگ و آموزش مدل‌های بزرگ	استنتاج مدل‌ها در لبه شبکه

در حالی که پردازنده گرافیکی به دلیل پهنای باند حافظه بالا برای آموزش مدل‌های سنگین ترجیح داده می‌شود، NPU در اجرای روزمره این مدل‌ها برتری مطلق دارد. این واحد با آزادسازی ظرفیت CPU و GPU، از افت فریم در پردازش‌های همزمان و داغ شدن بدنه دستگاه جلوگیری می‌کند.

سازوکار محاسبات در تراشه‌های عصبی

تراشه‌های عصبی به جای تکیه بر محاسبات عددی فوق‌ دقیق، بر پایه حل مسئله و یادگیری از الگوهای داده‌ای طراحی شده‌اند. در این سخت‌افزارها، یک دستورالعمل واحد می‌تواند پردازش مجموعه‌ای از نورون‌های مجازی را به طور کامل انجام دهد. این رویکرد باعث می‌شود سرعت اجرای مدل‌های یادگیری عمیق نسبت به پردازنده‌های گرافیکی سنتی به شکل قابل‌ توجهی افزایش یابد.

مدار داخلی این تراشه‌ها رفتار سیناپس‌های مغز را در سطح سیلیکون بازسازی می‌کند تا پردازش‌های سنگین هوش مصنوعی با کمترین جابه‌جایی داده انجام شود. این ساختار اجازه می‌دهد تا عملیات پیچیده ریاضی مانند ضرب ماتریس‌ها در کمترین زمان و با مصرف انرژی بسیار ناچیز به پایان برسد. تمرکز اصلی در اینجا بر روی خروجی نهایی و استنتاج سریع از داده‌های ورودی است.

محاسبات با دقت پایین

تراشه‌های عصبی برای افزایش کارایی، از اعداد با دقت پایین مانند INT8، INT4 یا FP8 استفاده می‌کنند. برخلاف پردازنده‌های مرکزی که با دقت‌های بالای اعشاری کار می‌کنند، NPU با کاهش دقت محاسباتی، سرعت پردازش را چندین برابر می‌کند. این تغییر استراتژیک باعث می‌شود حجم داده‌های انتقالی در مسیر حافظه کاهش یابد و عملیات ریاضی با پیچیدگی کمتری انجام شود.

استفاده از این نوع محاسبات مستقیماً بر روی واحد TOPS (تریلیون عملیات در ثانیه) تأثیر می‌گذارد و بهره‌وری انرژی را در دستگاه‌های کوچک بهبود می‌دهد. در واقع برای کارهایی مثل تشخیص چهره یا فیلترهای تصویری، نیازی به دقت محاسباتی ریاضیات محض نیست. این دقت پایین به تراشه اجازه می‌دهد فضای کمتری اشغال کرده و گرمای کمتری تولید کند.

وزن‌های سیناپسی و جریان داده

در معماری NPU، بخش محاسبات و ذخیره‌سازی داده‌ها از طریق متغیرهایی به نام وزن‌های سیناپسی با یکدیگر ترکیب می‌شوند. این وزن‌ها تعیین‌کننده قدرت ارتباط بین نورون‌های مجازی هستند و احتمال رسیدن به پاسخ صحیح را مشخص می‌کنند. در واقع تراشه با تنظیم این وزن‌ها در طول فرآیند استنتاج، می‌تواند بدون نیاز به برنامه‌نویسی مجدد، عملکرد خود را با داده‌های جدید سازگار کند.

جریان داده در این پردازنده‌ها به صورت لایه‌ای حرکت می‌کند و هر لایه خروجی خود را به لایه بعدی تحویل می‌دهد. این مسیر پایپ لاین باعث می‌شود پردازش سیگنال‌های چندرسانه‌ای مانند گفتار یا ویدیو به صورت بلادرنگ انجام شود. ترکیب هوشمندانه وزن‌های سیناپسی و جریان موازی داده، هسته اصلی قدرت این تراشه‌ها در اجرای مدل‌های زبانی بزرگ و بینایی ماشین است.

مزایای استفاده از شتاب‌دهنده عصبی

تمرکز بر محاسبات ماتریسی در سطح سخت‌افزار، شتاب‌دهنده‌های عصبی را به بهینه‌ترین ابزار برای استنتاج مدل‌های هوشمند تبدیل کرده است. این واحدها با حذف مسیرهای کنترلی پیچیده، توان پردازشی را مستقیما صرف جابجایی و تحلیل داده‌های تنسوری می‌کنند.

عنوان مزیت	توضیح فنی و عملکردی
بهینه‌سازی توان مصرفی	انجام عملیات سنگین ریاضی با مصرف برق بسیار ناچیز که منجر به افزایش ماندگاری باتری در دستگاه‌های قابل حمل می‌شود.
پایداری حرارتی سیستم	تولید گرمای بسیار کمتر حین پردازش‌های مداوم تصویر و صدا در مقایسه با استفاده از پردازنده‌های گرافیکی عمومی.
پردازش محلی و آنی	امکان اجرای مدل‌های هوش مصنوعی بدون وابستگی به اینترنت و حذف تاخیر ناشی از ارسال داده به سرورهای ابری.
حفظ امنیت داده‌ها	تحلیل اطلاعات حساس کاربر به صورت مستقیم روی تراشه که ریسک سرقت داده‌ها در مسیر انتقال به فضای ابری را از بین می‌برد.
آزادسازی ظرفیت CPU	انتقال بار پردازش‌های یادگیری ماشین به NPU که باعث می‌شود پردازنده مرکزی برای مدیریت روان سیستم‌عامل آزاد بماند.
ابعاد فیزیکی فشرده	طراحی بهینه در سطح سیلیکون که امکان قرارگیری قدرت پردازشی بالا را در دستگاه‌های بسیار کوچک و ظریف فراهم می‌کند.

تخصیص یک واحد مجزا برای بارهای کاری هوش مصنوعی، پایداری عملکرد دستگاه را در طولانی‌مدت تضمین می‌کند. این معماری به جای تکیه بر فرکانس‌های کاری بالا، بر موازی‌سازی هوشمندانه عملیات تمرکز دارد تا بهترین خروجی را با کمترین فشار به سخت‌افزار ارائه دهد.

کاربردهای اساسی در فناوری‌های نوین

پردازش بلادرنگ داده‌های چندرسانه‌ای مانند تصویر، صدا و ویدیو، هسته اصلی فعالیت شتاب‌دهنده‌های عصبی را تشکیل می‌دهد. این واحدها با انتقال محاسبات سنگین هوش مصنوعی از ابر به لبه شبکه، تاخیر در پاسخ‌دهی سیستم را به حداقل می‌رسانند و امنیت داده‌ها را با پردازش محلی تضمین می‌کنند.

گوشی‌های هوشمند و گجت‌های همراه: بهبود کیفیت تصاویر دوربین با تشخیص خودکار صحنه، اعمال فیلترهای واقعیت افزوده و تفکیک سوژه از پس‌زمینه در تماس‌های تصویری، از وظایف مستقیم NPU در پردازنده‌های موبایلی است.
خودروهای خودران و پهپادها: تحلیل سریع ورودی‌های سنسور برای شناسایی موانع، علائم راهنمایی و رانندگی و مسیریابی خودکار، نیازمند پردازش موازی داده‌های حجیم بصری است که توسط این تراشه‌ها با دقت بالا انجام می‌شود.
اینترنت اشیا (IoT) و ابزارهای پوشیدنی: دستیارهای صوتی و ساعت‌های هوشمند با استفاده از این تکنولوژی، الگوهای رفتاری کاربر را یاد می‌گیرند و بدون اتصال دایمی به اینترنت، فرمان‌های صوتی را با مصرف باتری بسیار ناچیز تحلیل می‌کنند.
رباتیک و بینایی ماشین: در محیط‌های صنعتی، ربات‌ها برای تشخیص قطعات معیوب یا ناوبری در فضاهای پیچیده، از الگوریتم‌های یادگیری عمیق بهینه‌شده روی سخت‌افزارهای عصبی برای واکنش‌های میلی‌ثانیه‌ای استفاده می‌کنند.
هوش مصنوعی مولد محلی: اجرای مدل‌های زبانی بزرگ و ابزارهای تولید تصویر روی رایانه‌های شخصی، بدون نیاز به سرورهای ابری، علاوه بر افزایش سرعت تولید محتوا، حریم خصوصی کاربران را به طور کامل حفظ می‌کند.
پردازش‌های علمی و پزشکی: شبیه‌سازی‌های پیچیده در محیط‌های آزمایشگاهی و تحلیل تصاویر رادیولوژی برای شناسایی ناهنجاری‌های بافتی، از دیگر حوزه‌هایی است که از توان محاسباتی این شتاب‌دهنده‌ها بهره می‌برند.

رابط‌های برنامه‌نویسی و توسعه نرم‌افزار

برای بهره‌برداری از توان سخت‌افزاری NPU، توسعه‌دهندگان به لایه‌های میان‌افزاری نیاز دارند که مدل‌های هوش مصنوعی را به دستورالعمل‌های قابل فهم برای سیلیکون تبدیل کنند. این فرآیند از طریق رابط‌های برنامه‌نویسی (API) و کیت‌های توسعه نرم‌افزار (SDK) انجام می‌شود که وظیفه بهینه‌سازی گراف محاسباتی و مدیریت حافظه را بر عهده دارند. سیستم‌عامل‌ها معمولا این دسترسی را از طریق کتابخانه‌های بومی فراهم می‌کنند تا پیچیدگی‌های معماری سخت‌افزار از دید برنامه‌نویس پنهان بماند.

کتابخانه‌های سطح بالا

کتابخانه‌های سطح بالا ابزارهایی هستند که مدل‌های آموزش‌دیده در فریم‌ورک‌های مشهور را برای اجرا روی تراشه‌های عصبی آماده می‌کنند. برای مثال، اپل از کتابخانه CoreML و کوالکام از موتور پردازش عصبی اختصاصی خود برای هدایت بار کاری به سمت NPU استفاده می‌کنند. این ابزارها با کوانتیزه کردن مدل و تغییر فرمت‌های عددی، سرعت اجرای استنتاج را به شکل چشم‌گیری افزایش می‌دهند.

این لایه‌های نرم‌افزاری به توسعه‌دهنده اجازه می‌دهند بدون درگیری با جزئیات ثبات‌ها و واحدهای محاسباتی، خروجی مدل خود را دریافت کند. اینتول با ابزار OpenVINO امکان اجرای بهینه مدل‌ها را روی سخت‌افزارهای مختلف خود فراهم کرده است. استفاده از این کتابخانه‌ها باعث می‌شود یک اپلیکیشن هوشمند روی مدل‌های مختلف موبایل یا لپ‌تاپ با پایداری بالایی اجرا شود.

استانداردسازی در لایه سخت‌افزار

تعدد معماری‌های NPU باعث شده است تا توسعه‌دهندگان با چالش ناسازگاری کدها روی تراشه‌های مختلف روبرو شوند. نهادهای استانداردگذار مانند گروه خرونوس با معرفی فرمت‌هایی مثل NNEF به دنبال ایجاد یک زبان مشترک برای توصیف شبکه‌های عصبی هستند. این استانداردها کمک می‌کنند تا مدل‌های گرافیکی و محاسباتی با کمترین تغییر روی هر شتاب‌دهنده عصبی استاندارد اجرا شوند.

فرمت باز ONNX به عنوان یک واسط عمومی عمل می‌کند تا مدل‌های ساخته شده در محیط‌های نرم‌افزاری مختلف، توسط شتاب‌دهنده‌های سخت‌افزاری گوناگون شناسایی شوند. هدف نهایی این تلاش‌ها، کاهش زمان توسعه و حذف وابستگی به ابزارهای انحصاری سازندگان تراشه است. استانداردسازی در لایه سخت‌افزار باعث می‌شود تا اکوسیستم نرم‌افزاری با سرعت بیشتری در کنار پیشرفت‌های سیلیکونی رشد کند.

چشم‌انداز و آینده پردازش در لبه

پردازش در لبه (Edge Computing) به معنای پردازش و تحلیل داده‌ها دقیقاً در همان جایی است که تولید می‌شوند (مانند گوشی موبایل، ساعت هوشمند، دوربین یا حسگرها)، به جای آنکه داده‌ها برای پردازش به سرورهای دوردست (فضای ابری) فرستاده شوند. این کار باعث افزایش چشمگیر سرعت (کاهش تاخیر)، حفظ حریم خصوصی کاربران و کاهش نیاز به اینترنت دائمی می‌شود.

تکامل پردازش در لبه به سمت ادغام کامل هوش مصنوعی در ریزترین حسگرهای محیطی حرکت می‌کند. این روند وابستگی دستگاه‌ها به مراکز داده بزرگ را به حداقل می‌رساند و قدرت تحلیل محلی را افزایش می‌دهد. تمرکز اصلی بر کاهش تاخیر و بهینه‌سازی مصرف انرژی در ابعاد میکروسکوپی است.

گسترش یادگیری فدرال: در این روش، دستگاه‌های لبه بدون ارسال داده‌های خام به سرور، مدل‌های هوش مصنوعی را به صورت محلی آموزش می‌دهند. این رویکرد باعث حفظ حریم خصوصی و بهبود مداوم عملکرد سیستم بر اساس رفتار اختصاصی کاربر می‌شود.
توسعه مدل‌های زبانی کوچک (SLM): بهینه‌سازی شبکه‌های عصبی برای اجرا روی سخت‌افزارهای کم‌مصرف، امکان استفاده از ابزارهای زبانی پیشرفته را در ساعت‌های هوشمند و گجت‌های پوشیدنی فراهم می‌کند. این مدل‌ها با کمترین نیاز به حافظه، پردازش‌های متنی و صوتی را مدیریت می‌کنند.
ظهور حسگرهای نورومورفیک: نسل جدید تراشه‌ها با الهام از سیستم عصبی، فقط در صورت تشخیص تغییر در محیط فعال می‌شوند. این ویژگی باعث می‌شود مصرف انرژی در دستگاه‌های پایش سلامت و سیستم‌های نظارتی به شدت کاهش یابد و طول عمر باتری افزایش پیدا کند.
همگرایی با شبکه‌های ارتباطی نسل جدید: ترکیب توان پردازشی NPU با زیرساخت‌های ارتباطی پرسرعت، امکان تصمیم‌گیری بلادرنگ در جراحی‌های از راه دور و مدیریت خودکار ترافیک شهری را فراهم می‌آورد. این هم‌افزایی، پهنای باند شبکه را برای انتقال داده‌های ضروری آزاد نگه می‌دارد.
خودمختاری کامل سیستم‌های رباتیک: پردازش پیشرفته در لبه به ربات‌های صنعتی و پهپادها اجازه می‌دهد بدون نیاز به دستورات راه دور، محیط‌های پیچیده را تحلیل کنند. این موضوع در شناسایی موانع و مسیریابی در محیط‌های بدون سیگنال اهمیت زیادی دارد.