پادکست 1: علم داده چیست؟

بفرست برای دوستت
Telegram
WhatsApp

فهرست مطالب

پادکست اول دیتایاد: علم داده چیست؟


[دانلود پادکست]

 

داده چیست؟

هر اطلاعاتی با هر فرمتی را در نظر بگیریم، می توانیم به آن داده (Data) بگوییم.

داده (Data) شامل موارد زیر است:

  • تصاویر،
  • نوشته ها،
  • متن،
  • صوت،
  • ویدیو
  • حتی لاگ تماس های موبایل یا پیامک ها
  • فروش محصولات یک شرکت،
  • آمار منابع انسانی؛

تمام این ها می توانند شامل داده (Data) باشد.

 

علم داده چیست؟

حالا که در مورد “داده” صحبت کردیم و دیدیم که داده چه چیزی هست، می توانیم در مورد این صحبت کنیم که علم داده چیست؟

علم داده بصورت کلی دنبال این است که از بین این دیتا‌ها یا همان داده‌هایی که داریم،  یک چیزی یا یک رفتاری را بیرون بکشد یا یک دانشی را از داخل آن بیرون بکشد.

فرض کنیم یک سری تصاویر سی‌تی‌اسکن یا MRI داریم که یک تعدادی سرطان دارند و یک تعدادی سرطان ندارند. ما با استفاده از این تصاویر می آییم از دل این تصاویر یک مفهوم و دانشی را بیرون می کشیم؛ دانشی که پیش از این نیاز بود که یک فرد متخصص سالها دنبال این باشد که آیا این شخص سرطان دارد یا نه. واحد های درسی مختلف را پاس کند تا به چنین درجه‌ای (یک پزشک متخصص) برسد.

اما اینجا علم داده (Data Science) به کمک ما می آید. به کمک یک سری عکس ها که‌ برچسب زده شده است. اینکه یک سری از عکس ها شامل تومورهایی است و یک سری شامل تومور نیست.

با استفاده از الگوریتم ها ما می آییم از داخل آن یک دانشی را بیرون می کشیم که در عکس های جدیدی که گرفته می شود بتوانیم درک کنیم که آیا این عکس شامل توده های سرطانی هست یا خیر.

به همین شکل کمی جلو می رویم و به تحویز داروها خواهیم رسید؛ یعنی بعد از اینکه تشخیص داد شخص سرطان دارد، بتواند تجویز دارو انجام دهد، بتواند پیشنهادی بدهد که این شخص مرحله بعدی را به چه صورت باید طی کند.

این یک مثال در حوزه پزشکی و سلامت بود و مثال های فراوان دیگری وجود دارد؛ در حوزه بیزینس و مسائل دیگر. چیزی که در تمام این موارد مشترک است، یک فرآیندی است که انجام می شود. از واژه فرآیند استفاده کردم. این فرآیند چی هست؟!

 

منظور ما از «فرآیند» چیست؟

در مثال قبل، اگر دقت کنید ما نیاز به یک سری تصاویر داریم. این تصاویر باید جمع‌آوری و پاکسازی بشوند، در موردشان تحقیق کنیم، برچسب (label) بزنیم و کارهای دیگری انجام دهیم. سپس به سراغ اینکه یک مدلی بر اساس مدل های یادگیری ماشین تربیت کنیم، برویم و در نهایت این مدل را به کار بگیریم.

این یک فرآیند ثابت در تمامی کارهاست که ما معمولا باید این فرایند را طی کنیم تا به نتیجه برسیم که می شود Deployment یا همان به کارگیری الگوریتمی است که ساختیم.

علم داده چنین فرآیندی است. علم داده یک علم بین رشته‌ای است یعنی ما با استفاده از علم داده (Data science) دانشی را که یک متخصص باید پیش از این سال های سال زحمت می‌کشید و به دست می آورد را بدست می آوریم و در عرض یک زمان بسیار کوتاه همین مسئله را به ماشین یاد می دهیم.

 

تخصص های علم داده

حالا در این میان نیاز داریم به متخصصینی که بتوانند این داده ها را جمع‌آوری کنند، پاکسازی کنند و در جایی ذخیره کنند که معمولا به این اشخاص مهندسین داده (Data Engineer) گفته می‌شود. این اشخاص کسانی هستند که در جمع‌آوری، پاکسازی و ذخیره سازی داده به ما کمک می‌کنند.

کسانی را داریم که داده را تحلیل می‌کنند که براساس نیاز ما اینکه آیا نیاز به مدل سازی پیچیده داشته باشد یا خیر؛ می رسیم به افرادی که به آنها تحلیلگران داده (Data Analysis) یا دانشمندان داده (Data Scientists) را دارند که تعاریف مخصوص خود را دارند و در مطالب بعدی سعی می‌کنیم به این واژه ها بصورت تخصصی تر نگاه کنیم.

هدف ما در پادکست اول سایت دیتایاد پرداختن به علم داده (Data Sciences) بود. اینکه علم داده دقیقا چه هست.

اکنون انتظار داریم که شما یک سِنسی نسبت به علم داده (Data sciences) بدست آورده باشید و در ادامه دعوت می‌کنم که همراه ما باشید تا درک قوی تری از علم داده (Data Sciences) و موارد مرتبط با آن را بدست بیاورید.

 

Rating 2.67 from 3 votes

لینک دانلود کتاب

آموزش پیشنهادی و مکمل

این مطالب را هم مشاهده کنید

guest
0 نظرات
بازخورد (Feedback) های اینلاین
مشاهده همه دیدگاه ها
سبد خرید

70% تخفیف دوره ریاضیات علم داده و ML

برای دیدن نوشته هایی که دنبال آن هستید تایپ کنید.
×