در این مطلب می خواهیم به طور جامع به موضوع علم داده چیست بپردازیم. علم داده (Data Science) با ترکیب ریاضیات، آمار، برنامهنویسی تخصصی، تجزیهوتحلیل پیشرفته، هوش مصنوعی (AI) و یادگیری ماشین می تواند بینشهای عملی پنهان موجود در دادههای سازمان را آشکار کند. از این بینشها میتواند برای هدایت تصمیمگیریها و برنامهریزی استراتژیک در سازمانها استفاده کرد.
حجم فزاینده منابع داده و متعاقباً دادههای سازمانی، باعث شده تا علم داده یکی از سریعترین زمینههای درحالرشد در هر صنعتی باشد. در نتیجه جای تعجب نیست که موقعیت شغلی یک متخصص علم داده توسط مؤسسه هاروارد بیزینس ریویو بهعنوان “جذابترین شغل قرن بیست و یک” شناخته شود.
علم داده چیست؟
علم داده یا دیتا ساینس (Data Science)، به مطالعه داده ها برای استخراج دانش و آگاهی برای کسب و کارها گفته می شود. به افراد فعال در حوزه علم داده Data Scientist گفته می شود که در فارسی با عبارات دانشمند داده، متخصص علم داده یا داده شناس ذکر می شود.
علم داده، یک رویکرد چندرشته ای است که از ترکیبی از اصول و روش های موجود در رشته های متنوعی همچون ریاضیات، آمار، هوش مصنوعی و مهندسی کامپیوتر، برای تحلیل مقادیر بزرگی از داده بهره می گیرد. این تحلیل به دانشمندان داده کمک می کند که سوالاتی را مطرح کرده و آن ها را پاسخ دهند، سوالاتی همچون:
- چه اتفاقی افتاد؟
- چرا این اتفاق افتاد؟
- چه اتفاقی خواهد افتاد؟
- و با این نتایج، می توان چه کرد؟
چرا علم داده مهم است؟
علم داده به این دلیل مهم است که ابزارها، روش ها و تکنولوژی را با هم ترکیب می کند تا از داده ها، معنایی بیرون بکشد. سازمان ها و شرکت های امروزی، غرق در داده ها هستند. تعداد بسیار زیادی دستگاه وجود دارد که می توانند به شکل اتوماتیک، اطلاعات را جمع آوری و نگهداری کنند.
امروزه سیستم های آنلاین و درگاه های پرداخت، داده های بیشتری را در حوزه های تجارت الکترونیک (e-commerce)، درمان و دارو، مالی و تمام جنبه های زندگی انسان، جمع آوری می کنند. ما به حجم بسیار گسترده ای از داده ها در فرمت های متنی، صوتی، تصویری و ویدیویی دسترسی داریم.
تاریخچه علم داده
عبارت «علم داده» عبارت جدیدی نیست اما معنا و مفهوم آن با گذر زمان، تغییر کرده است. اصطلاح علم داده، اولین بار در دهه 1960 میلادی به عنوان نامی متفاوت برای علم آمار مطرح شد.
در اواخر دهه 1990 میلادی، متخصصان علم کامپیوتر، این اصطلاح علم داده را به شکلی رسمی تعریف کردند. تعریفی که آن زمان برای علم داده ها مطرح شد، این حوزه را به عنوان رشته ای جداگانه با سه جنبه تعریف کرد:
طراحی، جمع آوری و تحلیل داده ها.
همچنان تا یک دهه بعد، این اصطلاح فقط در فضای آکادمیک و دانشگاهی کاربرد داشت.
آینده علم داده
نوآوری ها در زمینه هوش مصنوعی و یادگیری ماشین، باعث شده که پردازش داده ها سریع تر و با بهره وری بیشتری انجام شود. نیاز و تقاضای بخش صنعتی، اکوسیستمی کامل از دوره های آموزشی، مدارک تحصیلی و سِمت های شغلی را در رشته علم داده ایجاد کرده است.
به دلیل اینکه علم داده نیازمند مجموعه مهارت هایی است که چندکاربردی هستند و همچنین به تخصص نیاز دارد، تخمین زده می شود که در دهه های آینده، حوزه علم داده به شکل قابل توجهی رشد کند.
فرآیند علم داده چیست؟
معمولا یک مشکل در کسب و کارها است که باعث می شود فرآیند علم داده شروع شود. یک دانشمند داده همکاری نزدیکی با سهامداران کسب و کار دارد تا متوجه شود که یک کسب و کار به چه چیزی نیاز دارد. وقتی که این مشکل تعریف شد، دانشمند داده می تواند آن را از طریق فرآیند علم داده OSEMN حل کند:
O – به دست آوردن داده ها
داده ممکن است از پیش وجود داشته باشد، به تازگی به دست آمده باشد یا یک ظرف داده ای (data repository) قابل دانلود از اینترنت باشد. دانشمندان داده می توانند داده ها را از دیتابیس های اینترنال یا اکسترنال، نرم افزار مدیریت ارتباط با مشتری سازمانی و شرکتی (CRM)، لاگ های وب سرور یا شبکه های اجتماعی استخراج کنند یا اینکه داده ها را از منابع سوم شخص معتبر خریداری کنند.
S – پاک سازی داده ها
پاک سازی داده یا دیتا اسکرابینگ (data scrubbing)، فرآیندِ استانداردسازی داده ها، بر اساس یک فرمت از پیش تعیین شده است. این فرآیند شامل کارهایی همچون مدیریت داده های ناقص، تصحیح خطاهای داده ها و حذف داده های پرت و نامربوط می شود. چند مثال از پاک سازی داده:
- تغییر تمام مقادیر تاریخ به یک فرمت استاندارد رایج
- تصحیح اشتباهات تایپی و املایی و حذف فاصله های اضافه (spaceهای اضافه)
- تصحیح خطاهای ریاضی یا حذف ویرگول و کاما (,) در اعداد بزرگ
E – کاوش داده ها
کاوش داده ها، یک تحلیل داده مقدماتی است که برای برنامه ریزی های بعدی استراتژی های مدلسازی داده مورد استفاده قرار می گیرد. دانشمندان داده با استفاده از آمار توصیفی و ابزارهای مصورسازی داده، یک درک اولیه از داده های مورد نظر پیدا می کنند. سپس داده را کاوش می کنند تا الگوهای جالب توجهی را شناسایی کنند که می توان آن ها را مورد مطالعه قرار داد یا به کار گرفت.
M – مدل کردن داده ها
نرم افزارها و الگوریتم های یادگیری ماشین برای به دست آوردن دانش و آگاهی عمیق تر، پیش بینی نتایج و برآیندها و همچنین تجویز کردن بهترین راهکارها مورد استفاده قرار می گیرد.
برخی تکنیک های یادگیری ماشین مثل همبستگی، طبقه بندی و خوشه بندی به مجموعه داده ای مورد آموزش اعمال می شود. این مدل ممکن است برای ارزیابی دقت نتایج، با یک مجموعه داده آزمایشی از پیش تعیین شده، تست شود. برای بهبود برآیندها و نتایج، می توان مدل داده را بارها و بارها به شکل دقیق تنظیم کرد.
N – تفسیر نتایج
دانشمندان داده با تحلیلگران و کسب و کارها همکاری می کنند تا دانش و آگاهی داده ها را به عمل تبدیل کنند. این متخصصان داده، نمودارها و گراف ها و نگاره هایی را تولید می کنند که روندها و پیش بینی ها را نشان می دهند. خلاصه کردن داده ها به سهامداران کمک می کند که به شکل موثر، نتایج را درک و پیاده سازی کنند.
کاربردهای علم داده چیست؟
ما در مقاله ای دیگر کاربردهای علم داده را کامل بررسی کردیم. اما خوب است اینجا بدانیم که علم داده برای مطالعه داده ها، به 4 روش مورد استفاده قرار می گیرد:
1- تحلیل توصیفی (descriptive analysis)
تحلیل توصیفی، داده ها را بررسی می کند تا در مورد آنچه که در محیط داده ای اتفاق می افتد یا اتفاق خواهد افتاد، دانش و آگاهی کسب کند. از ویژگی های بارز این نوع تحلیل، مصورسازی هایی مثل:
✔️ نمودار دایره ای،
✔️ نمودار میله ای،
✔️ گراف های خطی،
✔️ جدول ها و
✔️ روایت تولیدی (generated narrative)
می باشد.
به طور مثال، یک شرکت ارائه دهنده خدمات رزرو بلیت هواپیما مثل علی بابا، ممکن است داده هایی مثل تعداد بلیت های رزرو شده در هر روز را ثبت و نگهداری کند. تحلیل توصیفی کمک می کند که زمان اوج رزرو بلیت، زمان رکود رزرو و ماه هایی که این مجموعه بهترین عملکرد را دارد، مشخص شود.
2- تحلیل تشخیصی (diagnostic analysis)
تحلیل تشخیصی، به معنی ارزیابی و بررسی عمیق و مفصل برای درک کردن دلیل رخ دادن یک اتفاق است. این نوع تحلیل، شامل تکنیک هایی همچون:
✔️ واکاوی دقیق (drill-down)
✔️ کشف داده ها (data discovery)،
✔️ داده کاوی (data mining) و
✔️ بررسی همبستگی و وابستگی (correlations)
می شود.
چندین تحول و عملیات مختلف داده ای، روی یک مجموعه داده (دیتا سِت) انجام می شود تا الگوهای منحصر به فرد در هر یک از این تکنیک ها کشف شود.
به طور مثال، این شرکت خدمات رزرو بلیت پرواز، می تواند واکاوی دقیق روی ماهی انجام دهد که فروش موفقی داشته اند تا بهتر دلیل این اوج گیری رزرو بلیت را متوجه شوند. این تحلیل، می تواند منجر به این کشف شود که مشتریان زیادی، برای حضور در یک رویداد ورزشی ماهانه، به یک شهر خاص سفر می کنند.
3- تحلیل پیش بینی کننده (predictive analysis)
تحلیل پیش بینی کننده، از داده های تاریخی و پیشین برای انجام پیش بینی های دقیق در مورد الگوهای داده ای که ممکن است در آینده رخ بدهد، استفاده می کند. از ویژگی های این نوع تحلیل، تکنیک هایی همچون:
✔️ یادگیری ماشین،
✔️ پیش نگری (forecasting)،
✔️ تطبیق الگو (pattern matching) و
✔️ مدل سازی پیش بینی کننده (predictive modeling)
هستند.
در هر یک از این تکنیک ها، کامپیوترها یاد می گیرند که ارتباطات علیت موجود در داده ها را مهندسی معکوس کنند. به طور مثال آن شرکت خدمات رزرو بلیت پرواز که در مورد آن صحبت کردیم، ممکن است در ابتدای سال، از علم داده ها برای پیش بینی الگوهای رزرو بلیت برای سال جاری استفاده کند.
این برنامه کامپیوتری یا الگوریتم، می تواند داده های پیشین را بررسی کند و زمان اوج رزرو بلیت را برای مقصدهای خاصی در ماه خاصی پیش بینی کند. بعد از این تحلیل، حالا این شرکت نیازمندی های پرواز مشتریان بالقوه خود را پیش بینی کرده است، در نتیجه می تواند از ماه بعد، تبلیغات هدفمند را برای این شهرها شروع کند، به همین سادگی!
4- تحلیل تجویزی (prescriptive analysis)ش
تحلیل تجویزی، یک مرحله پیشرفته تر از داده پیش بینی کننده است. این نوع تحلیل، نه تنها پیش بینی می کند که احتمالا چه اتفاقی رخ خواهد داد، بلکه واکنشی بهینه را برای این اتفاق احتمالی ارائه خواهد کرد.
این تحلیل، می تواند پیامدهای احتمالیِ انتخاب های مختلف را تحلیل کند و بهترین راهکارها را توصیه کند. تحلیل تجویزی از:
✔️ تحلیل گراف،
✔️ شبیه سازی،
✔️ پردازش پیچیده رویداد،
✔️ شبکه های عصبی و
✔️ موتورهای توصیه گرِ یادگیری ماشین
استفاده می کند.
به همان مثال رزرو بلیت هواپیما برگردیم، تحلیل تجویزی در این مثال می تواند کمپین های بازاریابی پیشین را برای بیشینه کردن مزایای دوره اوج رزرو بلیت (که در آینده است) بررسی کند.
یک دانشمند داده، می تواند تخمین بزند که بر اساس میزان بازاریابی و سطح هزینه انجام شده روی کانال های مختلف بازاریابی، نتیجه به دست آمده از نظر تعداد رزرو بلیت به چه شکلی خواهد بود.
این پیش بینی داده ای، باعث می شود که این شرکت خدمات رزرو بلیت پرواز، بتواند در تصمیم گیری های بازاریابی خود، با اعتماد به نفس بیشتری عمل کند.
دقیقاً چطور و در کجا می توان از علم داده استفاده کرد؟
شرکتها میتوانند از طیف گستردهای از مزایای علم داده بهرهمند شوند. موارد استفاده رایج از علم داده شامل بهینهسازی فرایندها از طریق اتوماسیون هوشمند، هدفگذاری و شخصیسازی پیشرفته برای بهبود تجربه مشتری (CX) است. بااینحال نمونههای خاصتری نیز وجود دارند که عبارتاند از:
✔️ بانک با استفاده از مدلهای ریسک اعتباری که مدلهایی مبتنی بر یادگیری ماشین و معماری ترکیبی محاسبات ابری هستند میتواند خدمات وام خود را بهصورت سریعتر با استفاده از یک اپلیکیشن تلفن همراه ارائه دهد که هم قدرتمندتر و هم امنتر است.
✔️ شرکت های الکترونیکی درحالتوسعه حسگرهای سهبعدی فوقالعاده قدرتمند برای هدایت خودروهای بدون راننده هستند. این راهکار به ابزارهای علم داده و تجزیهوتحلیل داده برای ارتقا قابلیتهای مربوط به تشخیص اشیا در لحظه نیاز دارد.
✔️ ارائهدهندگان خودکارسازی فرایند رباتیک یا RPA با ایجاد راهکار استخراج فرایند از کسبوکار زمان رسیدگی به حوادث را بین 15 تا 95 درصد برای شرکتهای مشتری کاهش میدهند. این راهکار برای درک محتوا و احساسات ایمیلهای مشتریان آموزشدادهشده و تیمهای خدماتی را نیز هدایت میکند تا آنهایی که مرتبطترین و فوری هستند را اولویتبندی کند.
✔️ رسانه دیجیتال با تجزیهوتحلیل رفتار مخاطبان خود بررسی میکند چه چیزی مخاطبان تلویزیون را درگیر میکند. برای این کار از تجزیه وتحلیل عمیق دادهها و یادگیری ماشین برای جمعآوری بینش از دادهها استفاده میکند تا بتواند رفتار بیننده را تشخیص دهد.
✔️ پلیس شهری از ابزارهای تجزیهوتحلیل آماری برای تجزیهوتحلیل حوادث استفاده می کند تا به افسران کمک کند بفهمند چه زمانی و در چه موقعیتی باید منابع را مستقر کنند تا بتوانند از وقوع جرم جلوگیری کنند. این راهکار مبتنی بر داده گزارشها و داشبوردهایی را برای افزایش آگاهی میدانی افسران می کند.
✔️ ایجاد یک پلتفرم ارزیابی پزشکی مبتنی بر هوش مصنوعی که میتواند سوابق پزشکی موجود را تجزیهوتحلیل کند تا بیماران را بر اساس خطر تجربه سکته مغزی و یا دیگر بیماری ها طبقهبندی کند. بهاینترتیب میتواند میزان موفقیت برنامههای درمانی مختلف را برای بیماران پیشبینی کند.
کار یک دانشمند داده (data scientist) چیست؟
یک دانشمند داده از گستره ای متنوع از تکنیک ها، ابزار و تکنولوژی های متفاوت به عنوان بخش هایی از فرآیند علم داده استفاده می کند. بر اساس مشکل پیش رو، این متخصصان بهترین ترکیب از موارد مذکور را برای دستیابی سریع تر به نتایجی دقیق تر، استفاده می کنند.
نقش یک دانشمند داده و کارهایی که هر روز انجام می دهد، کاملا بستگی به ابعاد و نیازمندی های یک شرکت یا سازمان دارد. عموما همه آن ها فرآیند علم داده را پیش می برند، اما جزییات کار آن ها با هم متفاوت است.
در تیم های بزرگ تر علم داده، یک دانشمند داده ممکن است با دیگر تحلیلگران، مهندسان، متخصصان یادگیری ماشینی و کارشناسان آمار همکاری کند تا اطمینان حاصل شود که فرآیند علم داده به شکل انتها-به-انتها (end-to-end) انجام می شود و اهداف تجاری، محقق می شوند.
از طرفی، در تیم های کوچک تر، یک دانشمند داده ممکن است چند نقش مختلف را تک نفری ایفا کند. بر اساس سطح تجربه، مهارت ها و سابقه تحصیلی فرد، ممکن است یک دانشمند داده چندین سِمت مختلف یا وظایفی را بر عهده داشته باشد که با هم همپوشانی دارند. در این حالت، مسئولیت های روزانه این فرد ممکن است علاوه بر متدولوژی های اساسی علم داده، شامل مهندسی، تجزیه و تحلیل و یادگیری ماشین هم بشود.
به طور خلاصه یک دانشمند داده (متخصص علم داده) باید بتواند فعالیتهای زیر را انجام دهد:
✔️ اطلاعات کافی را درباره کسبوکار به دست بیاورد تا بتواند سؤالات مربوطه را بپرسد و نقاط دردسرساز کسبوکار و سازمان را شناسایی کند.
✔️ از آمار، علوم کامپیوتر و هوش تجاری در تجزیهوتحلیل دادهها استفاده کند.
✔️ از طیف گستردهای از ابزارها و تکنیکها برای تهیه و استخراج داده ها استفاده کند که این مسئله شامل همه چیز از پایگاه داده و sql گرفته تا داده کاوی و روش های یکپارچه سازی داده می شود.
✔️ استخراج بینش از داده های حجیم با استفاده از تجزیهوتحلیل داده ها، هوش مصنوعی (AI)، مدلهای یادگیری ماشین، پردازش زبان طبیعی و یادگیری عمیق.
✔️ برنامه هایی بنویسد که بتوانند پردازش و محاسبات داده ها را بهصورت خودکار انجام دهند.
✔️ توضیحاتی را بیان کند (با تصویر نشان دهد) که بهوضوح معنی نتایج بهدستآمده را به تصمیمگیرندگان و ذینفعان پروژه در هر سطحی از درک فنی منتقل کند.
✔️ بتواند توضیح دهد که چگونه نتایج می توانند برای حل مشکلات تجاری استفاده شوند.
✔️ با سایر اعضای تیم علم داده از جمله تحلیلگران داده و کسبوکار، متخصصان معماری IT، مهندسان داده و توسعهدهندگان اپلیکیشن همکاری داشته باشند.
مبانی تکنیک های علم داده
جزییات متفاوت است، اما اصول و مبانی این تکنیک ها عبارتند از:
به یک ماشین آموزش دهید که چطور داده ها را بر اساس یک دیتا ست مشخص (آشکار)، مرتب کند. به طور مثال، کلیدواژه های نمونه با مقدار مرتب کردن، به کامپیوتر ارائه می شود. مثلا «خوشحال» مثبت است اما «نفرت» منفی است.
حالا، داده های نامشخص و ناشناخته را به ماشین بدهید و اجازه بدهید که ماشین، به شکل مستقل دیتاست را مرتب کند.
اجازه دهید که عدم صحت و اشتباهات در نتایج وجود داشته باشد و عامل احتمال نتیجه را مدیریت کنید.
تکنیک های مورد استفاده در علم داده چیست؟
متخصصان علم داده از سیستم های کامپیوتری برای پیش بردن فرآیندِ علم داده استفاده می کنند. برترین تکنیک های مورد استفاده توسط دانشمندان داده عبارتند از:
✔️طبقه بندی (Classification)
طبقه بندی، مرتب سازی داده ها در گروه ها یا دسته هایی مشخص است. کامپیوترها آموزش دیده اند که داده ها را شناسایی و مرتب کنند. دیتاست های شناخته شده برای ایجاد الگوریتم های تصمیم در یک کامپیوتر مورد استفاده قرار می گیرند که به سرعت، داده ها را پردازش و دسته بندی می کند. به طور مثال:
- مرتب کردن محصولات در دو دسته محبوب و نامحبوب
- مرتب کردن درخواست های بیمه در دو دسته با ریسک بالا و ریسک پایین
- مرتب کردن نظرات در شبکه های اجتماعی در دسته های مثبت، منفی یا خنثی.
متخصصان علم داده از سیستم های کامپیوتری برای پیش بردن فرآیند علم داده استفاده می کنند.
✔️رگرسیون (Regression)
رگرسیون، روشی برای یافتن ارتباط بین دو نقطه داده ای (دیتاپوینت) است که ظاهرا با هم ارتباطی ندارند. این ارتباط، معمولا بر اساس یک فرمول ریاضی مدلسازی می شود و با یک گراف یا منحنی نمایش داده می شود. وقتی که مقدار یک نقطه داده ای مشخص است، رگرسیون برای پیش بینی نقطه داده دیگر استفاده می شود. به طور مثال:
- نرخ شیوع بیماری های هوابُرد (قابل شیوع از طریق هوا)
- رابطه بین رضایتمندی مشتری و تعداد کارمندان
- رابطه بین تعداد ایستگاه های آتش نشانی و تعداد جراحات ناشی از آتش در یک منطقه خاص
✔️خوشه بندی (Clustering)
خوشه بندی، روشی از گروه بندی داده هایی است که به شکل نزدیک بهم مرتبط هستند، برای یافتن الگوها و ناهنجاری ها (آنامولی ها). خوشه بندی با مرتب کردن (sorting) متفاوت است، چون داده ها را نمی توان به شکل دقیق در دسته هایی ثابت، طبقه بندی کرد. در عوض داده ها در گروه هایی قرار می گیرند که احتمال ارتباط بین آن ها بیشترین است. روابط و الگوهای جدید را می توان با خوشه بندی کشف کرد. به طور مثال:
- گروه بندی مشتریانی که رفتار خرید مشابهی دارند، با هدف بهبود خدمات مشتریان
- گروه بندی ترافیک شبکه برای شناسایی الگوهای استفاده روزمره و شناسایی سریع تر حمله شبکه
- خوشه بندی مقالات در چندین دسته بندی متفاوت جدید و استفاده از این اطلاعات برای یافتن محتوای خبری جعلی و ساختگی
عالی و مفید بود
متشکرم، خوشحالم که برات مفید بود
دم شما گرم، پر قدرت ادامه بدین
مرسی از انرژی خوبت
من می خوام وارد این مسیر یادگیری علم داده بشم
به زودی گام به گام بهتون میگیم چیکار کنین که بدون سردرگمی خیلی راحت بتونین وارد این مسیر بشین و ادامه اش بدین
ممنونم از اینکه انقدر جامع در مورد علم داده گفتید، کاش در مورد دانشمند داده بیشتر توضیح می دادین.
لطف داری، برای این مورد که گفتی می تونی این اموزش زیر رو ببینی، روی لینک زیر کلیک کن:
آموزش متخصص علم داده
عالی بود، 5 دقیقه زمان برد خوندنش اما کلی اطلاعات جدید یاد گرفتم. مرسی از سایت خوب تون
ممنونم احسان عزیز، خوشحالم که برات مفید و کاربردی بود