دستکاری داده (Data Manipulation) چیست؟ مراحل، ابزارها و مثال عملی

دستکاری داده (Data Manipulation) فرایندی است که در آن داده‌ها ایجاد، مرتب‌سازی یا حذف می‌شوند تا بتوان از آن‌ها بینش‌های مفیدتری به دست آورد. امروزه حجم زیادی از داده‌ها به‌صورت خام و بدون ساختار در اختیار ما قرار دارند؛ در واقع تخمین زده می‌شود حدود ۹۰٪ از داده‌های موجود بدون ساختار هستند. به همین دلیل، پیش از تحلیل داده‌ها باید آن‌ها را پردازش و سازمان‌دهی کرد.

دستکاری داده یکی از مراحل پایه‌ای در تحلیل داده (Data Analysis)، داده‌کاوی (Data Mining) و آماده‌سازی داده برای یادگیری ماشین (Machine Learning) محسوب می‌شود. این فرایند به تحلیلگران و دانشمندان داده کمک می‌کند تا از داده‌های خام به نتایج قابل‌اعتماد برسند و تصمیمات آگاهانه‌تری بگیرند. برای یادگیری اصولی این مهارت‌ها و تسلط بر ابزارهای آماده‌سازی داده‌ها، شرکت در یک دوره علم داده با پایتون می‌تواند بهترین نقطه شروع باشد.

برای استفاده مؤثر از داده‌ها، عملیات دستکاری داده انجام می‌شود که معمولاً شامل موارد زیر است:

* ایجاد پایگاه داده (Database Creation)
* استفاده از SQL برای دستکاری داده‌های ساختاریافته
* استفاده از زبان‌های NoSQL مانند MongoDB برای دستکاری داده‌های بدون ساختار

در ادامه مقاله، مراحل انجام Data Manipulation، ابزارهای مورد استفاده و نمونه‌های عملی آن را بررسی خواهیم کرد.

مراحل موردنیاز برای انجام دستکاری داده (Data Manipulation)

برای انجام دستکاری داده (Data Manipulation)، مراحل زیر طی می‌شوند:

1. استخراج داده و ایجاد پایگاه داده

در ابتدا داده‌ها از اینترنت استخراج (Mine) می‌شوند. این کار می‌تواند از طریق درخواست‌های API یا Web Scraping انجام شود. سپس این نقاط داده در قالب یک پایگاه داده ساختاردهی می‌شوند تا برای پردازش‌های بعدی آماده باشند.

2. پیش‌پردازش داده‌ها (Data Preprocessing)

داده‌هایی که از مرحله استخراج به دست می‌آیند معمولاً خام هستند و ممکن است شامل موارد زیر باشند:

مقادیر نادرست
مقادیر گمشده (Missing Values)
داده‌های پرت (Outliers)

در این مرحله، این مشکلات برطرف می‌شوند؛ یا با حذف ردیف‌های مشکل‌دار، یا با جایگزینی مقادیر میانگین در بخش‌های خالی.

نکته: این جایگزینی تنها در مورد داده‌های عددی کاربرد دارد.

3. مرتب‌سازی و سازمان‌دهی داده‌ها

پس از پیش‌پردازش، داده‌ها به شکلی مناسب مرتب می‌شوند تا تحلیل آن‌ها آسان‌تر شود.

4. تبدیل داده‌ها (Data Transformation)

در این مرحله، داده‌ها در صورت نیاز تبدیل می‌شوند؛ برای مثال:

تغییر نوع داده (Datatype Conversion)
ترانهاده کردن (Transpose) داده‌ها در برخی موارد

5. انجام تحلیل داده (Data Analysis)

در نهایت، داده‌ها برای مشاهده نتایج مورد تحلیل قرار می‌گیرند. این مرحله می‌تواند شامل:

ایجاد مصورسازی‌ها (Visualizations)
ایجاد یک ستون خروجی برای مشاهده نتایج

در ادامه مقاله، هر یک از این مراحل با جزئیات بیشتری بررسی خواهند شد.

ابزارهای مورد استفاده در Data Manipulation

دانشمندان داده از ابزارهای متعددی برای انجام دستکاری داده (Data Manipulation) استفاده میکنند. برخی از محبوب‌ترین ابزارهایی که قابلیت‌های دستکاری داده را به‌صورت بدون کدنویسی (No-Code) یا همراه با کدنویسی (Code-Based) ارائه می‌دهند عبارت‌اند از:

1. MS Excel

Microsoft Excel یکی از پرکاربردترین ابزارها برای دستکاری داده است. این نرم‌افزار امکانات گسترده و متنوعی برای کار با داده‌ها فراهم می‌کند و آزادی عمل زیادی در مرتب‌سازی، فیلتر کردن، محاسبه و تغییر داده‌ها در اختیار کاربر قرار می‌دهد.

2. Power BI

Power BI ابزاری برای ایجاد داشبوردهای تعاملی به‌صورت ساده و سریع است. این ابزار توسط مایکروسافت ارائه شده و امکان انجام کدنویسی نیز در آن وجود دارد.

3. Tableau

Tableau عملکردی مشابه Power BI دارد، اما علاوه بر آن یک ابزار تحلیل داده نیز محسوب می‌شود که امکان دستکاری داده‌ها برای ایجاد مصورسازی‌های پیشرفته و چشمگیر را فراهم می‌کند.

عملیات‌های Data Manipulation

دستکاری داده (Data Manipulation) بر اساس چهار عملیات اصلی انجام می‌شود که با نام CRUD شناخته می‌شوند. این واژه مخفف چهار عملیات Create، Read، Update و Delete است. این عملیات‌ها در بسیاری از صنایع برای بهبود خروجی و مدیریت بهتر داده‌ها مورد استفاده قرار می‌گیرند.

در بیشتر زبان‌ها و سیستم‌های DML (Data Manipulation Language) نسخه‌ای از این چهار عملیات وجود دارد:

Create

برای ایجاد یک نقطه داده جدید یا ایجاد یک پایگاه داده استفاده می‌شود.

Read

برای خواندن داده‌ها و درک بهتر آن‌ها به کار می‌رود تا مشخص شود در چه بخش‌هایی باید عملیات دستکاری داده انجام شود.

Update

برای به‌روزرسانی داده‌های ناقص یا اشتباه استفاده می‌شود تا داده‌ها اصلاح شده و ساختار آن‌ها منظم‌تر شود.

Delete

برای حذف ردیف‌هایی که دارای داده‌های گمشده، اشتباه یا به‌درستی دسته‌بندی نشده‌اند استفاده می‌شود.

این چهار عملیات اصلی می‌توانند به روش‌های مختلفی اجرا شوند که در ادامه به برخی از آن‌ها اشاره می‌شود:

پیش‌پردازش داده‌ها (Data Preprocessing)

بیشتر داده‌های خامی که استخراج می‌شوند ممکن است شامل خطا، مقادیر گمشده یا داده‌های برچسب‌گذاری‌شده نادرست باشند. اگر این مشکلات در مراحل اولیه برطرف نشوند، می‌توانند نتیجه نهایی تحلیل را تحت تأثیر قرار دهند.

ساختاردهی داده‌ها (Structuring Data)

اگر داده‌های موجود در پایگاه داده بدون ساختار باشند، می‌توان آن‌ها را به ساختارهایی مانند جدول تبدیل کرد تا امکان پرس‌وجوی مؤثرتر و سریع‌تر فراهم شود.

کاهش تعداد ویژگی‌ها (Feature Reduction)

تحلیل داده معمولاً از نظر محاسباتی هزینه‌بر است. به همین دلیل، یکی از اهداف دستکاری داده پیدا کردن تعداد بهینه ویژگی‌ها (Features) برای رسیدن به نتیجه مناسب است و سایر ویژگی‌های غیرضروری حذف می‌شوند. برخی از تکنیک‌های مورد استفاده در این زمینه عبارت‌اند از:

Principal Component Analysis (PCA)
Discrete Wavelet Transform

پاک‌سازی داده‌ها (Data Cleaning)

در این مرحله داده‌های غیرضروری یا داده‌های پرت (Outliers) که ممکن است بر نتیجه نهایی تأثیر منفی بگذارند حذف می‌شوند تا خروجی نهایی دقیق‌تر و منظم‌تر شود.

تبدیل داده‌ها (Data Transformation)

گاهی با تبدیل داده‌ها می‌توان بینش بهتری از آن‌ها به دست آورد. این تبدیل‌ها می‌توانند شامل ترانهاده کردن داده‌ها (Transpose) یا مرتب‌سازی و بازآرایی داده‌ها باشند.

مثال Data Manipulation

در این بخش، یک مثال ساده از دستکاری داده (Data Manipulation) را با جزئیات بیشتری بررسی می‌کنیم. مثال زیر می‌تواند به‌عنوان یک مبنا (Baseline) برای درک نحوه کار با داده‌ها استفاده شود.

ابتدا باید داده‌ها را وارد (Import) کرده، آن‌ها را بارگذاری (Load) کنیم و سپس نمایش دهیم.

فرض کنید یک مجموعه‌داده (Dataset) در اختیار دارید؛ در این صورت باید آن را بارگذاری کرده و نمایش دهید.

در این مثال، از مجموعه‌داده Iris استفاده می‌کنیم.

مشاهده مجموعه‌داده Iris

کد زیر مجموعه‌داده Iris را خوانده و ۵ سطر آخر آن را نمایش می‌دهد:

import pandas as pd
df = pd.read_csv("Iris.csv")
print(df.tail())

خروجی:

کاربردهای Data Manipulation

در دنیای امروز که تقریباً همه کسب‌وکارها وارد فضای رقابتی و تحول دیجیتال شده‌اند، دسترسی به داده‌های صحیح و قابل‌اعتماد برای تصمیم‌گیری اهمیت بسیار زیادی دارد. به همین دلیل، برای رسیدن سریع‌تر و ساده‌تر به نتایج موردنظر، از دستکاری داده (Data Manipulation) استفاده می‌شود.

دلایل متعددی وجود دارد که نشان می‌دهد چرا باید داده‌ها را دستکاری و پردازش کنیم. مهم‌ترین آن‌ها عبارت‌اند از: