دستکاری داده (Data Manipulation) فرایندی است که در آن دادهها ایجاد، مرتبسازی یا حذف میشوند تا بتوان از آنها بینشهای مفیدتری به دست آورد. امروزه حجم زیادی از دادهها بهصورت خام و بدون ساختار در اختیار ما قرار دارند؛ در واقع تخمین زده میشود حدود ۹۰٪ از دادههای موجود بدون ساختار هستند. به همین دلیل، پیش از تحلیل دادهها باید آنها را پردازش و سازماندهی کرد.
دستکاری داده یکی از مراحل پایهای در تحلیل داده (Data Analysis)، دادهکاوی (Data Mining) و آمادهسازی داده برای یادگیری ماشین (Machine Learning) محسوب میشود. این فرایند به تحلیلگران و دانشمندان داده کمک میکند تا از دادههای خام به نتایج قابلاعتماد برسند و تصمیمات آگاهانهتری بگیرند. برای یادگیری اصولی این مهارتها و تسلط بر ابزارهای آمادهسازی دادهها، شرکت در یک دوره علم داده با پایتون میتواند بهترین نقطه شروع باشد.
برای استفاده مؤثر از دادهها، عملیات دستکاری داده انجام میشود که معمولاً شامل موارد زیر است:
* ایجاد پایگاه داده (Database Creation)
* استفاده از SQL برای دستکاری دادههای ساختاریافته
* استفاده از زبانهای NoSQL مانند MongoDB برای دستکاری دادههای بدون ساختار
در ادامه مقاله، مراحل انجام Data Manipulation، ابزارهای مورد استفاده و نمونههای عملی آن را بررسی خواهیم کرد.
مراحل موردنیاز برای انجام دستکاری داده (Data Manipulation)
برای انجام دستکاری داده (Data Manipulation)، مراحل زیر طی میشوند:
1. استخراج داده و ایجاد پایگاه داده
در ابتدا دادهها از اینترنت استخراج (Mine) میشوند. این کار میتواند از طریق درخواستهای API یا Web Scraping انجام شود. سپس این نقاط داده در قالب یک پایگاه داده ساختاردهی میشوند تا برای پردازشهای بعدی آماده باشند.
2. پیشپردازش دادهها (Data Preprocessing)
دادههایی که از مرحله استخراج به دست میآیند معمولاً خام هستند و ممکن است شامل موارد زیر باشند:
- مقادیر نادرست
- مقادیر گمشده (Missing Values)
- دادههای پرت (Outliers)
در این مرحله، این مشکلات برطرف میشوند؛ یا با حذف ردیفهای مشکلدار، یا با جایگزینی مقادیر میانگین در بخشهای خالی.
نکته: این جایگزینی تنها در مورد دادههای عددی کاربرد دارد.
3. مرتبسازی و سازماندهی دادهها
پس از پیشپردازش، دادهها به شکلی مناسب مرتب میشوند تا تحلیل آنها آسانتر شود.
4. تبدیل دادهها (Data Transformation)
در این مرحله، دادهها در صورت نیاز تبدیل میشوند؛ برای مثال:
- تغییر نوع داده (Datatype Conversion)
- ترانهاده کردن (Transpose) دادهها در برخی موارد
5. انجام تحلیل داده (Data Analysis)
در نهایت، دادهها برای مشاهده نتایج مورد تحلیل قرار میگیرند. این مرحله میتواند شامل:
- ایجاد مصورسازیها (Visualizations)
- ایجاد یک ستون خروجی برای مشاهده نتایج
در ادامه مقاله، هر یک از این مراحل با جزئیات بیشتری بررسی خواهند شد.
ابزارهای مورد استفاده در Data Manipulation
دانشمندان داده از ابزارهای متعددی برای انجام دستکاری داده (Data Manipulation) استفاده میکنند. برخی از محبوبترین ابزارهایی که قابلیتهای دستکاری داده را بهصورت بدون کدنویسی (No-Code) یا همراه با کدنویسی (Code-Based) ارائه میدهند عبارتاند از:
1. MS Excel
Microsoft Excel یکی از پرکاربردترین ابزارها برای دستکاری داده است. این نرمافزار امکانات گسترده و متنوعی برای کار با دادهها فراهم میکند و آزادی عمل زیادی در مرتبسازی، فیلتر کردن، محاسبه و تغییر دادهها در اختیار کاربر قرار میدهد.
2. Power BI
Power BI ابزاری برای ایجاد داشبوردهای تعاملی بهصورت ساده و سریع است. این ابزار توسط مایکروسافت ارائه شده و امکان انجام کدنویسی نیز در آن وجود دارد.
3. Tableau
Tableau عملکردی مشابه Power BI دارد، اما علاوه بر آن یک ابزار تحلیل داده نیز محسوب میشود که امکان دستکاری دادهها برای ایجاد مصورسازیهای پیشرفته و چشمگیر را فراهم میکند.
عملیاتهای Data Manipulation
دستکاری داده (Data Manipulation) بر اساس چهار عملیات اصلی انجام میشود که با نام CRUD شناخته میشوند. این واژه مخفف چهار عملیات Create، Read، Update و Delete است. این عملیاتها در بسیاری از صنایع برای بهبود خروجی و مدیریت بهتر دادهها مورد استفاده قرار میگیرند.
در بیشتر زبانها و سیستمهای DML (Data Manipulation Language) نسخهای از این چهار عملیات وجود دارد:
Create
برای ایجاد یک نقطه داده جدید یا ایجاد یک پایگاه داده استفاده میشود.
Read
برای خواندن دادهها و درک بهتر آنها به کار میرود تا مشخص شود در چه بخشهایی باید عملیات دستکاری داده انجام شود.
Update
برای بهروزرسانی دادههای ناقص یا اشتباه استفاده میشود تا دادهها اصلاح شده و ساختار آنها منظمتر شود.
Delete
برای حذف ردیفهایی که دارای دادههای گمشده، اشتباه یا بهدرستی دستهبندی نشدهاند استفاده میشود.
این چهار عملیات اصلی میتوانند به روشهای مختلفی اجرا شوند که در ادامه به برخی از آنها اشاره میشود:
پیشپردازش دادهها (Data Preprocessing)
بیشتر دادههای خامی که استخراج میشوند ممکن است شامل خطا، مقادیر گمشده یا دادههای برچسبگذاریشده نادرست باشند. اگر این مشکلات در مراحل اولیه برطرف نشوند، میتوانند نتیجه نهایی تحلیل را تحت تأثیر قرار دهند.
ساختاردهی دادهها (Structuring Data)
اگر دادههای موجود در پایگاه داده بدون ساختار باشند، میتوان آنها را به ساختارهایی مانند جدول تبدیل کرد تا امکان پرسوجوی مؤثرتر و سریعتر فراهم شود.
کاهش تعداد ویژگیها (Feature Reduction)
تحلیل داده معمولاً از نظر محاسباتی هزینهبر است. به همین دلیل، یکی از اهداف دستکاری داده پیدا کردن تعداد بهینه ویژگیها (Features) برای رسیدن به نتیجه مناسب است و سایر ویژگیهای غیرضروری حذف میشوند. برخی از تکنیکهای مورد استفاده در این زمینه عبارتاند از:
- Principal Component Analysis (PCA)
- Discrete Wavelet Transform
پاکسازی دادهها (Data Cleaning)
در این مرحله دادههای غیرضروری یا دادههای پرت (Outliers) که ممکن است بر نتیجه نهایی تأثیر منفی بگذارند حذف میشوند تا خروجی نهایی دقیقتر و منظمتر شود.
تبدیل دادهها (Data Transformation)
گاهی با تبدیل دادهها میتوان بینش بهتری از آنها به دست آورد. این تبدیلها میتوانند شامل ترانهاده کردن دادهها (Transpose) یا مرتبسازی و بازآرایی دادهها باشند.
مثال Data Manipulation
در این بخش، یک مثال ساده از دستکاری داده (Data Manipulation) را با جزئیات بیشتری بررسی میکنیم. مثال زیر میتواند بهعنوان یک مبنا (Baseline) برای درک نحوه کار با دادهها استفاده شود.
ابتدا باید دادهها را وارد (Import) کرده، آنها را بارگذاری (Load) کنیم و سپس نمایش دهیم.
فرض کنید یک مجموعهداده (Dataset) در اختیار دارید؛ در این صورت باید آن را بارگذاری کرده و نمایش دهید.
در این مثال، از مجموعهداده Iris استفاده میکنیم.
مشاهده مجموعهداده Iris

کد زیر مجموعهداده Iris را خوانده و ۵ سطر آخر آن را نمایش میدهد:
import pandas as pd
df = pd.read_csv("Iris.csv")
print(df.tail())
خروجی:

کاربردهای Data Manipulation
در دنیای امروز که تقریباً همه کسبوکارها وارد فضای رقابتی و تحول دیجیتال شدهاند، دسترسی به دادههای صحیح و قابلاعتماد برای تصمیمگیری اهمیت بسیار زیادی دارد. به همین دلیل، برای رسیدن سریعتر و سادهتر به نتایج موردنظر، از دستکاری داده (Data Manipulation) استفاده میشود.
دلایل متعددی وجود دارد که نشان میدهد چرا باید دادهها را دستکاری و پردازش کنیم. مهمترین آنها عبارتاند از:
- افزایش کارایی (Increased Efficiency)
- کاهش احتمال بروز خطا (Less Room for Error)
- سادهتر شدن فرآیند تحلیل دادهها (Easier to Analyze Data)
- کاهش احتمال ایجاد نتایج غیرمنتظره (Fewer Chances for Unexpected Results)

