علم داده چیست؟



علوم داده، بر اساس مقادیر زیادی از داده‌های پیچیده یا مهداده(big data)، اطلاعات معناداری را ارائه می‌دهد. علم داده یا دانش مبتنی بر داده، زمینه های مختلف کاربردی آمار و محاسبات پیشرفته را ترکیب می‌کند تا داده‌ها را برای اهداف استراتژیک و تصمیم گیری تفسیر کند. با جمع آوری داده‌ها در طی یک دوره زمانی، الگوهایی میتوانند شناسایی شوند که شرکت ها را قادر می‌سازند تا فرصت‌های جدید بازار را کشف کنند، بهره‌وری را افزایش دهند، هزینه‌ها را کاهش دهند، و خود را در یک مزیت رقابتی در صنعت خود قرار دهند.

 

به گزارش صبح ساحل، علوم داده، بر اساس مقادیر زیادی از داده‌های پیچیده یا مهداده(big data)، اطلاعات معناداری را ارائه می‌دهد. علم داده یا دانش مبتنی بر داده، زمینه های مختلف کاربردی آمار و محاسبات پیشرفته را ترکیب می‌کند تا داده‌ها را برای اهداف استراتژیک و تصمیم گیری تفسیر کند. با جمع آوری داده‌ها در طی یک دوره زمانی، الگوهایی میتوانند شناسایی شوند که شرکت ها را قادر می‌سازند تا فرصت‌های جدید بازار را کشف کنند، بهره‌وری را افزایش دهند، هزینه‌ها را کاهش دهند، و خود را در یک مزیت رقابتی در صنعت خود قرار دهند.

چرا علم داده؟
با توجه به پیشرفت های تکنولوژیکی سریع، به ویژه در زمینه های تبلیغاتی همراه، رسانه های اجتماعی و شخصی سازی وب سایت، مقدار زیادی اطلاعات به صورت روزانه ایجاد می شود. این حجم داده ها باعث شده است که صنایع با توجه به شناخت اطلاعات و سازگاری با چشم انداز جدید و یا خطر عقب ماندن از رقبا به سوی گسترده تر کردن علم داده در صنعت خود تمایل یابند. موسسات دولتی و خصوصی، نیازمند پیاده سازی علم داده در سازمان هایشان هستند. دانشگاه ها به این نیاز با ارائه دوره های علمی  به دانشجویان در تمام زمینه ها پاسخ داده اند.

فرآیند علم داده
با در نظر گرفتن اصول متناسب، باید به دنبال فرآیندی منظم و شفاف برای مسائل دنیای واقعی و نحوه به کارگیری علم داده برای آنها باشیم. موسسه ملی استاندارد و فناوری اروپا این فرآیند را شامل چهار مرحله زیر می داند :
جمع آوری داده: گردآوری داده و ذخیره آن به شکل خام از منابع داده ای موجود در سازمان ها، شرکت ها، بنگاه های اقتصادی، بیمارستان ها و غیره.
پیش پردازش داده: تمام فرآیندی که برای تبدیل داده خام به داده های پاکسازی شده و بدون خطاهای ابتدایی و سازمان یافته لازم است.
تحلیل و مدل سازی: تکنیک های استخراج و مدل سازی داده از داده های ساخت یافته و نظام مند.
اعمال دانش: آماده کردن دانش تولید شده برای استفاده در کسب و کار
این چهار مرحله بسیار کلی بوده و نیاز به موشکافی و جزئیات بیشتری دارد بنابراین اگر بخواهیم به صورت دقیق تر و جزئی تر به این فرآیند نگاه کنیم، مراحل زیر را در فرآیند علم داده و استخراج دانش باید پیش بگیریم :
تعریف مساله و مشکل موجود در حوزه کسب و کار: جمله مشهوری از انیشتین را نقل می کنیم «هر چیزی باید ساده شود اما نه ساده تر از آنچه لازم است». این اصل طلایی در مواجهه با مشکلات و نیازمندیهای کسب و کار هم باید لحاظ شود. مساله و مشکلی که برای یک کسب و کار بوجود آمده است را باید به دقت بررسی و مستند نمود بخصوص شرایط موفقیت از دید صاحبان بنگاه برای راه حل های پیشنهادی باید مشخص و شفاف باشد. پرسنل موجود آن شرکت به حد کافی مشغله کاری دارند و باید شخصی با نگاه بیرون از سازمانی، از طریق مصاحبه، طوفان فکری، کارگاه های خلاقیت و آموزش، چالش های آنها را شناسایی و آنها را مستند نموده، تایید و نظر نهایی کارفرما را اخذ کند. فرض کنید یک شرکت مخابراتی با کاهش درآمد سالیانه مواجه شده است. چالش این شرکت باید این گونه شناسایی و مستند شود: شرکت نیاز به افزایش مشتریان خود از طریق شناسایی بازارهای هدف جدید و کاهش نرخ خروج از خدمات را دارد.
تجزیه مساله به ریزکارهای یادگیری ماشین: زمانی که مشکل حوزه کسب و کار به خوبی شناسایی شد، باید آنرا به رهیافت های مختلفی که در یادگیری ماشین در مواجهه با مسائل می توان در پیش گرفت، تقسیم کرد. به هر کدام از این رهیافت ها، یک ریزکار می گوییم (Task) هر ریزکار یک وظیفه خاص را برعهده دارد مثلا مساله قبل را می توانیم به دو ریزکار زیر تجزیه کنیم:
1-کاهش نرخ خروج مشتریان تا X درصد 
 2-  شناسایی مشتریان بالقوه
پیش پردازش داده: زمانی که فهمیدیم به دنبال چه هستیم، باید داده هایی که نیاز داریم را جمع آوری و سپس پاک سازی کنیم. منظور از پاک سازی هم یکنواخت کردن داده ها، حذف داده های نامعتبر، تغییر نوع داده ها و مانند آن است که باعث افزایش کیفیت و یک دست شدن داده ها می گردد.
تحلیل اکتشافی داده ها: قبل از انتخاب الگوریتم نهایی برای هر ریزکار، بهتر است با داده ها بیشتر آشنا شویم و با بررسی های مختلف، سعی در فهم مختلف آنها داشته باشیم. این فرآیند باعث کشف الگوهای جدید در داده ها و نیز شناسایی و درک بهتر آنها برای انتخاب الگوریتم مناسب نهایی خواهد بود.
انتخاب الگوریتم نهایی و مدل سازی داده ها: در این مرحله، به ازای هر ریزکار مشخص شده، الگوریتم های مختلف متناظر با آن را بررسی و با توجه به حوزه کار و داده های موجود و خصوصیات آنها، بهترین الگوریتم رابرای ساخت مدل انتخاب می کنیم. مانند الگوریتم جنگل تصادفی، درخت تصمیم ، رگرسیون و مانند آن.
ارزیابی و تحویل مدل / پایش مداوم: بعد از ساخت مدل و ارزیابی آن و تنظیم پارامترها، مدل ساخته شده را در کسب و کار به کار می گیریم و به صورت مداوم هم، نتیجه کار را بررسی می کنیم تا اگر مشکل یابی دقتی در مدل در دنیای واقعی مشاهده شد، به سرعت آنرا برطرف سازیم.
امروزه در دنیا، اکثر صاحبان مشاغل و بنگاه های اقتصادی اعم از کوچک و بزرگ با استفاده از علم داده و کاربردهای آن سعی در برتری جویی در اقتصاد دارند و استفاده هر چه بیشتر این علم به چابک تر شدن آنها در مواجهه با بحران ها و مشکلات کمک قابل ملاحظه ای کرده است. در کشور ما نیز بنگاه های بزرگ به استفاده از این علم روی آورده اند و دیگر بنگاه ها نیز به سوی آن پیش می روند. هر جا که داده ای وجود دارد می توان از از مزایای علم داده بهره مند شد. نخستین قدم برای صاحبان مشاغل، سازمان ها و شرکت ها، ذخیره و نگهداری هر چه بیشتر انواع داده های موجود در مجموعه آنها است تا در گام بعدی اقدام به استفاده از آنها نمایند. متخصصان علوم داده می توانند در نقش مشاوران هدفمند، مدیران شرکت ها و سازمان ها در اقدامات عملی و بهره مندی از علم داده یاری رسانند. اگر شما مدیر و یا صاحب کسب و کاری هستید، آیا تا به حال به فکر استفاده از مزایای علم داده بوده اید؟

علم داده چیست؟

علم داده چیست؟


نیما کریمی
اینستاگرام : drnikarimi
وب سایت: nikarimi.ir

برای این مطلب تا کنون نظری ثبت نشده‌ است.
0 / 200
  • نظر شما پس از بررسی و تایید منتشر خواهد شد.
  • لطفا از بکاربردن الفاظ رکیک، توهین و تهمت به اشخاص حقیقی و حقوقی خودداری کنید.

آخرین خبرها