دانلود ترجمه مقاله کاوش در داده های بزرگ با استفاده از رایانش موازی
عنوان فارسی |
کاوش در داده های بزرگ با استفاده از رایانش موازی: مقایسه ای میان روش توزیع شده و روش نگاشت کاهشی |
عنوان انگلیسی |
Big data mining with parallel computing: A comparison of distributed and MapReduce methodologies |
کلمات کلیدی : |
  داده های بزرگ؛ داده کاوی؛ پردازش موازی؛ پردازش توزیع شده؛ رایانش ابری؛ نگاشت کاهشی |
درسهای مرتبط | مهندسی کامپیوتر؛ هوش مصنوعی؛ داده کاوی |
تعداد صفحات مقاله انگلیسی : 10 | نشریه : ELSEVIER |
سال انتشار : 2016 | تعداد رفرنس مقاله : 24 |
فرمت مقاله انگلیسی : PDF | نوع مقاله : ISI |
پاورپوینت :
ندارد سفارش پاورپوینت این مقاله |
وضعیت ترجمه مقاله : انجام شده و با خرید بسته می توانید فایل ترجمه را دانلود کنید |
1. مقدمه 2. بررسی ادبیات پژوهشی 2.1. داده کاوی توزیع شده 2.2. داده کاوی مبتنی بر نگاشت کاهشی 3. روش های کاوش در داده های بزرگ 3.1. روش پایه برای کاوش در داده های بزرگ 3.2. روش توزیع شده برای کاوش در داده های بزرگ 3.3. کاوش در داده های بزرگ براساس روش نگاشت کاهشی 4. آزمایش ها 4.1. راه اندازی آزمایشی 4.2. نتایج تجربی برای دسته بندی دو کلاسه ی مجموعه داده ها 4.2.1. نتایج بدست آمده از مجموعه داده ی breast cancer (سرطان سینه) 4.2.2. نتایج بدست آمده از مجموعه داده ی protein homology (تقارن پروتئین) 4.3. نتایج تجربی برای دسته بندی چند کلاسه ی مجموعه داده ها 4.3.1. نتایج بدست آمده از مجموعه داده ی covertype 4.3.2. نتایج بدست آمده از مجموعه داده ی person activity 4.4. مقایسه های بیشتر 5. نتیجه گیری
مقدمه: به عنوان نتیجه ای از محبوبیت و پیشرفت حاصل شده در زمینه وب و فناوری اطلاعات، می توان به مقادیر عظیم داده هایی اشاره کرد که در زندگی روزمره ما تولید می شوند. روزانه حجم زیادی از اطلاعات (پتابایت ها داده) ثبت می شود. واضح است که دوران داده های بزرگ فرا رسیده است (Mayer-Schonberger and Cukier, 2014). علاوه بر اندازه داده (برای مثال حجم)، داده های بزرگ دارای ویژگی های دیگری نیز هستند؛ مانند تنوع و سرعت. تنوع بدین معنی است که داده های بزرگ می توانند از طیف وسیعی از داده های ساختار یافته و غیر ساختار یافته تشکیل شده باشند؛ و سرعت اشاره دارد به اینکه در داده های بزرگ نیاز است تا پردازش و تجزیه و تحلیل به صورت بلادرنگ انجام شود (Fernandez et al., 2014). در نتیجه تجزیه و تحلیل داده های بزرگ با استفاده از تکنیک های یادگیری ماشین و داده کاوی به یک مسأله تحقیقاتی مهم تبدیل شده است (Rajaraman and Ullman, 2011; Wu et al., 2014; Zhou et al., 2014). با استفاده از روش ها و ابزارهای نرم افزاری فعلی، مدیریت کاوش در داده های بزرگ یا مدیریت کاوشِ داده های بزرگ، به دلیل اندازه و پیچیدگی های گسترده داده های بزرگ، بسیار دشوار است (Fan and Bifet, 2012). به عبارت دیگر استفاده از یک کامپیوتر شخصی (PC) برای اجرای داده کاوی بر روی مجموعه داده های بزرگ، نیاز به هزینه های محاسباتی بالایی دارد. به منظور تجزیه و تحلیل داده های بزرگ، لازم است از محیط های محاسباتی قوی تری استفاده شود. براساس پژوهش Wu و همکارانش (2014) راه حل های ارائه شده برای مسأله کاوش در مجموعه داده های با ابعاد بزرگ می تواند براساس پلت فرم های محاسبات موازی و محاسبات ابری انجام شود. در اصل، محاسبات موازی تمرکز دارند بر روی تقسیم مسأله موردنظر (مسأله بزرگ) به مسائل کوچک تری (برای مثال محاسبه ) که تمام آنها توسط یک پردازنده ولی به صورت جداگانه انجام می شود؛ به طوریکه یک محاسبات متشکل است از تعدادی محاسبات دیگر در یک سیستم توزیع شده یا موازی (Gottlieb and Almasi, 1989). این امر منجر به ایجاد برخی مسائل تحقیقاتی در زمینه داده کاوی توزیع شده (Zheng et al., 2012) و یادگیری ماشین توزیع شده (Peteiro-Barral and Guijarro-Berdinas, 2013) می شود. به طور خاص از دیدگاه پارادایم موازی داده، که در این مقاله روش توزیع شده نامیده می شود، برای پردازش مجموعه داده های مقیاس بزرگ می توان از این روش استفاده نمود. در پارادایم موازی داده ها، مجموعه داده های مقیاس بزرگ در میان تعدادی از پردازنده ها تقسیم می شوند؛ هر یک از این پردازنده ها محاسبات مشابهی (یا الگوریتم کاوش) را برای بخش مشخص شده (یا زیرمجموعه مشخص شده) اجرا می کنند (Zaki, 2000).
Introduction: As a consequence of the popularity and advancement of related web and information technology, massive amounts of data are produced in our daily life. Large volumes of information, petabytes of data, are recorded every day. Clearly, the era of big data has arrived (Mayer-Schonberger and Cukier, 2014). In addition to the data size (i.e. volume), big data has other characteristics, such as variety and velocity. The former means that big data can be composed of a wide variety of structured, semi-structured, and unstructured data whereas the latter refers to the requirement of real-time processing and analysis (Fernandez et al., 2014). As a result, big data analytics by machine learning and data mining techniques has become an important research problem (Rajaraman and Ullman, 2011; Wu et al., 2014; Zhou et al., 2014). Mining with big data or big data mining is very hard to manage using the current methodologies and data mining software tools due to their large size and complexity (Fan and Bifet, 2012). In other words, using a single personal computer (PC) to exe-cute the data mining task over large scale datasets requires very high computational costs. It is necessary to use more powerful computing environments to efficiently process and analyze big data. According to Wu et al. (2014), the solutions for the problem of mining large scale datasets can be based on the parallel and cloud computing platforms. In principle, parallel computing focuses on dividing the chosen (large) problem into smaller ones, each of which (i.e. calculation) is carried out by one single processor individually, so that a computation composed of a number of calculations is performed concurrently in a distributed and parallel manner (Gottlieb and Almasi, 1989). This leads to some research issues for distributed data mining (Zheng et al. , 2012 ) and distributed ma- chine learning (Peteiro-Barral and Guijarro-Berdinas, 2013 ). Specifically, from the data point of view, the data parallelism paradigm, called the distributed methodology in this paper, can be considered for processing large scale datasets. In data parallelism, the large scale dataset is partitioned among a number of processors, each of which executes the same computation (or mining algorithm) over a designated partition (or subset) ( Zaki, 20 0 0 ).
محتوی بسته دانلودی:
PDF مقاله انگلیسی ورد (WORD) ترجمه مقاله به صورت کاملا مرتب
دیدگاهها
هیچ دیدگاهی برای این محصول نوشته نشده است.