دانلود ترجمه مقاله فرمان های گفتاری: تشخیص گفتار با واژگان محدود
عنوان فارسی |
فرمان های گفتاری: یک مجموعه داده برای تشخیص گفتار با واژگان محدود |
عنوان انگلیسی |
Speech Commands: A Dataset for Limited-Vocabulary Speech Recognition |
کلمات کلیدی : |
  مجموعه داده صوتی؛ واژگان؛ سیستم های تشخیص کلیدواژه؛ تشخیص گفتار |
درسهای مرتبط | مهندسی کامپیوتر |
تعداد صفحات مقاله انگلیسی : 11 | نشریه : arxiv |
سال انتشار : 2018 | تعداد رفرنس مقاله : 27 |
فرمت مقاله انگلیسی : PDF | نوع مقاله : ISI |
پاورپوینت :
ندارد سفارش پاورپوینت این مقاله |
وضعیت ترجمه مقاله : انجام شده و با خرید بسته می توانید فایل ترجمه را دانلود کنید |
1. چکیده 2. مقدمه 3. پژوهش های مرتبط 4. انگیزه ها 5. جمع آوری 6. ویژگی ها 7. ارزیابی 8. نتیجه گیری
چکیده - یک مجموعه داده صوتی [1] از واژگان گفته شده را توصیف می کند که برای کمک به یادگیری و ارزیابی سیستم های تشخیص کلیدواژه طراحی شده است. بیان می کند که چرا این کار یک چالش جالب است و به مجموعه داده تخصصی نیاز دارد که از مجموعه داده های معمولی استفاده شده برای تشخیص خودکار گفتار جمله های کامل متفاوت است. روشی برای سنجش معیارهای دقت قابل بازتولید و قابل مقایسه برای این کار پیشنهاد می کند. نحوه جمع آوری و بررسی داده، محتوای آن، نسخه های قبلی [2] و ویژگی های آنها را بیان می کند. با گزارش نتایج مبنایی مدل های آموزش داده شده روی این مجموعه داده نتیجه گیری می کند. مقدمه: تحقیق در مورد تشخیص گفتار به طور سنتی به پیگیری منابع سازمان های بزرگی مانند دانشگاه ها یا شرکت ها نیاز دارد. کسانی که در آن سازمان های روی این موضوع کار می کنند دسترسی آزاد به مجموعه داده های دانشگاهی از طریق توافق با گروه هایی مانند کنسرسیوم داده های زبانشناختی [3] دارند یا به داده های تجاری تحت مالکیت دسترسی دارند. با بلوغ فناوری گفتاری، تعداد افرادی که می خواهند مدل های تشخیصی را آموزش داده و ارزیابی کنند، بیش از این گروه های سنتی افزایش یافته است، اما دسترسی به مجموعه داده های گسترش نیافته است. همانطور که نمونه ImageNet [4] و مجموعه های مشابه در بینایی کامپیوتر نشان داده است، افزایش دسترسی به مجموعه داده ها همکاری میان گروه ها را تشویق کرده و مقایسه های منطقی میان روش های مختلف را ممکن ساخته به پیشرفت کل حوزه کمک می کند. مجموعه داده فرمان های گفتاری تلاشی است برای ساختن یک مجموعه داده استاندارد آموزشی و ارزیابی برای یک دسته از کارهای تشخیص گفتار ساده. هدف اصلی آن ارائه راهی برای ساختن مدل های کوچک آزمایشی است که تشخیص می دهد یک واژه از مجموعه ای از ده یا تعداد کمتر واژه هدف چه موقع با کمترین خطای مثبت کاذب از نویز زمینه یا گفتار نامربوط گفته شده است. این کار اغلب تشخیص کلیدواژه نامیده می شود. این مجموعه داده با هدف دسترسی گسترده تر مخاطبانی از پژوهشگران و توسعه دهنده ها، تحت مجوز Creative Commons BY 4.0 (مشترکات خلاقانه، یک شرکت غیرانتفاعی است) [5] منتشر شد. این امر امکان می دهد این مجموعه داده به سادگی در آموزش ها و متن های دیگر بدون دخالت کاربر قابل دانلود و استفاده باشد (برای نمونه جهت ثبت روی وبسایت یا ایمیل به یک مدیر برای دریافت مجوز). این مجوز در مجموعه های تجاری بخوبی شناخته شده است و بنابراین معمولاً به سرعت توسط گروه های قانونی در جایی که تاییدیه مورد نیاز باشد، پذیرفته می شود.
Abstract Describes an audio dataset [1] of spoken words de- signed to help train and evaluate keyword spotting systems. Discusses why this task is an interesting challenge, and why it requires a specialized dataset that’s different from conventional datasets used for automatic speech recognition of full sentences. Suggests a methodology for reproducible and comparable accuracy metrics for this task. Describes how the data was collected and verified, what it contains, previous versions [2] and properties. Concludes by reporting baseline results of models trained on this dataset. Introduction: Speech recognition research has traditionally required the resources of large organizations such as universities or corporations to pursue. People working in those organizations usually have free access to either academic datasets through agreements with groups like the Linguistic Data Consortium [3], or to proprietary commercial data. As speech technology has matured, the number of people who want to train and evaluate recognition models has grown beyond these traditional groups, but the availability of datasets hasn’t widened. As the example of ImageNet [4] and similar collections in computer vision has shown, broadening access to datasets encourages collaborations across groups and enables apples-for-apples comparisons between different approaches, helping the whole field move forward. The Speech Commands dataset is an attempt to build a standard training and evaluation dataset for a class of simple speech recognition tasks. Its primary goal is to provide a way to build and test small models that detect when a single word is spoken, from a set of ten or fewer target words, with as few false positives as possible from background noise or unrelated speech. This task is often known as keyword spotting. To reach a wider audience of researchers and developers, this dataset has been released under the Creative Commons BY 4.0 license [5]. This enables it to easily be incorporated in tutorials and other scripts where it can be downloaded and used without any user intervention required (for example to register on a website or email an administrator for permission). This license is also well known in commercial set- tings, and so can usually be dealt with quickly by legal teams where approval is required.
ترجمه این مقاله در 17 صفحه آماده شده و در ادامه نیز صفحه 15 آن به عنوان نمونه قرار داده شده است که با خرید این محصول می توانید، فایل WORD و PDF آن را دریافت نمایید.
محتوی بسته دانلودی:
PDF مقاله انگلیسی ورد (WORD) ترجمه مقاله به صورت کاملا مرتب (ترجمه شکل ها و جداول به صورت کاملا مرتب)
دیدگاهها
هیچ دیدگاهی برای این محصول نوشته نشده است.