مقاله انگلیسی ترجمه شده کامپیوتر: تعیین هویت گوینده مستقل از متن، توسط مدل های مخلوط گاوس ساختاری و شبکه های عصبی

سال نشر: ۲۰۱۳

تعداد صفحه انگلیسی:۱۰

تعداد صفحه ترجمه فارسی:    ۲۶     صفحه word

(دانلود رایگان مقاله انگلیسی)

کد محصول:CM28

عنوان فارسی:

مقاله انگلیسی ترجمه شده کامپیوتر: تعیین هویت گوینده مستقل از متن، توسط مدل های مخلوط گاوس مدل گاورسساختاری و شبکه های عصبی

 

عنوان انگلیسی:

Efficient Text-Independent Speaker Verification with Structural Gaussian Mixture Models and Neural Network

چکیده فارسی:

چکیده – ما سیستم یکپارچه ای  را در ارتباط با مدل های مخلوط  گاوس ساختاری (SGMM) و شبکه های عصبی به منظور دستیابی به راندمان محاسباتی و دقت بالا در ارتباط با تعیین هویت گوینده ارائه می دهیم. مدل پس زمینه ساختاری (SBM) در ابتدا از طریق خوشه بندی زنجیره ای تمام موئلفه های مخلوط گاوس در ارتباط با مدل پس زمینه ساختاری ایجاد می گردد. به این ترتیب، یک فضای اکوستیک به بخش های چندگانه ای در سطوح مختلف قدرت تشخیص، جزء بندی می گردد. برای هر یک از گوینده های مورد نظر، مدل مدل مخلوط  گاوس ساختاری (SGMM) از طریق استدلال حداکثری (MAP) سازگار با مدل پس زمینه ساختاری (SBM) ایجاد می گردد. در هنگام تست، تنها زیرمجموعه کمی از موئلفه های مخلوط گاوس برای هر بردار مختصات محاسبه می گردد تا هزینه محاسبه را به طور قابل توجهی کاهش دهد. علاوه بر این، امتیازات حاصل شده در لایه های مدل های درخت ساختار، برای تصمیم گیری نهایی از طریق شبکه عصبی ادغام می گردند. وضعیت های مختلفی در بررسی های انجام شده بر روی داده های حاصل از گفتگوهای تلفنی مورد استفاده در ارزیابی هویت گوینده NIST ، مقایسه شد. نتایج تجربی نشان می دهد که کاهش محاسبه توسط فاکتور ۱۷ از طریق ۵% کاهش نسبی در میزان خطای هم ارز (EER) در مقایسه با خطو مبنا، حاصل می گردد. روش SGMM-SBM (مدل مخلوط  گاوس ساختاری- مدل پس زمینه ساختاری)، مزایایی را نسبت به  مدل اخیرا مطرح شده GMM (مدل مخلوط گاوس) داشته، که شامل سرعت بالاتر و عملکرد تشخیص بهتر، می باشد.

کلیداژه: خوشه بندی گاوس، شبکه عصبی، تعیین هویت گوینده، مدل مخلوط گاوس ساختاری

  1. مقدمه

تحقیقات بر روی تشخیص گوینده که شامل تعیین هویت و تطبیق موارد می باشد به عنوان یک مورد فعال برای چندین دهه به شمار آورده می شود. هدف این می باشد تا تجهیزانت داشته باشیم که به صورت اتوماتیک فرد خاصی را تعیین هویت کرده یا فرد را از طریق صدای او تشخیص دهیم. بنابر روش های زیست سنجی، تشخیص صدای افراد می تواند در بسیاری از موارد همانند، شبکه های امنیتی، تراکنش های تلفنی و دسترسی به بخش ها کاربرد داشته باشد. گوینده ها به دو گروه تقسیم می شوند.گوینده های هدفمند و گوینده های غیرهدفمند. تعیین هویت و تایید آن براساس کاربرد های متنی و غیر متنی افراد با توجه به جملات و کلماتی که بیان می کنند می باشد. هدف اصلی این مقاله بر مبنای تعیین هویت افراد به صورت مستقل می باشد.

مدل مخلوط گاوس (GMMs) اخیرا به عنوان یک روش برتر در تشخیص صدای افراد شناخته شده است. یکی از ویزگی های اصلی این سیستم توانایی آن برای ایجاد روش های تقریبی برای شکل دادن تراکم ها می باشد. اگرچه در ارتباط با کاربردهای متنی، مدل مخفی مارکو، با توجه به ادغام اطلاعات دارای مزایایی می باشد، ولی مدل GMM بهترین عملکرد را برای تشخیص صدای افراد به صورت دقیق نشان داده است. به هر حال، برای جزییات بیشتر در ارتباط با فضاهای صوتی و دریافت عملکردهای مناسبی ، تعداد موئلفه های مربوط به هر مدل، معمولا بزرگ می باشد به ویژه زمانی که ماتریس کوواریانس قطری مورد استفاده قرار می گیرد. در سیستم های GMM مربوط به تشخیص صدا، معمولا یک مدل عمومی ، با توجه به تعداد زیادی از موئلفه های این مدل بر مبنای اطلاعات مربوط به ساعات گفتگو از گفتارهای غیرهدفمند ایجاد می گردد. سپس مدل GMM با توجه به حداکثر رساندن انطباق های UBM ایجاد می گردد. اگرچه، هزینه محاسباتی بر مبنای انطباق بین UBM و GMM نصف می باشد، ولی مورد نظر قرار دادن تمام اجزا بین UBM برای هر یک از این بررسی ها زمان های مورد نظر را در طی مرحله تشخیص  تحت تسلط دارد.

روش هایی نیز در ارتباط با تشخیص صدا قبل از کاهش محاسبات در مورد این مدل، همانند تخصیص مقادیر مجزا وجود دارد. هر یک از این ویژگی ها با توجه به فرایندهای پله ای  که مرتبط با این مدل می باشد و دارای کدهای خاصی است پارتیشن بندی می گردد. تنها گاوس در این طبقه بندی به طور دقیق مورد محاسبه قرار می گیرد. محاسبات احتمالی به طور قابل توجهی با توجه به فقدان در دقت تشخیص صدا کاهش می یابد. چندین روش که از چندین طرح متفاوت استفاده می کنند این لیست ها را مورد بررسی قرار می دهند که دارای مشترکات قابل توجهی می باشند. در روش هایی که بر مبنای درخت ساختار می باشند، تراکم دارای بازده محاسباتی در تشخیص صداها می باشند. یک درخت ساختار، با توجه به طبقه بندی های از بالا به پایین، در ارتباط با این مدل های متراکم وجود دارد. در این مدل ها، تکنیک هایی مطرح شده است که به پارتیشن بندی این بخش ها به طور زنجیروار می پردازند. هر گره در این مجموعه، یک بخش را مشخص می کند، که بر مبنای به حداکثر رساندن اطلاعات بدست می آیند. این محاسبات که برای ارزیابی این مدل به کار می روند، با استفاده از فاکتور ۲۵ با ۴ درصد کاهش در میزان خطا همراه می باشند.

تمامی حقوق مادی و معنوی ترجمه ها برای پارس ترجمه محفوظ می باشد

تمامی حقوق مادی و معنوی ترجمه ها برای پارس ترجمه محفوظ می باشد