کاهش 29 درصد از خطاهای تشخیص گفتار به کمک هوش مصنوعی

شماران سیستم -  تکنیک هوش مصنوعی گوگل باعث می‌شود که خطاهای شناسایی گفتار به میزان 29 درصد کاهش یابد.

 

 

امروزه تشخیص گفتار به یکی از چالش‌های اصلی و اساسی تبدیل شده است. مدل‌های جدید و نو در تشخیص گفتار مانند“EdgeSpeechNet” در اواخر سال گذشته در یک طرح پژوهشی مورد بحث و بررسی قرار گرفت، قابلیت رسیدن به دقت 97 درصدی را دارد. اما مشکل این جاست که گاهی بهترین سیستم‌ها هم روی کلمات کمیاب و غیرمتداول با مشکل مواجه می‌شود.
به گزارش شماران سیستم به نقل از ونچربیت، دانشمندان گوگل و دانشگاه کالیفرنیا برای اینکه بتوانند مشکلات حاصل از مدل‌های مختلف را برطرف کنند، رویکردی را ارائه کردند که بر اساس تصحیح املای کلمات که روی داده‌های متنی آموزش داده می‌شود، کار می‌کند.
این رویکرد در مقاله‌ای با عنوان «مدل تصحیح املا برای تشخیص گفتار سرتاسری» مطرح شد.
محققان پس از انجام آزمایش‌های مختلف با پایگاه داده مدل‌سازی زبانی 960 ساعته و 800 کلمه‌ای“LibriSpeech” ، تکنیکی ارائه کردند که پیشرفت 18.6 درصد در نرخ خطای کلمات نسبت به مبنا را  نشان می‌دهد. در برخی موارد، 29 درصد از خطاها کم شد.
پژوهشگران این طرح اذعان داشتند: «هدف ما این بود که بتوانیم یک ماژول را که بر اساس داده‌های متنی آموزش دیده بود، با هدف اصلاح خطاها حاصل از یک سیستم، در یک چارچوب سرتاسری قرار دهیم.

 

 

آنها افزودند: «ما همچنین استفاده از داده‌های متنی را برای تولید سیگنال‌های صوتی با استفاده از یک سیستم تبدیل متن به گفتار بررسی کردیم که این فرآیند مشابه فرآیند ترجمه بازگشتی در ترجمه ماشینی است
​​​​​​​بر اساس توضیح نویسندگان مقاله مذکور، خودکارترین سیستم‌های تشخیص گفتار، سه مولفه اصلی را آموزش می‌بینند:
-یک مدل صوتی که رابطه بین سیگنال‌های صوتی و واحدهای کلامی تشکیل‌دهنده گفتار را آموزش می‌دهد
-یک مدل زبانی که احتمالات را به توالی لغات اختصاص می‌دهد
-یک مکانیزم که تنظیم چارچوب‌های صوتی و علائم شناخته‌شده را انجام می‌دهد 
تمامی سه مورد مذکور از یک شبکه عصبی و جفت‌های صوتی-متنی نوشته‌شده استفاده می‌کند و در نتیجه، وقتی این مدل زبان با کلماتی روبرو می‌شود که به صورت مرتب تکرار می‌شود، دچار ضعف عملکرد می‌شود.
 

 

اشتراک در شبکه های اجتماعی