شماران سیستم – تکنیک هوش مصنوعی گوگل باعث میشود که خطاهای شناسایی گفتار به میزان 29 درصد کاهش یابد.
امروزه تشخیص گفتار به یکی از چالشهای اصلی و اساسی تبدیل شده است. مدلهای جدید و نو در تشخیص گفتار مانند“EdgeSpeechNet” در اواخر سال گذشته در یک طرح پژوهشی مورد بحث و بررسی قرار گرفت، قابلیت رسیدن به دقت 97 درصدی را دارد. اما مشکل این جاست که گاهی بهترین سیستمها هم روی کلمات کمیاب و غیرمتداول با مشکل مواجه میشود.
به گزارش شماران سیستم به نقل از ونچربیت، دانشمندان گوگل و دانشگاه کالیفرنیا برای اینکه بتوانند مشکلات حاصل از مدلهای مختلف را برطرف کنند، رویکردی را ارائه کردند که بر اساس تصحیح املای کلمات که روی دادههای متنی آموزش داده میشود، کار میکند.
این رویکرد در مقالهای با عنوان «مدل تصحیح املا برای تشخیص گفتار سرتاسری» مطرح شد.
محققان پس از انجام آزمایشهای مختلف با پایگاه داده مدلسازی زبانی 960 ساعته و 800 کلمهای“LibriSpeech” ، تکنیکی ارائه کردند که پیشرفت 18.6 درصد در نرخ خطای کلمات نسبت به مبنا را نشان میدهد. در برخی موارد، 29 درصد از خطاها کم شد.
پژوهشگران این طرح اذعان داشتند: «هدف ما این بود که بتوانیم یک ماژول را که بر اساس دادههای متنی آموزش دیده بود، با هدف اصلاح خطاها حاصل از یک سیستم، در یک چارچوب سرتاسری قرار دهیم.
آنها افزودند: «ما همچنین استفاده از دادههای متنی را برای تولید سیگنالهای صوتی با استفاده از یک سیستم تبدیل متن به گفتار بررسی کردیم که این فرآیند مشابه فرآیند ترجمه بازگشتی در ترجمه ماشینی است.»
بر اساس توضیح نویسندگان مقاله مذکور، خودکارترین سیستمهای تشخیص گفتار، سه مولفه اصلی را آموزش میبینند:
–یک مدل صوتی که رابطه بین سیگنالهای صوتی و واحدهای کلامی تشکیلدهنده گفتار را آموزش میدهد
–یک مدل زبانی که احتمالات را به توالی لغات اختصاص میدهد
–یک مکانیزم که تنظیم چارچوبهای صوتی و علائم شناختهشده را انجام میدهد
تمامی سه مورد مذکور از یک شبکه عصبی و جفتهای صوتی-متنی نوشتهشده استفاده میکند و در نتیجه، وقتی این مدل زبان با کلماتی روبرو میشود که به صورت مرتب تکرار میشود، دچار ضعف عملکرد میشود.