چکیده :

هدف از تشخیص گفتار که در متون علمی بیشتر با نام بازشناسی گفتار شناخته شده‌است، طراحی و پیاده‌سازی سیستمی است که اطلاعات گفتاری را دریافت و متن و فرمان گوینده را استخراج می‌کند. فناوری بازشناسی گفتار به رایانه‌ای که توانایی دریافت صدا را دارد (برای مثال به یک میکروفن مجهز است) این قابلیت را می‌دهد که گفتار کاربر را متوجه شود. این فناوری در تبدیل گفتار به متن و یا به عنوان جایگزینی برای صفحه کلید یا ماوس برای وارد کردن دستورات مورد استفاده قرار می‌گیرد. سیستم‌های واکافت کننده گفتار انواع مختلفی دارند، بعضی قادرند گفتار پیوسته را شناسایی نمایند، بعضی دیگر فقط می‌توانند گفتار گسسته (که بین کلمات سکوت وجود دارد) را شناسایی کنند. همچنین سیستم‌ها قادرند واژگان گفته شده توسط افراد مختلف و یا فقط توسط یک گوینده تشخیص دهند. بهر حال ایده‌آل‌ترین سیستم آن است که بتواند گفتار پیوسته غیر وابسته به گوینده را در محیط نویزی شناسایی نماید. این سیستم‌ها با بکار گیری روش‌های مختلف طبقه بندی و شناسایی الگو قادرند به تشخیص واژگان هستند که البته برای افزایش دقت در شناسایی از یک فرهنگ لغات نیز در انتهای سیستم استفاده می‌شود. روشهایی مانند Hidden Markov Model یا Neural Network در بسیاری از سیستم‌های تشخیص گفتار مورد استفاده قرار می‌گیرند و در بخش‌های انتهایی سیستم از هوش مصنوعی کمک گرفته می‌شود.

مدل‌های زبانی و پردازش زبان‌های طبیعی برای بسیاری از کاربردها مانند تشخیص گفتار، TTS،ترجمه، OCR و پیدا نمودن خطاهای تایپی، مدلهای زبانی از مهمترین ابزارهای مورد نیاز می‌باشد.

برقراری ارتباط گفتاری با کامپیوترها به جای استفاده از صفحه کلید و ماوس یکی از زمینه‌های تحقیقاتی مهم چند دهه‌ی اخیر بوده است و شرکت‌های بزرگی چون IBM، ALIT، Philips و Microsoft سالانه هزینه‌های هنگفتی را برای این منظور پرداخت کرده و می‌کنند. به عنوان یک کاربر کامپیوتر، احتمالاً با قابلیت گفتاری مجموعه آفیس به عنوان یکی از ویژگی‌های جذاب و تا حدی فانتزی برخورد کرده و یا با آن کار کرده‌اید. به کمک این قابلیت شما به جای استفاده از صفحه کلید برای تایپ مطالبتان، به راحتی با خواندن متن مورد نظر و انتقال گفتارتان به کمک یک میکروفون معمولی به کامپیوتر، آنرا در محیط Word تایپ شده می‌بینید. حتی برای ذخیره کردن، کپی کردن، گذاشتن عکس در متن و . . .  به جای کلیک‌های پشت سر هم و گاهی با تعداد بالا، می‌توانید فرمان مربوطه را به کمک گفتار به نرم‌افزار داده تا کار شما را انجام دهد. جدای از اینکه توانایی درست کارکردن این قابلیت آفیس چقدر باشد، یک محدودیت بزرگ در سر راه استفاده از آن برای ما ایرانیان وجود دارد: این قابلیت فقط برای زبان انگلیسی است. (البته زبان‌های چینی یا ژاپنی را نیز می‌توان استفاده کرد!).

ایجاد چنینی سیستمی که آنرا تشخیص یا بازشناسی گفتار (Speech recognition) می‌نامند، در زبان فارسی، چندین سال از تحقیقات محققان، اساتید و دانشجویان دانشگاه‌های مختلف کشور را به خود اختصاص داده است. اما جدی‌ترین جهشی که در حدود ده سال پیش در این زمینه ایجاد شد، ایجاد دادگان گفتاری فارس‌دات و یک سیستم اولیه تشخیص گفتار فارسی در مرکز هوشمند علائم بوده است. در ادامه و در طی یکی-دو سال اخیر، مهم‌ترین دستاورد در این تکنولوژی برای زبان فارسی، سیستم‌های تشخیص گفتار شرکت عصرگویش پرداز است. این شرکت که توسط گروهی از اساتید و دانشجویان دانشگاه صنعتی شریف ایجاد شده است، تنها فعالیت تخصصی خود را در زمینه پردازش سیگنال گفتار و بویژه تشخیص‌خودکار آن قرار داده است و نرم‌افزارهایی را برای انجام کار تشخیص خودکار گفتار توسعه داده است. نرم‌افزار نویسا که برای دیکته خودکار می‌باشد و نرم‌افزار نیوشا که جهت تشخیص گفتار از پشت خط تلفن توسعه داده شده است، از دستاوردهای آنهاست. از نظر فنی، معیارهایی چون وابسته یا متعلق بودن به گوینده سیستم، اندازه و تعداد واژگان، پیوسته یا گسسته بودن گفتار ورودی، استفاده از محدودیت‌های زبانی و کارایی در محیط‌های واقعی توانمندی سیستم‌های تشخیص گفتار را مشخص می‌کند. در کاربردهایی مانند تشخیص گفتار تلفنی، اطن سیستم لزوماً باید مستقل از گوینده باشند اما سیستم دیکته می‌تواند وابسته به گوینده خاص باشد و برای آن گوینده سیستم بهترین کارایی را داشته باشد. در کاربردهای واقعی معمولاً سیستم را مستقل از گوینده می‌سازند و موقع استفاده به صدای گوینده خاصی آنرا اصطلاحاً تطبیق می‌کنند. این کار در قابلیت گفتاری مجموعه آفیس به کمک خواندن متون اولیه در ویزارد سیستم انجام می‌شود، چنین قابلیتی در سیستم نویسا نیز وجود دارد. هر چه تعداد واژگانی که سیستم می‌تواند تشخیص دهد بیشتر باشد، شباهت میان کلمات بیشتر شده و در نتیجه کارایی سیستم به ‌علت افزایش اشتباهات کاهش پیدا می‌کند. از اینر‌رو در کاربرداهای واقعی معمولآً فقط واژگان متناسب با کاربرد  مورد نظر را انتخاب می‌کنند تا محدود شود. در قابلیت گفتاری آفیس هم که ادعا می‌شود اکثر کلمات انگلیسی را دارد، کارایی به شدت پایین است (کارایی پایین آن به علت این است که ما غیرانگلیسی زبان هستیم!) ولی در محصولات محدودتر این شرکت کارایی به مراتب بهتر است. گفتار کاربر می‌تواند پیوسته و طبیعی و یا با مکث میان کلمات همراه باشد، بدیهی است که حالت اول مطلوب هرکاربری است. یکی از مشکلاتی که محصولات نویسا و نیوشا تا حدی زیادی آن را حل کرده‌اند، استخراج و به‌کارگیری قابلیت‌های زبانی، زبان فارسی در حد نسبتاً کاملی است. این اطلاعات زبانی می‌تواند در سایر نرم‌افزارهایی که نیاز به اطلاعات زبانی دارند، مانند مترجم‌ها و نرم‌افزارهای OCR نیز بکار گرفته شود. اثر صداهای اضافی و ناخواسته در کاربردهای واقعی نرم‌افزارهای تشخیص گفتار را در عمل دچار افت شدید کارایی می‌نماید، در محصولات فارسی ارائه شده با رویکردهای مختلفی این نقصان تا حد زیادی جبران شده است. برخی از محصولات مشتق شده از نرم‌افزارهای تشخیص گفتار فارسی نویسا و نیوشا که در حال حاضر توسعه داده شده‌اند، بصورت زیر است:

تعداد صفحات : 17

فرمت فایل : word ( قابل ویرایش ) میباشد.

توجه : این فایل با بهترین کیفیت قابل پرینت میباشد.