شکل ۲- ۷ (a) نتیجه درون­یابی منیفلد (b) نمونه گیری دوباره از منیفلد درون­یابی شده با ۲۰ نقطه کلیدی
۲- ۸ تبدیل کسینوسی گسسته
تبدیل کسینوسی از روش­های مبتنی بر تصویر است که علاوه بر استخراج ویژگی از تصاویر، برای فشرده­سازی تصویر نیز کاربرد دارد. در ویدیو، برای حرکت لب این تبدیل ساختاری سه بعدی دارد. با فرض ویژگی­های حرکتی[۴۹] لب از تبدیل کسینوسی گسسته ((DCT سه بعدی برای استخراج ویژگی استفاده شده است[۲۰] .

( اینجا فقط تکه ای از متن فایل پایان نامه درج شده است. برای خرید متن کامل پایان نامه با فرمت ورد می توانید به سایت feko.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. )

۲- ۸- ۱ مدل­سازی بر اساس DCT ۳-D
برای محاسبه DCT سه بعدی می­توانیم از ترکیب سه DCT یک بعدی استفاده کنیم.
X(l,m,n) =
رابطه (۲- ۳۳)
که x(i ,j ,k) مقدار پیکسل واقع شده در مختصات i, j, k را در ویدیو نشان می­دهد.
Cli .Cmj . Cnk = cos[ ( i + 1/2)l ] cos[ ( j + 1/2)m ] cos[ (k + 1/2)n ]
رابطه (۲- ۳۴)
از ساختار مدل مخفی مارکوف سه بعدی استفاده شده است. احتمال گذر حالت­ها و سایر احتمال­ها محاسبه شده و از الگوریتم ویتربی[۵۰] برای شناسایی استفاده شده است.
کار بر روی پایگاه داده VidTIMIT انجام گرفته و ۱۸ نفر برای آموزش و ۵ نفر برای آزمایش انتخاب شدند. ۳۱ ضریب تبدیل کسینوسی گسسته که l+ m + n ≤ ۳ را برآورده می­ کند را، از مکعب­های ۸×۸×۸، به عنوان بردار ویژگی در نظر گرفته­اند. در [۲۱] از اطلاعات حرکت لب برای شناسایی صحبت استفاده شده که در ادامه بیان شده است.
۲- ۸- ۱-۱ استخراج ویژگی حرکت لب
برای این منظور مراحلی چون پیش پردازش، تخمین حرکت لب، جداسازی زمانی، جداساز بیزین[۵۱] انجام می­ شود. دو روش استخراج ویژگی حرکت بر اساس شبکه[۵۲] و بر اساس کانتور بیان شده است.
۲- ۸- ۱- ۲ استخراج ویژگی حرکت مبتنی بر شبکه
شبکه­ ای به اندازه Gx × Gy روی ناحیه لب استخراج شده از تصویر در نظر گرفته می­ شود. برای تخمین حرکت لب از تطبیق بلوکی سلسله مراتبی استفاده شده است. فرایند تخمین حرکت، ماتریس­های دو بعدی Vx ,Vy که شامل مؤلفه­ های x , y از بردارهای حرکت در نقاط شبکه است را ایجاد می­ کند. از این ماتریس­ها به صورت مجزا تبدیل کسینوسی گسسته دو بعدی گرفته می­ شود. M ضریب اول DCT در طول مرحله پویش شکسته[۵۳] یا همان اسکن زیگزاگ، در دو جهت x , y برای تشکیل بردار ویژگی f از بعد ۲M ترکیب می­شوند. این بردار ویژگی حرکت شبکه متراکم را نمایش می­دهد و به عنوان fGRD معرفی می­ شود. در شکل (۲- ۸) نشان داده شده است. این تبدیل دو فایده دارد. اولین فایده این است که بعد ویژگی­ها را با حذف مؤلفه­ های فرکانس بالا از سیگنال حرکت کاهش می­دهد که این مؤلفه­ های به خاطر نویز ایجاد می­شوند. دومین فایده این است که DCT بردار ویژگی را نا­همبسته می­سازد.

شکل ۲- ۸ نمودار بلوکی برای استخراج ویژگی­های حرکت مبتنی بر شبکه
fGRD = { fx1 , fy1 , fx2 , fy2,……, fxM , fyM}
۲- ۸- ۱ – ۳ استخراج ویژگی حرکت مبتنی بر کانتور
در این روش بردارهای حرکت روی پیکسل­های کانتور لب محاسبه می­شوند. دو دنباله از مؤلفه­ های حرکت x , y روی کانتور به صورت جداگانه با DCT یک بعدی تبدیل می­شوند. طول دنباله­ی نتیجه در هر جهت، از یک فریم به دیگری مطابق با تغییر شکل لب ممکن است تغییر کند. برای دستیابی به بردار ویژگی با اندازه ثابت قبل از تبدیل، طول دنباله به مقدار ثابتی توسط درون­یاب خطی نرمالیزه می­ شود. این مقدار Mmax، ماکزیمم تعداد نقاط کانتور به دست آمده در هر فریم لب از دنباله موجود می­باشد. ضرایب DCT به صورت مجزا برای x , y محاسبه می­ شود و در نهایت برای تشکیل بردار ویژگی که fCTR تعریف می­ شود به یکدیگر الحاق می­شوند. شکل (۲- ۹) این فرایند را نشان می­دهد.
شکل ۲- ۹ استخراج ویژگی حرکت مبتنی بر کانتور
FCRT = { fx1 , fy1 , fx2 , fy2,……, fxMmax , fyMmax}
۲-۸-۲ استخراج ویژگی از ناحیه مورد نظر
در [۲۲] ابتدا از مجموعه تصاویر صورت آشکار شده و سپس ناحیه شامل دهان استخراج شده و ویژگی از این ناحیه به دست آمده است. بعد از اینکه ناحیه مورد نظر[۵۴] استخراج و سایز تصاویر به ۴۸*۴۸ تغییر داده شده و اثر ۴ ناحیه مختلف بر روی دقت شناسایی بررسی شده است.
این نواحی توسط چهار پردازش مختلف روی تصویر به دست آمده اند. ناحیه اول که تصویر سطح خاکستری نرمالیزه شده از تصویر اصلی می­باشد و ناحیه دوم از اعمال تبدیل [۵۵] Fisher به تصویر اصلی و ناحیه سوم و چهارم به ترتیب از اعمال آشکار ساز لبه سوبل[۵۶] به ناحیه دوم و باینری کردن[۵۷] ناحیه دوم حاصل شده ­اند. که ناحیه اول توسط رابطه زیر نرمالیزه شده است.
رابطه (۲-۳۵)

شکل ۲-۱۰ تصویر اصلی و چهار ناحیه پردازش شده برای استخراج ویژگی
۲-۸-۲-۱ استخراج ویژگی­های دیداری
تبدیل کسینوسی گسسته برای محاسبه بردار ویژگی از این نواحی صورت گرفته است که دلیل استفاده از این روش به خاطر فشرده­سازی زیاد انرژی سیگنال ورودی بر روی تعداد کمی از ضرایب و نیز قابلیت پیاده­سازی سریع این تبدیل می­باشد. بعد از گرفتن تبدیل کسینوسی با اسکن زیگزاگ ماتریس ضرایب به برداری تبدیل که با انتخاب چند ضریب اول از این بردار که بیشینه انرژی تصویر را نشان می­ دهند بردار ویژگی استخراج شده است. شناسایی توسط CHMM که مجموعه ­ای با ۳ حالت و ۳ ترکیب گوسی بر حالت می­باشد انجام شده است. در این کار از ۱۰ گوینده که شامل ۸ مرد و ۲ زن می­باشد که ۸۱ کلمه چینی را ۴ مرتبه تکرار کرده­اند و با نرخ ۲۵ فریم بر ثانیه ضبط شده و سایز
تصاویر ۲۴۰*۳۲۰ می­باشد استفاده شده است. ابعاد ضرایب کسینوسی از ۲۹ تا ۱۲۹ با گام۱۰ تغییر داده شده و هر بار به ازای تعداد مشخصی از ضرایب و برای ناحیه­ای از ۴ ناحیه ذکر شده در بالا، دقت شناسایی محاسبه شد.
۲-۸-۳ تبدیل کسینوسی و LSDA[58]
در [۲۳] یک روش جدید برای استخراج ویژگی برای لب­خوانی ارائه شده است. تبدیل کسینوسی همراه با LSDA بکار گرفته شده و با دو روش دیگر DCT + PCA , DCT + LDA مقایسه شده است.
۲-۸-۳-۱ پیش پردازش
قبل از ورود به مرحله استخراج ویژگی ابتدا باید ویدیو به بخش­های کلمه تقسیم ­بندی و سپس ناحیه مورد نظر از فریم­های ویدیو گرفته شود.
۲-۸-۳-۲ روش DCT
بعد استخراج ناحیه دهان از تصاویر صورت، سایز تصاویر به ۶۴ * ۴۸ تغییر داده و تبدیل DCT گرفته شده و ضرایب گوشه چپ و بالای ماتریس به عنوان ضرایب مهم کسینوسی انتخاب شده ­اند.
۲-۸-۳-۳DCT + PCA
آنالیز مؤلفه­ های خاص یک روش غیر نظارتی است که میانگین مربع خطا را می نیمم می­ کند که از این حیث تبدیلی بهینه است. در این روش بعد از اعمال تبدیل کسینوسی به تصویر و انتخاب ضرایب کسینوسی مهم آن­ها را به عنوان ورودی به PCA داده تا کاهش بعد صورت گیرد. که عملکرد این دو روش به همراه هم بهتر از تبدیل کسینوسی به تنهایی می­باشد.
۲-۸-۳-۴ DCT + LDA
آنالیز مجزا­ساز خطی روشی بر اساس ماتریس­های پراکندگی[۵۹] درون کلاس­ها Sw و ماتریس پراکندگی بین کلاس­ها Sb می­باشد. که به یافتن ماتریس تبدیلی که ماتریس پراکندگی بین کلاس­ها را ماکزیمم و ماتریس پراکندگی درون کلاس­ها را می­نیمم می­ کند کمک می­ کند.
رابطه (۲-۳۶)
رابطه (۲-۳۷)
رابطه (۲-۳۸)

موضوعات: بدون موضوع  لینک ثابت


فرم در حال بارگذاری ...