استخراج ویژگی زمانی- فرکانسی جهت شناسایی دیداری مصوت … – منابع مورد نیاز برای مقاله و پایان نامه : دانلود پژوهش های پیشین |
شکل ۲- ۷ (a) نتیجه درونیابی منیفلد (b) نمونه گیری دوباره از منیفلد درونیابی شده با ۲۰ نقطه کلیدی
۲- ۸ تبدیل کسینوسی گسسته
تبدیل کسینوسی از روشهای مبتنی بر تصویر است که علاوه بر استخراج ویژگی از تصاویر، برای فشردهسازی تصویر نیز کاربرد دارد. در ویدیو، برای حرکت لب این تبدیل ساختاری سه بعدی دارد. با فرض ویژگیهای حرکتی[۴۹] لب از تبدیل کسینوسی گسسته ((DCT سه بعدی برای استخراج ویژگی استفاده شده است[۲۰] .
( اینجا فقط تکه ای از متن فایل پایان نامه درج شده است. برای خرید متن کامل پایان نامه با فرمت ورد می توانید به سایت feko.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. )
۲- ۸- ۱ مدلسازی بر اساس DCT ۳-D
برای محاسبه DCT سه بعدی میتوانیم از ترکیب سه DCT یک بعدی استفاده کنیم.
X(l,m,n) =
رابطه (۲- ۳۳)
که x(i ,j ,k) مقدار پیکسل واقع شده در مختصات i, j, k را در ویدیو نشان میدهد.
Cli .Cmj . Cnk = cos[ ( i + 1/2)l ] cos[ ( j + 1/2)m ] cos[ (k + 1/2)n ]
رابطه (۲- ۳۴)
از ساختار مدل مخفی مارکوف سه بعدی استفاده شده است. احتمال گذر حالتها و سایر احتمالها محاسبه شده و از الگوریتم ویتربی[۵۰] برای شناسایی استفاده شده است.
کار بر روی پایگاه داده VidTIMIT انجام گرفته و ۱۸ نفر برای آموزش و ۵ نفر برای آزمایش انتخاب شدند. ۳۱ ضریب تبدیل کسینوسی گسسته که l+ m + n ≤ ۳ را برآورده می کند را، از مکعبهای ۸×۸×۸، به عنوان بردار ویژگی در نظر گرفتهاند. در [۲۱] از اطلاعات حرکت لب برای شناسایی صحبت استفاده شده که در ادامه بیان شده است.
۲- ۸- ۱-۱ استخراج ویژگی حرکت لب
برای این منظور مراحلی چون پیش پردازش، تخمین حرکت لب، جداسازی زمانی، جداساز بیزین[۵۱] انجام می شود. دو روش استخراج ویژگی حرکت بر اساس شبکه[۵۲] و بر اساس کانتور بیان شده است.
۲- ۸- ۱- ۲ استخراج ویژگی حرکت مبتنی بر شبکه
شبکه ای به اندازه Gx × Gy روی ناحیه لب استخراج شده از تصویر در نظر گرفته می شود. برای تخمین حرکت لب از تطبیق بلوکی سلسله مراتبی استفاده شده است. فرایند تخمین حرکت، ماتریسهای دو بعدی Vx ,Vy که شامل مؤلفه های x , y از بردارهای حرکت در نقاط شبکه است را ایجاد می کند. از این ماتریسها به صورت مجزا تبدیل کسینوسی گسسته دو بعدی گرفته می شود. M ضریب اول DCT در طول مرحله پویش شکسته[۵۳] یا همان اسکن زیگزاگ، در دو جهت x , y برای تشکیل بردار ویژگی f از بعد ۲M ترکیب میشوند. این بردار ویژگی حرکت شبکه متراکم را نمایش میدهد و به عنوان fGRD معرفی می شود. در شکل (۲- ۸) نشان داده شده است. این تبدیل دو فایده دارد. اولین فایده این است که بعد ویژگیها را با حذف مؤلفه های فرکانس بالا از سیگنال حرکت کاهش میدهد که این مؤلفه های به خاطر نویز ایجاد میشوند. دومین فایده این است که DCT بردار ویژگی را ناهمبسته میسازد.
شکل ۲- ۸ نمودار بلوکی برای استخراج ویژگیهای حرکت مبتنی بر شبکه
fGRD = { fx1 , fy1 , fx2 , fy2,……, fxM , fyM}
۲- ۸- ۱ – ۳ استخراج ویژگی حرکت مبتنی بر کانتور
در این روش بردارهای حرکت روی پیکسلهای کانتور لب محاسبه میشوند. دو دنباله از مؤلفه های حرکت x , y روی کانتور به صورت جداگانه با DCT یک بعدی تبدیل میشوند. طول دنبالهی نتیجه در هر جهت، از یک فریم به دیگری مطابق با تغییر شکل لب ممکن است تغییر کند. برای دستیابی به بردار ویژگی با اندازه ثابت قبل از تبدیل، طول دنباله به مقدار ثابتی توسط درونیاب خطی نرمالیزه می شود. این مقدار Mmax، ماکزیمم تعداد نقاط کانتور به دست آمده در هر فریم لب از دنباله موجود میباشد. ضرایب DCT به صورت مجزا برای x , y محاسبه می شود و در نهایت برای تشکیل بردار ویژگی که fCTR تعریف می شود به یکدیگر الحاق میشوند. شکل (۲- ۹) این فرایند را نشان میدهد.
شکل ۲- ۹ استخراج ویژگی حرکت مبتنی بر کانتور
FCRT = { fx1 , fy1 , fx2 , fy2,……, fxMmax , fyMmax}
۲-۸-۲ استخراج ویژگی از ناحیه مورد نظر
در [۲۲] ابتدا از مجموعه تصاویر صورت آشکار شده و سپس ناحیه شامل دهان استخراج شده و ویژگی از این ناحیه به دست آمده است. بعد از اینکه ناحیه مورد نظر[۵۴] استخراج و سایز تصاویر به ۴۸*۴۸ تغییر داده شده و اثر ۴ ناحیه مختلف بر روی دقت شناسایی بررسی شده است.
این نواحی توسط چهار پردازش مختلف روی تصویر به دست آمده اند. ناحیه اول که تصویر سطح خاکستری نرمالیزه شده از تصویر اصلی میباشد و ناحیه دوم از اعمال تبدیل [۵۵] Fisher به تصویر اصلی و ناحیه سوم و چهارم به ترتیب از اعمال آشکار ساز لبه سوبل[۵۶] به ناحیه دوم و باینری کردن[۵۷] ناحیه دوم حاصل شده اند. که ناحیه اول توسط رابطه زیر نرمالیزه شده است.
رابطه (۲-۳۵)
شکل ۲-۱۰ تصویر اصلی و چهار ناحیه پردازش شده برای استخراج ویژگی
۲-۸-۲-۱ استخراج ویژگیهای دیداری
تبدیل کسینوسی گسسته برای محاسبه بردار ویژگی از این نواحی صورت گرفته است که دلیل استفاده از این روش به خاطر فشردهسازی زیاد انرژی سیگنال ورودی بر روی تعداد کمی از ضرایب و نیز قابلیت پیادهسازی سریع این تبدیل میباشد. بعد از گرفتن تبدیل کسینوسی با اسکن زیگزاگ ماتریس ضرایب به برداری تبدیل که با انتخاب چند ضریب اول از این بردار که بیشینه انرژی تصویر را نشان می دهند بردار ویژگی استخراج شده است. شناسایی توسط CHMM که مجموعه ای با ۳ حالت و ۳ ترکیب گوسی بر حالت میباشد انجام شده است. در این کار از ۱۰ گوینده که شامل ۸ مرد و ۲ زن میباشد که ۸۱ کلمه چینی را ۴ مرتبه تکرار کردهاند و با نرخ ۲۵ فریم بر ثانیه ضبط شده و سایز
تصاویر ۲۴۰*۳۲۰ میباشد استفاده شده است. ابعاد ضرایب کسینوسی از ۲۹ تا ۱۲۹ با گام۱۰ تغییر داده شده و هر بار به ازای تعداد مشخصی از ضرایب و برای ناحیهای از ۴ ناحیه ذکر شده در بالا، دقت شناسایی محاسبه شد.
۲-۸-۳ تبدیل کسینوسی و LSDA[58]
در [۲۳] یک روش جدید برای استخراج ویژگی برای لبخوانی ارائه شده است. تبدیل کسینوسی همراه با LSDA بکار گرفته شده و با دو روش دیگر DCT + PCA , DCT + LDA مقایسه شده است.
۲-۸-۳-۱ پیش پردازش
قبل از ورود به مرحله استخراج ویژگی ابتدا باید ویدیو به بخشهای کلمه تقسیم بندی و سپس ناحیه مورد نظر از فریمهای ویدیو گرفته شود.
۲-۸-۳-۲ روش DCT
بعد استخراج ناحیه دهان از تصاویر صورت، سایز تصاویر به ۶۴ * ۴۸ تغییر داده و تبدیل DCT گرفته شده و ضرایب گوشه چپ و بالای ماتریس به عنوان ضرایب مهم کسینوسی انتخاب شده اند.
۲-۸-۳-۳DCT + PCA
آنالیز مؤلفه های خاص یک روش غیر نظارتی است که میانگین مربع خطا را می نیمم می کند که از این حیث تبدیلی بهینه است. در این روش بعد از اعمال تبدیل کسینوسی به تصویر و انتخاب ضرایب کسینوسی مهم آنها را به عنوان ورودی به PCA داده تا کاهش بعد صورت گیرد. که عملکرد این دو روش به همراه هم بهتر از تبدیل کسینوسی به تنهایی میباشد.
۲-۸-۳-۴ DCT + LDA
آنالیز مجزاساز خطی روشی بر اساس ماتریسهای پراکندگی[۵۹] درون کلاسها Sw و ماتریس پراکندگی بین کلاسها Sb میباشد. که به یافتن ماتریس تبدیلی که ماتریس پراکندگی بین کلاسها را ماکزیمم و ماتریس پراکندگی درون کلاسها را مینیمم می کند کمک می کند.
رابطه (۲-۳۶)
رابطه (۲-۳۷)
رابطه (۲-۳۸)
فرم در حال بارگذاری ...
[شنبه 1401-04-18] [ 12:45:00 ق.ظ ]
|