ارایه روشی جدید برای مکان یابی کلمات در اسناد تایپی فارسی به کمک ویژگی های آماری / ساختاری

سال انتشار: 1395
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 350

فایل این مقاله در 18 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

CEITECH01_043

تاریخ نمایه سازی: 17 آبان 1396

چکیده مقاله:

مکانیابی کلمات کلیدی، از جمله زمینه های پر کاربرد بازشناسی الگو است. شناسایی الگو به ما کمک می کند تا داده ها(الگوها) را با تکیه بر دانش قبلی یا اطلاعات آماری و ساختاری استخراج شده از الگوها در اسناد مورد جستجو پیدا نماییم. تا-کنون تحقیقات متعددی در خصوص بازشناسی حروف، زیر کلمات و کلمات در متون چاپی فارسی صورت گرفته است ولی درمورد مکانیابی کلمات کلیدی در اسناد تایپی فارسی تحقیقات کمتری انجام شده است.هدف این مفاله ارایه روش جدید برای مکانیابی کلمات با استفاده از الگوهای آماری و ساختاری استخراج شده ازویژگی های زیرکلمات در اسناد می باشد. جداسازی خطوط و زیرکلمات به عنوان اولین و مهمترین مرحله پیش پردازش جهتآنالیز مکانیابی کلمات در یک سند است. کلمات فارسی برخلاف کلمات انگلیسی از زیرکلمات تشکیل شده اند. با جستجویزیرکلمات می توان با استفاده از ویژگی های استخراج شده آنها کلمه مورد نظر را در صورت اینکه در سند موجود باشد مکان-یابی نمود. این بررسی پس از جداسازی خطوط و زیرکلمات در سند با استفاده از ویژگی های آماری و ساختاری آنها به ایجادالگو برای تک تک زیرکلمات و ذخیرهسازی در یک آرایه به عنوان پایگاه داده میپردازد. رویکرد مورد استفاده برای ساخت الگوبا ویژگی های ساختاری، با تقسیم بندی زیرکلمه استخراج شده به شش قسمت مساوی و ساخت الگو بر اساس تعداد پیکسل-های مشکی انجام میپذیرد. در رویکرد آماری ویژگی های میانگین، واریانس و انحراف معیار از شش قسمت مساوی زیر کلمهاستخراج گردید.در نهایت برای مکانیابی کلمه مورد نظر با استخراج ویژگی های بیان شده این کلمه و مقایسه بیشترین شباهت آن باترکیب ویژگی های استخراج شده با استفاده از الگوهای موجود از رویکردهای ساختاری و آماری در سند که در آرایه ای بهعنوان پایگاه داده ذخیره گردید، جواب مورد نظر بدست می آید. نتایج بدست آمده از مقایسه با ترکیب ویژگی ها نشان می دهدکه بالغ بر 71% کلمات مورد جستجو در سند یافت می شود.

کلیدواژه ها:

مکانیابی کلمات ، اسناد تایپی فارسی ، ویژگی های آماری و ساختاری ، پایگاه داده

نویسندگان

احسان قمی

دانش آموخته کارشناسی ارشد مهندسی کامپیوتر گرایش نرم افزار دانشگاه آزاد اسلامی واحد چالوس

رضا طاولی

عضو هیات علمی دانشگاه آزاد اسلامی واحد چالوس گروه مهندسی کامپیوتر