فشرده سازی متون فارسی بدون استفاده از Metadata به شیوه ای سازگار با ساختارهای Unicode
محل انتشار: کنفرانس بین المللی مهندسی برق و علوم کامپیوتر
سال انتشار: 1394
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 764
فایل این مقاله در 8 صفحه با فرمت PDF قابل دریافت می باشد
- صدور گواهی نمایه سازی
- من نویسنده این مقاله هستم
استخراج به نرم افزارهای پژوهشی:
شناسه ملی سند علمی:
ICEECS01_042
تاریخ نمایه سازی: 8 آذر 1394
چکیده مقاله:
دراغلب شیوه های فشرده سازی خروجی الگوریتم فشرده سازی حاوی یک جدول یا دیکشنری بوده که به عنوان یک راهنما برای بازگشت به حالت غیرفشرده ازآن استفاده میگردد این جدول با دیکشنری که Metadata نامیده میشود برای بازگرداندن متن یاداده به حالت غیرفشرده الزامی است این گونه فشرده سازی ها برای متون کوتاه مناسب نیستند چرا که درفشرده سازی متون کوتاه تنها چندبایت درحجم متن صرفه جویی میگردد بنابراین باافزوده شدن Metadata ممکن است حتی حجم متن فشرده شده بیشتر شود همچنین درذخیره سازی متن فشرده شده ممکن است بدلیل درهم ریختن ساختار Unicode قوانین استاندارد Unicode نقض شود ازمهمترین این قوانین Surrogate Pair است دراین مقاله شیوه ای برای فشرده سازی متون فارسی ارایه خواهد شد که فاقد Metadata بوده و لذا برای متون کوتاهی چون پیامک مناسب می باشد همچنین ساختاراستاندارد Unicode وقانون Surrogate Pair درآن نقض نمی گردد
کلیدواژه ها:
نویسندگان
مرتضی کریمیان
دانشجوی کارشناسی ارشد رشته مهندسی تکنولوژی نرم افزار دانشکده علوم کامپیوتر
قدرت سپیدنام
عضو هیات علمی موسسه آموزش عالی اشراق بجنورد
شادی لنگری
عضو هیات علمی موسسه آموزش عالی اشراق بجنورد
مراجع و منابع این مقاله:
لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :