فشرده سازی متون فارسی بدون استفاده از Metadata به شیوه ای سازگار با ساختارهای Unicode

سال انتشار: 1394
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 764

فایل این مقاله در 8 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

ICEECS01_042

تاریخ نمایه سازی: 8 آذر 1394

چکیده مقاله:

دراغلب شیوه های فشرده سازی خروجی الگوریتم فشرده سازی حاوی یک جدول یا دیکشنری بوده که به عنوان یک راهنما برای بازگشت به حالت غیرفشرده ازآن استفاده میگردد این جدول با دیکشنری که Metadata نامیده میشود برای بازگرداندن متن یاداده به حالت غیرفشرده الزامی است این گونه فشرده سازی ها برای متون کوتاه مناسب نیستند چرا که درفشرده سازی متون کوتاه تنها چندبایت درحجم متن صرفه جویی میگردد بنابراین باافزوده شدن Metadata ممکن است حتی حجم متن فشرده شده بیشتر شود همچنین درذخیره سازی متن فشرده شده ممکن است بدلیل درهم ریختن ساختار Unicode قوانین استاندارد Unicode نقض شود ازمهمترین این قوانین Surrogate Pair است دراین مقاله شیوه ای برای فشرده سازی متون فارسی ارایه خواهد شد که فاقد Metadata بوده و لذا برای متون کوتاهی چون پیامک مناسب می باشد همچنین ساختاراستاندارد Unicode وقانون Surrogate Pair درآن نقض نمی گردد

کلیدواژه ها:

فشرده سازی متن فارسی ، فشرده سازی بدون متادیتا ، فشرده سازی پیامک ، فشرده سازی متون کوتاه

نویسندگان

مرتضی کریمیان

دانشجوی کارشناسی ارشد رشته مهندسی تکنولوژی نرم افزار دانشکده علوم کامپیوتر

قدرت سپیدنام

عضو هیات علمی موسسه آموزش عالی اشراق بجنورد

شادی لنگری

عضو هیات علمی موسسه آموزش عالی اشراق بجنورد

مراجع و منابع این مقاله:

لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :
  • Hamshahri Corpus , the University of Tehran Information Retrieval Evaluation ...
  • Kalajdzic, K. Hussein Ali, S and Petel, A. (2014), ;: ...
  • Unicode Inc. UTF-8 _ UTF-16 _ UTF-32 BOM Unicode. [Online] ...
  • نمایش کامل مراجع