مدل دو مرحله ای شکاف- گلچین برای نمایه سازی خودکار متون فارسی
- سال انتشار: 1394
- محل انتشار: فصلنامه تحقیقات اطلاع رسانی و کتابخانه های عمومی، دوره: 21، شماره: 1
- کد COI اختصاصی: JR_PUBLIJ-21-1_002
- زبان مقاله: فارسی
- تعداد مشاهده: 148
نویسندگان
Yazd University
چکیده
هدف: به علت خاص بودن برخی از مسائل زبانی، لازم است که مدلهای بومی نمایهسازی خودکار را با توجه به ویژگیهای هر زبان طراحی کرد. این مدلها باید بهگونهای طراحی شود که جامعیت و مانعیت نمایهسازی مورد توجه باشد. هدف این مقاله معرفی و سنجش توانمندی مدل دو مرحلهای شکاف – گلچین برای نمایهسازی خودکار مقالات فارسی است. ابتدا الگوریتم کار به تفصیل توضیح داده میشود و سپس همخوانی نتایج حاصل از این الگوریتم با کلیدواژههای نویسنده سنجیده خواهد شد. روش: مدل نمایهسازی خودکار فارسی بههمراه توضیح مراحل و مسائل مرتبط با آن معرفی خواهد شد. ارزیابی مدل از طریق شاخص دربردارندگی انجام می شود که برای تعیین درصد همخوانی بین نمایهسازان مورد استفاده قرار میگیرد. برای این کار، میزان همخوانی اصطلاحات نمایه ای که از پیادهسازی الگوریتم این مدل حاصل شدهاند، با کلیدواژههای نویسندگان مقالات بررسی میگردد. یافته ها: یافتهها نشان داد که در ۹۰ درصد از موارد، اصطلاحی که این مدل در یک مقاله بهعنوان پروزنترین اصطلاح تشخیص داده است، مشابه اولین کلیدواژه نویسنده آن مقاله است. در کل، بین نتایج این مدل و کلیدواژههای نویسندگان ۷۶ درصد همخوانی وجود داشت که در مقایسه با کارهای قبلی، قابل قبول به نظر میرسد. اصالت/ارزش: ارزش اولیه این کار پرداختن به نمایهسازی خودکار با توجه به ویژگیهای زبان فارسی است. برای پیادهسازی مدل ارائه شده، فرض بر استفاده از زبان عبارات الگودار است که توسط بسیاری از زبانهای برنامهنویسی پشتیبانی میشود و نیاز به نصب و استفاده از جدولهای بانک اطلاعاتی را برای پردازش متن کاهش میدهد. همچنین، مشکل تعیین آستانه بالایی اصطلاحات اصلی را حل میکند. علاوه بر آن، با الگوریتمی خاص، حد پایینی را نیز تعیین میکند؛ بهگونهای که دیگر تعداد اصطلاحات گلچین شده به طول متن بستگی ندارد. این امکان، جامعیت و مانعیت نمایهسازی را تضمین میکند.کلیدواژه ها
Automatic Indexing, Persian Language, Break-Cull Model., نمایهسازی خودکار, زبان فارسی, مدل شکاف – گلچین.اطلاعات بیشتر در مورد COI
COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.
کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.