مدل دو مرحله ای شکاف- گلچین برای نمایه سازی خودکار متون فارسی

سال انتشار: 1394
محل انتشار: فصلنامه تحقیقات اطلاع رسانی و کتابخانه های عمومی، دوره: 21، شماره: 1
کد COI اختصاصی: JR_PUBLIJ-21-1_002
زبان مقاله: فارسی
تعداد مشاهده: 148

نویسندگان

Yazd University

چکیده

هدف: به علت خاص بودن برخی از مسائل زبانی، لازم است که مدل‎‎های بومی نمایه‎سازی خودکار را با توجه به ویژگی‎های هر زبان طراحی کرد. این مدل‎ها باید به‎گونه‎ای طراحی شود که جامعیت و مانعیت نمایه‎سازی مورد توجه باشد. هدف این مقاله معرفی و سنجش توانمندی مدل دو مرحله‎ای شکاف – گلچین برای نمایه‎سازی خودکار مقالات فارسی است. ابتدا الگوریتم کار به تفصیل توضیح داده می‎شود و سپس همخوانی نتایج حاصل از این الگوریتم با کلیدواژه‎های نویسنده سنجیده خواهد شد. روش: مدل نمایه‎سازی خودکار فارسی به‎همراه توضیح مراحل و مسائل مرتبط با آن معرفی خواهد شد. ارزیابی مدل از طریق شاخص دربردارندگی انجام می شود که برای تعیین درصد همخوانی بین نمایه‎سازان مورد استفاده قرار می‎گیرد. برای این کار، میزان همخوانی اصطلاحات نمایه ای که از پیاده‎سازی الگوریتم این مدل حاصل شده‎اند، با کلیدواژه‎های نویسندگان مقالات بررسی می‎گردد. یافته ها: یافته‎ها نشان داد که در ۹۰ درصد از موارد، اصطلاحی که این مدل در یک مقاله به‎عنوان پروزن‎ترین اصطلاح تشخیص داده است، مشابه اولین کلیدواژه نویسنده آن مقاله است. در کل، بین نتایج این مدل و کلیدواژه‎های نویسندگان ۷۶ درصد همخوانی وجود داشت که در مقایسه با کارهای قبلی، قابل قبول به نظر می‎رسد. اصالت/ارزش: ارزش اولیه این کار پرداختن به نمایه‎سازی خودکار با توجه به ویژگی‎های زبان فارسی است. برای پیاده‎سازی مدل ارائه شده، فرض بر استفاده از زبان عبارات الگودار است که توسط بسیاری از زبان‎های برنامه‎نویسی پشتیبانی می‎شود و نیاز به نصب و استفاده از جدول‎های بانک اطلاعاتی را برای پردازش متن کاهش می‎دهد. همچنین، مشکل تعیین آستانه بالایی اصطلاحات اصلی را حل می‎کند. علاوه بر آن، با الگوریتمی خاص، حد پایینی را نیز تعیین می‎کند؛ به‎گونه‎ای که دیگر تعداد اصطلاحات گلچین شده به طول متن بستگی ندارد. این امکان، جامعیت و مانعیت نمایه‎سازی را تضمین می‎کند.

کلیدواژه ها

Automatic Indexing, Persian Language, Break-Cull Model., نمایه‎سازی خودکار, زبان فارسی, مدل شکاف – گلچین.

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.