توسعه موتور جستجوی فارسی بر اساس بهبود فرآیند یادگیری آنتالوژی

  • سال انتشار: 1393
  • محل انتشار: مجله رایانش نرم و فناوری اطلاعات، دوره: 3، شماره: 3
  • کد COI اختصاصی: JR_JSCIT-3-3_001
  • زبان مقاله: فارسی
  • تعداد مشاهده: 116
دانلود فایل این مقاله

نویسندگان

Sima Darvishi

گروه مهندسی کامپیوتر، دانشکده فنی، دانشگاه گیلان

Asadollah Shahbahrami

دانشگاه گیلان - دانشکده فنی و مهندسی - گروه مهندسی کامپیوتر

Manouchehr Nahvi

گروه مهندسی برق، دانشکده فنی، دانشگاه گیلان

چکیده

موتور جستجو ابزاری است که نیازهای اطلاعاتی کاربران را برطرف می ­کند. کاربران با استفاده از پرس و جوهای مختلف در موتورهای جستجو تلاش می کنند به نتایج مورد نظر خود دست یابند. برخی از این پرس و جوها با استفاده از کلمات کلیدی موثر انجام می شود. اگر موتور جستجویی بتواند تا حدودی روابط حاکم بین کلمات را درک نماید مسلما نتایج بهتری را برای کاربران استخراج می نماید. اما درک این روابط و بیان منظور کاربر تا حدودی به ساختار پرس و جو در هر زبان بر می گردد. انجام جستجوها در موتور جستجوی فارسی با توجه به قوانین نحوی، تلفظی و املایی آن، کار راحتی نیست. به منظور بهبود و افزایش دقت موتورهای جستجوی فارسی می توان از مفهوم آنتالوژی جهت توصیف کلمات ئ درک مفاهیم آنها استفاده کرد. در این مقاله با توجه به عملکرد موتور جستجو و آنتالوژی، مدلی جهت بهبود استخراج روابط معنایی از زبان فارسی ارائه می شود. در این مدل از یک مجموعه متنی استاندارد فارسی به نام پیکره بی جن خان استفاده می شود. آزمایشات از طریق الگوهای زبانی و نحوی فارسی بدست آمده بر روی برخی متون این پیکره نشان داد که دقت مدل پیشنهادی حدود ۸۷% است.

کلیدواژه ها

موتور جستجو, آنتالوژی, پایگاه دانش, وب معنایی

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.