نویسه گردانی اسامی افراد با استفاده ازویژگیهای محتوای وب فارسی

  • سال انتشار: 1392
  • محل انتشار: کنگره ملی مهندسی برق، کامپیوتر و فناوری اطلاعات
  • کد COI اختصاصی: CECIT01_284
  • زبان مقاله: فارسی
  • تعداد مشاهده: 1043
دانلود فایل این مقاله

نویسندگان

زهره حق اللهی

دانشگاه یزد

علی محمد زارع بیدکی

دانشگاه یزد

مهدی حاجی مرادی

شرکت مهندسی پویش داده نوین

چکیده

یکی ازمسائل اساسی درپردازش زبان طبیعی نویسه گردانی کلمات می باشد این مقوله نقش بسیار مهمی درکارایی ترجمه ماشینی و بازیابی اطلاعات بین زبانی ایفا می کند ازآنجا که 30درصد پرس وجوهای کاربران دارای اسامی افراد می باشد نویسه گردانی درست این اسامی میتواند تاثیربسزایی درنتایج حاصل ازموتورجستجو داشته باشند دراین مقاله الگوریتمی به منظور نویسه گردانی اسامی افراد اززبان فارسی به انگلیسی ارایه شده است این الگوریتم دارای دو مرحله می باشددرمرحله اول با انالیز مجموعه بزرگی ازصفحات وب تمامی کلمات آن استخراج شده و براساس حروف آنها درکلاسهای مناسب طبقه بندی میشوند سپس بادرنظر گرفتن همسایگی بین این کلمات گراف بزرگی تشکیل میگردد درمرحله بعد نیز ازطریق گراف به دست آمده نویسه گردانی انجام میگیرد نتایج نشان داد صفحات وب تاثیربسزایی دربهبود نویسه گردانی داشته اند.

کلیدواژه ها

نویسه گردانی، ترجمه ماشینی، بازیابی اطلاعات بین زبانی، گراف

مقالات مرتبط جدید

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.