بررسی تاثیر دقت برچسب اجزای کلام در کارایی سامانه شناسایی موجودیت های نامدار برای زبان فارسی

سال انتشار: 1394
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 537

متن کامل این مقاله منتشر نشده است و فقط به صورت چکیده یا چکیده مبسوط در پایگاه موجود می باشد.
توضیح: معمولا کلیه مقالاتی که کمتر از ۵ صفحه باشند در پایگاه سیویلیکا اصل مقاله (فول تکست) محسوب نمی شوند و فقط کاربران عضو بدون کسر اعتبار می توانند فایل آنها را دریافت نمایند.

این مقاله در بخشهای موضوعی زیر دسته بندی شده است:

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

DIDRAS01_012

تاریخ نمایه سازی: 26 مرداد 1397

چکیده مقاله:

تشخیص موجودیت های نامدار یکی از مسایل پردازش زبان طبیعی است که هدف آن شناسایی موجودیت های نامدار موجود در یک متن و دسته بندی آنها در دسته های از پیش تعیین شده است. یکی از روش های تشخیص موجودیت نامدار، استفاده از پیکره برچسبگذاری شده و اعمال روش های یادگیری ماشین است. در این مقاله نحوه تولید یک سامانه تشخیص موجودیت نامدار مبتنی بر پیکره با استفاده از روش میدان های تصادفی شرطی شرح داده میشود. همچنین تاثیر دقت برچسب اجزا کلام (به عنوان یک ویژگی مورد استفاده) بر دقت سامانه موجودیت نامدار بررسی میگردد. سامانه ذکر شده با استفاده از پیکره فارسی اعلام که حاوی حدود 250 هزار توکن است، تولید شده است. آموزش این سامانه با استفاده از برچسب های اجزای کلام دقیق برگرفته از پیکره متنی فارسی منتج به f-85 measure درصد شده است. این در حالی است که استفاده از برچسب های تولیده شده از یک ابزار برچسب گذاری اجزای کلام (برچسب گذاری غیر دقیق) در آموزش این سامانه منجر به دستیابی به 84/9 f-measure درصد شده است.

کلیدواژه ها:

تشخیص موجودیت های نامدار ، پیکره موجودیت های نامدار ، پردازش زبان طبیعی ، یادگیری ماشین ، برچسب اجزای کلام

نویسندگان

شادی حسین نژاد

گروه پردازش صوت و زبان طبیعی، پژوهشگاه توسعه فناوری های پیشرفته خواجه نصیرالدین طوسی ، تهران،

یاسر شکفته

گروه پردازش صوت و زبان طبیعی، پژوهشگاه توسعه فناوریهای پیشرفته خواجه نصیرالدین طوسی ، تهران،

طاهره امامی آزادی

گروه پردازش صوت و زبان طبیعی، پژوهشگاه توسعه فناوریهای پیشرفته خواجه نصیرالدین طوسی ، تهران