مقایسه خوشه بندی متن های یک پیکره موازی فارسی-انگلیسی

سال انتشار: 1393
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 571

فایل این مقاله در 6 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

SASTECH09_190

تاریخ نمایه سازی: 11 اردیبهشت 1398

چکیده مقاله:

خوشه بندی متن در زمینه های مختلف پردازش زبان طبیعی کاربردهای فراوان دارد. تاکنون پژوهشهای مختلفی در این زمینه برای اسناد زبانهای مختلف، از جمله فارسی انگلیسی، انجام شده است. هدف این پژوهش مقایسه خوشه بندی متنهای همطراز فارسی انگلیسی میباشد. در این پژوهش پس از استخراج بردارهای ویژگی با روشی یکسان از جمله های همطراز دو زبان فارسی انگلیسی، اعمال روش PCA به این بردارها، با استفاده از روش -Kمیانگین خوشه بندی انجام شده است. نتایج حاصل از مقایسه خوشه های این دو زبان نشان داد که تفاوتهای میان دو زبان فارسی انگلیسی بر کیفیت خوشه بندی متنها تاثیر میگذارد. در این آزمایشها خوشه های حاصل از هیچ یک از زبانهای فارسی انگلیسی بر دیگری برتری کامل نداشتند. این امر نشان میدهد که باید بهترین روش خوشه بندی متناسب با ویژگی های هر زبان اتخاذ شود روشی که برای یک زبان مناسب است الزاما برای زبانی دیگر نیز انتخاب مناسبی نمیباشد.

کلیدواژه ها:

خوشه بندی ، پیکره موازی دو زبانه میزان ، -Kمیانگین ، تحلیل مولفه های اصلی (PCA)

نویسندگان

عاطفه خزاعی

دانشجوی دکتری مهندسی کامپیوتر، دانشگاه یزد، یزد، ایران

محمد قاسم زاده

عضو هییت علمی دانشگاه یزد، یزد، ایران