مقایسه خوشه بندی متن های یک پیکره موازی فارسی-انگلیسی

سال انتشار: 1393
محل انتشار: نهمین سمپوزیوم بین المللی پیشرفتهای علوم و تکنولوژی
کد COI اختصاصی: SASTECH09_190
زبان مقاله: فارسی
تعداد مشاهده: 572

نویسندگان

دانشجوی دکتری مهندسی کامپیوتر، دانشگاه یزد، یزد، ایران

عضو هییت علمی دانشگاه یزد، یزد، ایران

چکیده

خوشه بندی متن در زمینه های مختلف پردازش زبان طبیعی کاربردهای فراوان دارد. تاکنون پژوهشهای مختلفی در این زمینه برای اسناد زبانهای مختلف، از جمله فارسی انگلیسی، انجام شده است. هدف این پژوهش مقایسه خوشه بندی متنهای همطراز فارسی انگلیسی میباشد. در این پژوهش پس از استخراج بردارهای ویژگی با روشی یکسان از جمله های همطراز دو زبان فارسی انگلیسی، اعمال روش PCA به این بردارها، با استفاده از روش -Kمیانگین خوشه بندی انجام شده است. نتایج حاصل از مقایسه خوشه های این دو زبان نشان داد که تفاوتهای میان دو زبان فارسی انگلیسی بر کیفیت خوشه بندی متنها تاثیر میگذارد. در این آزمایشها خوشه های حاصل از هیچ یک از زبانهای فارسی انگلیسی بر دیگری برتری کامل نداشتند. این امر نشان میدهد که باید بهترین روش خوشه بندی متناسب با ویژگی های هر زبان اتخاذ شود روشی که برای یک زبان مناسب است الزاما برای زبانی دیگر نیز انتخاب مناسبی نمیباشد.

کلیدواژه ها

خوشه بندی، پیکره موازی دو زبانه میزان، -Kمیانگین، تحلیل مولفه های اصلی (PCA)

مقالات مرتبط جدید

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.