استخراج، بررسی و مقایسه باهم آیی کلمه ها از متن خبرهای وبگاه انگلیسی رادیوی صدا و سیما

  • سال انتشار: 1398
  • محل انتشار: سومین کنفرانس ملی کامپیوتر، فناوری اطلاعات و کاربردهای هوش مصنوعی
  • کد COI اختصاصی: CEITCONF03_071
  • زبان مقاله: فارسی
  • تعداد مشاهده: 674
دانلود فایل این مقاله

نویسندگان

احمد یوسفان

مربی، دانشگاه کاشان

دانیال ابراهیم زاده

دانش آموخته کارشناسی، دانشگاه کاشان

مسعود عباسیان

دانش آموخته کارشناسی

چکیده

باهم آیی عبارتی است که برای رساندن یک مفهوم یا معنی استفاده شده و شامل بیش از یک کلمه است. در این پژوهش به روش های گوناگون به استخراج، بررسی و مقایسه باهم آیی های کلمه ها و دسته بندی آنها از روی بخشی از بایگانی خبرهای وبگاه صدا و سیمای جمهوری اسلامی ایران پرداختیم. پس از گرفتن پایگاه داده خبرها از وبگاه صدا و سیمای جمهوری اسلامی ایران، آنها را پردازش کردیم و داده های غیرخبری را از آن مجموعه حذف کردیم. سپس برچسب های HTML موجود در هر خبر را اصلاح کرده و با استفاده از تابع های آماده موجود در زبان برنامه نویسی پایتون، برچسب های HTML اصلاح شده را از متن اصلی اخبار جدا کردیم. در ادامه کلمه های متن های پالایش شده را به کمک بسته NLTK بر پایه نقش آنها در جمله، برچسب گذاری و ریشه یابی نمودیم. سپس باهم آیی های کلمه ها را بر پایه معیارهای تناظر به دست آوردیم و بعد مقایسه و تحلیل کردیم. همچنین در این کار اثرات کلمه های ایستواژه موجود در متن خبرها را در استخراج باهم آیی ها، مورد بررسی و تحلیل قرار دادیم. در این پژوهش از میان روشهای موجود در این زمینه، مهمترین و کمخطاترین روشها را برگزیده و ترکیب کردیم و به نتیجه های سودمندی و مفیدی برای باهم آیی های کلمه ها در متن خبرهای این وبگاه دست یافتیم.

کلیدواژه ها

باهم آیی، ایست واژه، معیار تناظر، نقش کلمات در جمله، NLTK .

مقالات مرتبط جدید

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.