استفاده از تجزیه وابستگی سریع برای استخراج آزاد اطلاعات

سال انتشار: 1394
محل انتشار: اولین همایش جویشگر بومی
کد COI اختصاصی: DIDRAS01_019
زبان مقاله: فارسی
تعداد مشاهده: 609

نویسندگان

دانشجوی دکتری، هوش مصنوعی و رباتیک، دانشگاه علم و صنعت، تهران، ایران

دکتری علوم و مهندسی کامپیوتر، دانشکده کامپیوتر، دانشگاه علم و صنعت، تهران، ایران

چکیده

اینترنت حجم عظیمی از اطلاعات با ساختارهای گوناگون را در خود جایداده است. مدتهاست که دانشمندان روی سامانه های استخراج اطلاعات از متون ساختارنیافته کار میکنند؛ سامانه هایی که به صورت انعطاف پذیر و قابل اطمینان، صفحات وب را به ساختارهای مناسبی برای سامانه های نرم افزاری، مانند پایگاه داده رابطه ای یا داده های اندیس گذاری شده، تبدیل کنند. از اواسط دهه گذشته میلادی تلاش های بسیاری صورت گرفت تا بتوان بدون دخالت انسانی و با همان ابزارهای در دسترس پردازش زبان طبیعی، مجموعه ی بزرگی از روابط معنایی را از حجم عظیم اطلاعات موجود در وب به دست آورد. یکی از روش های مهم برای دستیابی به این هدف استخراج آزاد اطلاعات است. در حقیقت استخراج آزاد اطلاعات توانایی استخراج دانش از حجم وسیعی از اطلاعات وب است؛ و یا از نگاهی دیگر، عملیات استخراج اعلان ها، یا رابطه ها، از پیکره های متنی انبوه، بدون نیاز به فرهنگ لغات از پیش تعیین شده؛ بنابراین مهمترین ویژگی استخراج آزاد اطلاعات وابسته نبودن آن به دامنه ی خاصازی اطلاعات و استخراج اطلاعات بامعنی است. استخراج آزاد اطلاعات سعی میکند پایگاه دانشی را باقابلیت پرسوجوی کارا از وب استخراج کند. ویژگی مهم دیگر این عملیات این است که سعی دارد بر گلوگاه مشکل اکتساب دانش، که اغلب هزینه بر است، با استخراج یک جای تعداد بزرگی از روابط فایق آید. در این مقاله روشی جدید برای سرعت بخشیدن به استخراج آزاد اطلاعات با نام تجزیه وابستگی سریع پیشنهاد شده است. استفاده از تجزیه وابستگی سریع، روی افزایش سرعت عملیات استخراج آزاد اطلاعات تاثیر گذار است و سعی دارد مساله ی تجزیه وابستگی را، در ازای افت کیفیت تجزیه ی وابستگی، به یک مساله ی برچسب گذاریترت یبی تبدیل نماید. نتایج نشان داده است که استفاده از این ایده توانسته است در ازای افت کیفیت تقریبا 10 درصدی، سرعت طولانی ترین بخش از استخراج روابط را افزایش دهد

کلیدواژه ها

استخراج اطلاعات، استخراج آزاد اطلاعات، پردازش زبان طبیعی، تجزیه وابستگی، استخراج رابطه

مقالات مرتبط جدید

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.