استخراج اتوماتیک اطلاعات براساس آنتالوژی

سال انتشار: 1393
محل انتشار: دومین همایش ملی فناوری های نوین در مهندسی برق و کامپیوتر
کد COI اختصاصی: IAUFASA02_070
زبان مقاله: فارسی
تعداد مشاهده: 1209

نویسندگان

عضو هیات علمی گروه مهندسی کامپیوترموسسه آموزش عالی ایوانکی

دانشجوی کارشناسیمهندسی کامپیوترنرم افزارموسسه آموزش عالی ایوانکی

چکیده

این مقاله، موضوع استخراج اطلاعات را جهت جمع آوری آنتالوژی های نمونه از میان صفحات وب مورد بررسی قرار داده است. سیستم های استخراج اطلاعات، سند ورودی و مدل استخراج اطلاعات را به عنوان ورودی پذیرفته و پس از پردازش سند ورودی اطلاعات بازیابی شده را در یکساختار منظم و مشخص قالب بندی می کنند. مدل استخراج شامل قواعد و مفاهیم مورد نیاز جهت استخراج اقلام اطلاعاتی می باشد. بررسیفعالیت های مرتبط با این مقاله نشان داد که قواعد استخراج فعلی یا مبتنی بر مکان و یا متنی بر آنتالوژی می باشند.ایده اصلی در این مقاله استفاده ترکیبی از روش مبتنی بر آنتالوژی و روش مبتنی بر استنتاج بوده است. بدین ترتیب که ابتدا صفحه وب ورودی خوانده شده و ساختار درختی تگ های اچ تی ام ال 2 آن ایجاد می گردد، سپس با اعمال آنتالوژی استخراج بر روی آن، ساختاری درختی از مفاهیم موجود در صفحه وب فراهم میگردد. برای افزایش قابلیت نقل و انتقال رپرها 3 اطلاعات مورد نیاز هر یک از آنها را با استفاده از یک زبان جدید به نام دبلیو دی ام ال 4 زبان تعریفرپرها معرفی می گردد. این عمل باعث افزایش قابلیت استفاده مجدد از رپرها نیز خواهد شد.در روش پیشنهادی استخراج اطلاعات با تکیه بر محل قرارگیری اطلاعات صورت می گیرد که با حذف فرایند شناسایی محل قرارگیری اطلاعات به ازای هر صفحه سبب افزایش سرعت استخراج اطلاعات خواهد شد. در این روش فرایند شناسایی اقلام اطلاعاتی با تکیه بر یک انتالوژی استخراج صورت می گیرد که این خود باعث افزایش دقت، در استخراج اتوماتیک اقلام اطلاعاتی می گردد. یکی از ایده های مطرح شده در این تحقیق استفاده از یک زبان استاندارد و مبتنی بر ایکس ام ال 5جهت معرفی کلیه اطلاعات مورد نیاز برای یک رپر می باشد. بطوریکه هم از قابلیت تعریف الگوی استخراج بصورت سلسله مراتب درختی بهره ببرد و هم از قابلیت آنتالوژی ها در تشخیص صحیح اطلاعات. در این مقاله زبان دبلیو دی ام ال را معرفی نموده که شامل تمام ویژگی های فوق می باشد. رپرهای توصیف شده با این زبان، به راحتی قابل نقل و انتقال به سایر سیستم ها بوده و سبب افزایش قابلیت استفاده مجدد آنها می گردد

کلیدواژه ها

وب معنایی،آنتالوژی،استخراج اتوماتیک اطلاعات،دبلیو دی ام ال،رپر

مقالات مرتبط جدید

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.