استخراج اتوماتیک اطلاعات براساس آنتالوژی

سال انتشار: 1393
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 972

فایل این مقاله در 6 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

IAUFASA02_070

تاریخ نمایه سازی: 17 اسفند 1393

چکیده مقاله:

این مقاله، موضوع استخراج اطلاعات را جهت جمع آوری آنتالوژی های نمونه از میان صفحات وب مورد بررسی قرار داده است. سیستم های استخراج اطلاعات، سند ورودی و مدل استخراج اطلاعات را به عنوان ورودی پذیرفته و پس از پردازش سند ورودی اطلاعات بازیابی شده را در یکساختار منظم و مشخص قالب بندی می کنند. مدل استخراج شامل قواعد و مفاهیم مورد نیاز جهت استخراج اقلام اطلاعاتی می باشد. بررسیفعالیت های مرتبط با این مقاله نشان داد که قواعد استخراج فعلی یا مبتنی بر مکان و یا متنی بر آنتالوژی می باشند.ایده اصلی در این مقاله استفاده ترکیبی از روش مبتنی بر آنتالوژی و روش مبتنی بر استنتاج بوده است. بدین ترتیب که ابتدا صفحه وب ورودی خوانده شده و ساختار درختی تگ های اچ تی ام ال 2 آن ایجاد می گردد، سپس با اعمال آنتالوژی استخراج بر روی آن، ساختاری درختی از مفاهیم موجود در صفحه وب فراهم میگردد. برای افزایش قابلیت نقل و انتقال رپرها 3 اطلاعات مورد نیاز هر یک از آنها را با استفاده از یک زبان جدید به نام دبلیو دی ام ال 4 زبان تعریفرپرها معرفی می گردد. این عمل باعث افزایش قابلیت استفاده مجدد از رپرها نیز خواهد شد.در روش پیشنهادی استخراج اطلاعات با تکیه بر محل قرارگیری اطلاعات صورت می گیرد که با حذف فرایند شناسایی محل قرارگیری اطلاعات به ازای هر صفحه سبب افزایش سرعت استخراج اطلاعات خواهد شد. در این روش فرایند شناسایی اقلام اطلاعاتی با تکیه بر یک انتالوژی استخراج صورت می گیرد که این خود باعث افزایش دقت، در استخراج اتوماتیک اقلام اطلاعاتی می گردد. یکی از ایده های مطرح شده در این تحقیق استفاده از یک زبان استاندارد و مبتنی بر ایکس ام ال 5جهت معرفی کلیه اطلاعات مورد نیاز برای یک رپر می باشد. بطوریکه هم از قابلیت تعریف الگوی استخراج بصورت سلسله مراتب درختی بهره ببرد و هم از قابلیت آنتالوژی ها در تشخیص صحیح اطلاعات. در این مقاله زبان دبلیو دی ام ال را معرفی نموده که شامل تمام ویژگی های فوق می باشد. رپرهای توصیف شده با این زبان، به راحتی قابل نقل و انتقال به سایر سیستم ها بوده و سبب افزایش قابلیت استفاده مجدد آنها می گردد

کلیدواژه ها:

نویسندگان

زهره زرین قلمی

عضو هیات علمی گروه مهندسی کامپیوترموسسه آموزش عالی ایوانکی

فاطمه محمدقلی فر

دانشجوی کارشناسیمهندسی کامپیوترنرم افزارموسسه آموزش عالی ایوانکی

مراجع و منابع این مقاله:

لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :
  • Laneder, A., Ribeiro-Neto, B., Silva, A. and Teixeria, ]. "ABrief ...
  • Bartlett W., "A Comparison of Techniques for Exposing Legcy Dat ...
  • SnoussiH., Magnin Land Nie].-Y. "Toward an 0ntology- based Web Dat ...
  • (BASeWEB) held at the A 2002 Conference (AI-2002), Calgary, Alberta, ...
  • Frohn, J., Himmer oder, R., Kandzia, P.T., Lausen, G., Schlepphorst, ...
  • Restru cturing Doucments, databases and webs", Proceedings of International Conference ...
  • Technologies Workship at the _ International Semantic We) Conference (ISWC2003), ...
  • ntology- Driven Knowledge Managemen t. _ Wiley & Sons, 2003. ...
  • A. Sahuguet and F. Azavant. "Building Intelligent Web Applications Using ...
  • Kushmerick , _ 2000. "Wrapper induction: Efficiency _ expressiven ess" ...
  • نمایش کامل مراجع