Soundex Algorithm, Drawbacks and Improvements

  • سال انتشار: 1402
  • محل انتشار: چهارمین کنفرانس بین المللی مهندسی برق، کامپیوتر، مکانیک و هوش مصنوعی
  • کد COI اختصاصی: EECMAI04_059
  • زبان مقاله: انگلیسی
  • تعداد مشاهده: 74
دانلود فایل این مقاله

نویسندگان

Parsa Hakima

Department of Computer Engineering,Imam Khomeini International UniversityQazvin, Iran

Morteza M. Zanjireh

Department of Computer Engineering,Imam Khomeini International UniversityQazvin, Iran

چکیده

This paper reviews famous phonetic encoding algorithm, Soundex, usedto find similar sounding words. A Phonetic encoding algorithm assigns acode to each word based on its letter and a set of rules for encoding them.This allows for unique code for words that have similar sounds butdifferent spellings. The goal in these algorithms is to generate the bestunique code for similar sounding words. They also try to avoidgenerating similar codes for words with different pronunciations, whichis considered as error. Encoding helps researchers to retrieve their desiredword in databases where words are misspelled or have multiple formsspellings. They also enable efficient comparison and matching of wordsbased on their pronunciation rather than their written form. Applicationsof the algorithms are in database search, speech recognition, text tospeech and language processing. The encoding each algorithm produces,depends on the phonemes, syllable structure and stress pattern. It isimportant to mention that these algorithms have their shortcomings andmay not always produce the best representation. They differ in accuracyand complexity so the choice of algorithm for real world problemsdepends on application requirements.

کلیدواژه ها

Soundex, Phonetic, encoding, Algorithm.

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.