بهبود عملکرد ساده سازی بدون نظارت جملات با استفاده از مدل های زبانی پوشیده

محمدامین رشید; حسین امیرخانی

بهبود عملکرد ساده سازی بدون نظارت جملات با استفاده از مدل های زبانی پوشیده

فایل این در 127 صفحه با فرمت PDF قابل دریافت می باشد

دریافت فایل کامل

من نویسنده این مقاله هستم

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این :

https://civilica.com/doc/2251973

چکیده :

ساده سازی متن یکی از قدیمی ترین مسائل بازنویسی نوشتار بوده که بسیار مورد مطالعه قرار گرفته است. هدف از ساده سازی یک متن، اعمال تغییرات و بازنویسی آن به منظور خوانایی روان تر و ایجاد سهولت در فهم آن است. چنین عباراتی می توانند برای ارائه ی مفاهیم مورد نظر به افراد کم سواد یا کودکان مفید باشند و همچنین، خروجی مدل های ساده سازی جملات در سطوح تخصصی تر مثل خلاصه سازی متن و ترجمه ی ماشینی کاربرد خواهد داشت. معمولا تعدادی از عمل های مرسوم از جمله جایگزینی، حذف، مرتب سازی و تقسیم جمله در این مسئله مورد استفاده قرار می گیرند. پژوهش های سنتی انجام شده در زمینه ی ساده سازی متن، اغلب محدود به عمل های سطح جمله می شوند. به کارگیری این عمل ها برای ساخت جملات ساده و قابل درک، مخصوصا با در نظر گرفتن قواعد دستوری و حفظ مفهوم بنیادی اولیه، بسیار چالش برانگیز بوده و در حال حاضر جای بحث و مکاشفه دارد. تعداد کثیری از پژوهش های انجام شده، مدل های ساده سازی خود را بر پایه ی الگوی داده محور که چارچوب فکری غالب در این مسئله است، توسعه داده اند. طبق این الگو، تمرکز هر مدل روی یادگیری تکنیک های ساده سازی از زوج جمله های پیچیده و ساده شده است. مدل سازی زبانی پوشیده، مسئله ای مشابه پر کردن جای خالی است که در آن یک کلمه در جمله پوشیده می شود؛ سپس وظیفه ی مدل زبانی، پیش بینی مناسب ترین کلمه برای جای خالی، با استفاده از کلمات اطراف آن است. تکنیک ارائه شده در این پژوهش، مدل های آموزش دیده ی برت (BERT) را که نوعی مدل زبانی پوشیده ی مبتنی بر معماری مبدل (Transformer) هستند، با یک مدل ساده سازی جملات بدون نظارت مبتنی بر ویرایش ادغام می کند. سپس نشان داده می شود که پس از تنظیم دقیق مدل برت روی جملات ساده، می توان نتایج ساده سازی را روی پیکره های TurkCorpus و ASSET به ترتیب تا 0.82 و 2.26 واحد SARI بهبود بخشید و حتی از دو روش با نظارت فعلی، عملکرد بهتری داشت. در نهایت، چارچوبی معرفی می شود که طی آن بتوان مقدار دلخواهی از متون بدون برچسب را تهیه کرده و برای تنظیم دقیق مدل برت فیلتر کرد تا این بهبود، بدون نیاز به داده های برچسب دار به دست آید. این عمل پیش پردازشی، همچنین باعث حذف نمونه های آموزشی اضافی می شود که فرآیند تنظیم دقیق مدل زبانی پوشیده را سرعت می بخشد.

کلیدواژه ها:

ساده سازی بدون نظارت جملات ، مدل های زبانی پوشیده ، تنظیم دقیق مدل زبانی ، مدل برت ، پردازش زبان های طبیعی

نویسندگان

محمدامین رشید

دانشجو

حسین امیرخانی

عضو هیئت علمی دانشگاه

مراجع و منابع این :

لیست زیر مراجع و منابع استفاده شده در این را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود لینک شده اند :

[1] Cripwell, Liam, Legrand, Joël, and Gardent, Claire. Controllable sentence ...
[2] Lu, Xinyu, Qiang, Jipeng, Li, Yun, Yuan, Yunhao, and ...
[3] Martin, Louis, de la Clergerie, Éric, Sagot, Benoît, and ...
[4] Martin, Louis, Fan, Angela, de la Clergerie, Éric, Bordes, ...
[5] Kumar, Dhruv, Mou, Lili, Golab, Lukasz, and Vechtomova, Olga. ...
[6] Zhang, Xingxing and Lapata, Mirella. Sentence simplification with deep ...
[7] Xu, Wei, Callison-Burch, Chris, and Napoles, Courtney. Problems in ...
[8] Reimers, Nils and Gurevych, Iryna. Sentence-BERT: Sentence embed- dings ...
[9] De Belder, Jan and Moens, Marie-Francine. Text simplification for ...
[10] Watanabe, Willian Massami, Junior, Arnaldo Candido, Uzêda, Viní- cius ...
[11] Paetzold, Gustavo and Specia, Lucia. Unsupervised lexical simplifica- tion ...
[12] Rello, Luz, Bayarri, Clara, Górriz, Azuki, Baeza-Yates, Ricardo, Gupta, ...
[13] Carroll, John, Minnen, Guido, Canning, Yvonne, Devlin, Siobhan, and ...
[14] Evans, Richard, Orăsan, Constantin, and Dornescu, Iustin. An evaluation ...
[15] Chandrasekar, Raman, Doran, Christine, and Bangalore, Srinivas. Moti- vations ...
[16] Vanderwende, Lucy, Suzuki, Hisami, Brockett, Chris, and Nenkova, Ani. ...
[17] Evans, Richard J. Comparing methods for the syntactic simplification ...
[18] Vickrey, David and Koller, Daphne. Sentence simplification for semantic ...
[19] Hasler, Eva, de Gispert, Adrià, Stahlberg, Felix, Waite, Aurelien, ...
[20] Petersen, Sarah E and Ostendorf, Mari. Text simplification for ...
[21] Aluísio, Sandra M, Specia, Lucia, Pardo, Thiago AS, Maziero, ...
[22] Specia, Lucia, Aluísio, Sandra Maria, and Pardo, Thiago A ...
[23] Caseli, Helena M, Pereira, Tiago F, Specia, Lucia, Pardo, ...
[24] Bott, Stefan and Saggion, Horacio. Spanish text simplification: An ...
[25] Carroll, John A, Minnen, Guido, Pearce, Darren, Canning, Yvonne, ...
[26] Miller, George A. Wordnet: a lexical database for english. ...
[27] Rudell, Alan P. Frequency of word usage and perceived ...
[28] Hirsh, David and Nation, Paul. What vocabulary size is ...
[29] Mason, J.M. Facilitating reading comprehension through text structure manipulation. ...
[30] Siddharthan, A. and Mandya, A. Hybrid text simplification using ...
[31] Quigley, S.P., Power, D., and Steinkamp, M. The language ...
[32] Shewan, C.M. Auditory comprehension problems in adult aphasic indi- ...
[33] Rello, L., Baeza-Yates, R., Dempere-Marco, L., and Saggion, H. ...
[34] Crossley, S.A., Louwerse, M.M., McCarthy, P.M., and McNamara, D.S. ...
[35] Candido, Jr, A., Maziero, E.G., Specia, L., Gasperin, C., ...
[36] Watanabe, W.M., Junior, A.C., Uzêda, V.R., M. Fortes, R.P., ...
[37] Paetzold, G.H. Lexical Simplification for Non-Native English Speakers. University ...
[38] Rello, L., Bayarri, C., Gòrriz, A., Baeza-Yates, R., Gupta, ...
[39] Evans, Richard, Orasan, Constantin, and Dornescu, Iustin. An evaluation ...
[40] Chandrasekar, R., Doran, C., and Srinivas, B. Motivations and ...
[41] Evans, R.J. Comparing methods for the syntactic simplification of ...
[42] A. B. Silveira, S.B. Enhancing multi-document summaries with sentence ...
[43] Klebanov, B.B., Knight, K., and Marcu, D. Text simplification ...
[44] Hasler, E., Gispert, A., Stahlberg, F., Waite, A., and ...
[45] Daelemans, Walter, Höthker, Anja, and Sang, Erik F Tjong ...
[46] Lozanova, S., Stoyanova, I., Leseva, S., Koeva, S., and ...
[47] Chung, J.-W., Min, H.-J., Kim, J., and Park, J.C. ...
[48] Zeng-Treitler, Q., Goryachev, S., Kim, H., Keselman, A., and ...
[49] Elhadad, N. Comprehending technical texts: Predicting and defining un- ...
[50] Kandula, S., Curtis, D., and Zeng-Treitler, Q. A semantic ...
[51] Walker, A., Siddharthan, A., and Starkey, A. Investigation into ...
[52] Jonnalagadda, S., Tari, L., Hakenberg, J., Baral, C., and ...
[53] Ong, E., Damay, J., Lojico, G., Lu, K., and ...
[54] Miwa, M., Saetre, R., Miyao, Y., and Tsujii, J. ...
[55] Peng, Y., Tudor, C.O., Torii, M., and Wu, C.H. ...
[56] Papineni, K., Roukos, S., Ward, T., and Zhu, W.-J. ...
[57] Wubben, S., Bosch, A., and Krahmer, E. Sentence simplification ...
[58] Štajner, Sanja, Mitkov, Ruslan, and Saggion, Horacio. One step ...
[59] C. C.-B. Xu, W.C.N.E.P.Q.C. Optimizing statistical machine translation for ...
[60] Sulem, E., Abend, O., and Rappoport, A. Bleu is ...
[61] Snover, Matthew, Dorr, Bonnie, Schwartz, Richard, Micciulla, Linnea, and ...
[62] Scarton, C., Paetzold, G.H., and Specia, L. Text simplification ...
[63] Flesch, R. A new readability yardstick. Journal of Applied ...
[64] Kincaid, J Peter, Fishburne Jr, Robert P, Rogers, Richard ...
[65] McNamara, D.S., Graesser, A.C., McCarthy, P.M., and Cai, Z. ...
[66] Grace, M. Simple english wikipedia. Reference Reviews, 2013. ...
[67] Ogden, C.K. Basic English: A general introduction with rules ...
[68] I. G. Zhu, Z.D.B. A monolingual tree- based translation ...
[69] Coster, W. and Kauchak, D. Simple english wikipedia: A ...
[70] Kauchak, D. Improving text simplification language modeling using un- ...
[71] Woodsend, K. and Lapata, M. Learning to simplify sentences ...
[72] Hwang, W., Hajishirzi, H., Ostendorf, M., and Wu, W. ...
[73] Kajiwara, T. and Komachi, M. Building a monolingual parallel ...
[74] Yasseri, T., Kornai, A., and Kertsz, J. A practical ...
[75] Siddharthan, Advaith. Preserving discourse structure when simplifying text. in ...
[76] Jaccard, P. The distribution of the flora in the ...
[77] Mcnamee, P. and Mayfield, J. Character n-gram tokenization for ...
[78] Štajner, S., Franco-Salvador, M., Rosso, P., and Ponzetto, S.P. ...
[79] Alva-Manchego, Fernando, Martin, Louis, Bordes, Antoine, Scarton, Car- olina, ...
[80] Koehn, P., Hoang, H., Birch, A., Callison-Burch, C., Federico, ...
[81] Caseli, H.M., Pereira, T.F., Specia, L., Pardo, T.A.S., Gasperin, ...
[82] Bach, N., Gao, Q., Vogel, S., and Waibel, A. ...
[83] Crammer, K. and Singer, Y. Ultraconservative online algorithms for ...
[84] Heilman, Michael and Smith, Noah A. Extracting simplified statements ...
[85] Bahdanau, D., Cho, K., and Bengio, Y. Neural machine ...
[86] Hochreiter, S. and Schmidhuber, J. Long short-term memory. Neural ...
[87] Nisioi, S., Štajner, S., Ponzetto, S.P., and Dinu, L.P. ...
[88] Mikolov, Tomas, Chen, Kai, Corrado, G.s, and Dean, Jeffrey. ...
[89] Alva-Manchego, F., Bingel, J., Paetzold, G., Scarton, C., and ...
[90] Sennrich, R., Firat, O., Cho, K., Birch, A., Haddow, ...
[91] Johnson, M., Schuster, M., Le, Q.V., Krikun, M., Wu, ...
[92] Vu, T., Hu, T.M.Baotian, and Yu, H. Sentence simplification ...
[93] Deng, Chunhui, Zhang, Lemin, and Deng, Huifang. Improving sentence ...
[94] Zhao, S., Meng, R., He, D., Saptono, A., and ...
[95] Pavlick, Ellie and Callison-Burch, Chris. Simple ppdb: A paraphrase ...
[96] Paetzold, Gustavo, Alva-Manchego, Fernando, and Specia, Lucia. Mas- salign: ...
[97] Paetzold, Gustavo and Specia, Lucia. Lexical simplification with neural ...
[98] Bingel, Joachim and Søgaard, Anders. Text simplification as tree ...
[99] Surya, Sai, Mishra, Abhijit, Laha, Anirban, Jain, Parag, and ...
[100] Goodfellow, Ian, Pouget-Abadie, Jean, Mirza, Mehdi, Xu, Bing, Warde- ...
[101] Narayan, Shashi, Gardent, Claire, Cohen, Shay B., and Shimorina, ...
[102] Artetxe, Mikel, Labaka, Gorka, Agirre, Eneko, and Cho, Kyunghyun. ...
[103] Dehghan, Mohammad, Kumar, Dhruv, and Golab, Lukasz. GRS: Com- ...
[104] Devlin, Jacob, Chang, Ming-Wei, Lee, Kenton, and Toutanova, Kristina. ...
[105] Pennington, Jeffrey, Socher, Richard, and Manning, Christopher D. Glove: ...
[106] Qiang, Jipeng, Li, Yun, Zhu, Yi, Yuan, Yunhao, and ...
[107] Hinton, Geoffrey E. Training products of experts by minimizing ...
[108] Arora, Sanjeev, Liang, Yingyu, and Ma, Tengyu. A simple ...
[109] Alva-Manchego, Fernando, Martin, Louis, Scarton, Carolina, and Spe- cia, ...
[110] Martin, Louis, de la Clergerie, Éric, Sagot, Benoît, and ...
[111] Alva-Manchego, Fernando, Scarton, Carolina, and Specia, Lucia. Data- driven ...
[112] Shardlow, Matthew, Cooper, Michael, and Zampieri, Marcos. CompLex — ...
[113] Sulem, Elior, Abend, Omri, and Rappoport, Ari. Semantic structural ...
[114] Xu, Wei, Napoles, Courtney, Pavlick, Ellie, Chen, Quanze, and ...
[115] Farahani, Abolfazl, Voghoei, Sahar, Rasheed, Khaled, and Arabnia, Hamid ...
[116] MacQueen, James et al. Some methods for classification and ...
[117] Fernández, Alberto and Gómez, Sergio. Solving non-uniqueness in ag- ...
[118] Schubert, Erich, Sander, Jörg, Ester, Martin, Kriegel, Hans Peter, ...
[119] McLachlan, Geoffrey J and Basford, Kaye E. Mixture models: ...
[120] Zhu, Zhemin, Bernhard, Delphine, and Gurevych, Iryna. A monolingual ...
[121] Zhuang, Liu, Wayne, Lin, Ya, Shi, and Jun, Zhao. ...
[122] Narayan, Shashi and Gardent, Claire. Hybrid simplification using deep ...
[123] Nisioi, Sergiu, Štajner, Sanja, Ponzetto, Simone Paolo, and Dinu, ...
[124] Dong, Yue, Li, Zichao, Rezagholizadeh, Mehdi, and Cheung, Jackie ...
[125] Wubben, Sander, van den Bosch, Antal, and Krahmer, Emiel. ...
[126] Zhao, Sanqiang, Meng, Rui, He, Daqing, Saptono, Andi, and ...
[127] Surya, Sai, Mishra, Abhijit, Laha, Anirban, Jain, Parag, and ...
[128] Zhao, Yanbin, Chen, Lu, Chen, Zhi, and Yu, Kai. ...

نمایش کامل مراجع