語系:
繁體中文
English
說明(常見問題)
回圖書館首頁
手機版館藏查詢
登入
回首頁
切換:
標籤
|
MARC模式
|
ISBD
FindBook
Google Book
Amazon
博客來
Measuring Semantic Similarity for Arabic Sentences Using Machine Learning = = قياس مستوى التشابه بين الجمل العربية بإستخدام التعلم الآلي .
紀錄類型:
書目-電子資源 : Monograph/item
正題名/作者:
Measuring Semantic Similarity for Arabic Sentences Using Machine Learning =/
其他題名:
قياس مستوى التشابه بين الجمل العربية بإستخدام التعلم الآلي .
作者:
Alian Abdel Rahim, Marwah Mustafa.
出版者:
Ann Arbor : ProQuest Dissertations & Theses, : 2021,
面頁冊數:
228 p.
附註:
Source: Dissertations Abstracts International, Volume: 83-12, Section: B.
Contained By:
Dissertations Abstracts International83-12B.
標題:
Artificial intelligence. -
電子資源:
http://pqdd.sinica.edu.tw/twdaoapp/servlet/advanced?query=28863637
ISBN:
9798819377659
Measuring Semantic Similarity for Arabic Sentences Using Machine Learning = = قياس مستوى التشابه بين الجمل العربية بإستخدام التعلم الآلي .
Alian Abdel Rahim, Marwah Mustafa.
Measuring Semantic Similarity for Arabic Sentences Using Machine Learning =
قياس مستوى التشابه بين الجمل العربية بإستخدام التعلم الآلي . - Ann Arbor : ProQuest Dissertations & Theses, 2021 - 228 p.
Source: Dissertations Abstracts International, Volume: 83-12, Section: B.
Thesis (Ph.D.)--Princess Sumaya University for Technology (Jordan), 2021.
This item must not be sold to any third party vendors.
Semantic similarity represents an important task in many natural language processing applications. In addition, semantic similarity is a metric that shows the relatedness among words, sentences, or documents according to the likeness of their meaning. Semantic similarity has several applications, such as plagiarism detection, text entailment, text summarization, information retrieval, machine translation, and paraphrasing identification. The contribution of this dissertation is the improvement of semantic similarity measurement between sentences using word semantic analysis. This method prepared a good representation for words while considering their context, part of speech, and senses. A good representation for words in the distributional space is provided by word embeddings models such as Word2Vec, but senses and word order are not considered. To overcome the problem of polysemy, we investigated multi-sense representation by measuring the semantic similarity between sentences and use chunks to overcome the word order limitation of Word2Vec. The Arabic language has specific features, such as morphological features, word order, and words with multi-senses that make handling the Arabic text a challenging task. This study is based on word embedding to measure semantic similarity between Arabic sentences while taking into account the impact of several factors, such as part of speech, chunks, and sense representation. To prove the results of the proposed approach, we applied the method on paraphrasing identification. Then, we use human ratings with Pearson correlation and automatic evaluation with precision and recall metrics for evaluation. In addition, we developed an Arabic dataset for paraphrased sentence pairs to be used in the evaluation process. The sentence similarity is measured by including syntactic, semantic, and syntactic-semantic features and then applying linear regression to learn the coefficients of these features and predict the similarity between tested sentences. Experiments are conducted using two datasets, namely, our generated Arabic paraphrasing benchmark and MSRvid (SemEval 2017). The proposed approach achieved a correlation of 0.743 on the SemEval 2017 dataset. However, when applied to the Arabic paraphrasing benchmark, the approach achieved a correlation of 0.354 due to the complexity of this dataset.
ISBN: 9798819377659Subjects--Topical Terms:
516317
Artificial intelligence.
Subjects--Index Terms:
Chunks
Measuring Semantic Similarity for Arabic Sentences Using Machine Learning = = قياس مستوى التشابه بين الجمل العربية بإستخدام التعلم الآلي .
LDR
:07227nmm a2200421 4500
001
2352167
005
20221118093830.5
008
241004s2021 ||||||||||||||||| ||eng d
020
$a
9798819377659
035
$a
(MiAaPQ)AAI28863637
035
$a
AAI28863637
040
$a
MiAaPQ
$c
MiAaPQ
100
1
$a
Alian Abdel Rahim, Marwah Mustafa.
$3
3691790
245
1 0
$a
Measuring Semantic Similarity for Arabic Sentences Using Machine Learning =
$b
قياس مستوى التشابه بين الجمل العربية بإستخدام التعلم الآلي .
260
1
$a
Ann Arbor :
$b
ProQuest Dissertations & Theses,
$c
2021
300
$a
228 p.
500
$a
Source: Dissertations Abstracts International, Volume: 83-12, Section: B.
500
$a
Advisor: Awajan, Arafat.
502
$a
Thesis (Ph.D.)--Princess Sumaya University for Technology (Jordan), 2021.
506
$a
This item must not be sold to any third party vendors.
520
$a
Semantic similarity represents an important task in many natural language processing applications. In addition, semantic similarity is a metric that shows the relatedness among words, sentences, or documents according to the likeness of their meaning. Semantic similarity has several applications, such as plagiarism detection, text entailment, text summarization, information retrieval, machine translation, and paraphrasing identification. The contribution of this dissertation is the improvement of semantic similarity measurement between sentences using word semantic analysis. This method prepared a good representation for words while considering their context, part of speech, and senses. A good representation for words in the distributional space is provided by word embeddings models such as Word2Vec, but senses and word order are not considered. To overcome the problem of polysemy, we investigated multi-sense representation by measuring the semantic similarity between sentences and use chunks to overcome the word order limitation of Word2Vec. The Arabic language has specific features, such as morphological features, word order, and words with multi-senses that make handling the Arabic text a challenging task. This study is based on word embedding to measure semantic similarity between Arabic sentences while taking into account the impact of several factors, such as part of speech, chunks, and sense representation. To prove the results of the proposed approach, we applied the method on paraphrasing identification. Then, we use human ratings with Pearson correlation and automatic evaluation with precision and recall metrics for evaluation. In addition, we developed an Arabic dataset for paraphrased sentence pairs to be used in the evaluation process. The sentence similarity is measured by including syntactic, semantic, and syntactic-semantic features and then applying linear regression to learn the coefficients of these features and predict the similarity between tested sentences. Experiments are conducted using two datasets, namely, our generated Arabic paraphrasing benchmark and MSRvid (SemEval 2017). The proposed approach achieved a correlation of 0.743 on the SemEval 2017 dataset. However, when applied to the Arabic paraphrasing benchmark, the approach achieved a correlation of 0.354 due to the complexity of this dataset.
520
$a
يمثل التشابه الدلالي جزء مهما في العديد من تطبيقات معالجة اللغات الطبيعية. إنه مقياس يوضح العلاقة بين الكلمات أو الجمل أو المستندات وفقًا لتشابهها من حيث المعنى. . التشابه الدلالي له العديد من التطبيقات مثل اكتشاف الانتحال، والاستلزام في النص، وتلخيص النص، واسترجاع المعلومات، والترجمة الآلية، وتحديد الترادف وغيرها. في هذا البحث ، تتمثل مساهمتنا في تحسين قياس التشابه الدلالي بين الجمل باستخدام التحليل الدلالي للكلمات. يتطلب ذلك إعداد تمثيل جيد للكلمات مع مراعاة سياقها واعرابها والمشترك اللفظي لبعض الكلمات. تم توفير تمثيل جيد للكلمات من خلال تضمين الكلمات (Word2Vec) ولكنه لا يأخذ في الاعتبار المشترك اللفظي وترتيب الكلمات. للتغلب على مشكلة المشترك اللفظي ، فإننا نبحث في تمثيل المشترك اللفظي كمتجه في قياس التشابه الدلالي بين الجمل بينما يتم استخدام تحليل الجملة الى أجزاء للتغلب على مشكلة ترتيب الكلمات في Word2Vec . تتميز اللغة العربية بسمات محددة مثل السمات الصرفية وترتيب الكلمات والكلمات متعددة المعنى (المشترك اللفظي) التي تجعل التعامل مع النص العربي مهمة صعبة. نهجنا المقترح هو نهج قائم على تضمين الكلمات لقياس التشابه الدلالي بين الجمل العربية مع مراعاة تأثير عدد من العوامل مثل اعراب الكلمات، وتحليل أجزاء الجملة، وتمثيل المشترك اللفظي. لإثبات نتائج النهج المقترح، تم تطبيق طريقتنا في تحديد الترادف وتم تقييمها باستخدام التقييمات البشرية حسب قانون ارتباط بيرسون والتقييم التلقائي بدقة ومقاييس الاسترجاع. بالإضافة إلى ذلك، قمنا بإنشاء قاعدة بيانات عربية لأزواج الجمل المعاد صياغتها لاستخدامها في عملية التقييم. يقاس تشابه الجملة من خلال استخدام السمات النحوية والدلالية والنحوية- الدلالية ثم تطبيق linear regression لمعرفة معاملات هذه الميزات والتنبؤ بالتشابه بين الجمل المختبرة. يتم إجراء التجارب باستخدام اثنتين من datasets؛ مجموعة الجمل المعاد صياغتها والتي تم إنشاؤها من قبلنا و MSRvid -SemEval 2017. حقق النهج المقترح ارتباطًا قدره 0.743 في MSRvid datasetبينما حقق ارتباطًا قدره 0.354 عند تطبيقه على dataset للجمل المعاد صياغتها بسبب التعقيد الناتج عن استخدام قواعد التحويل في هذه الجمل.
590
$a
School code: 2116.
650
4
$a
Artificial intelligence.
$3
516317
650
4
$a
Information technology.
$3
532993
650
4
$a
Language.
$3
643551
650
4
$a
Linguistics.
$3
524476
650
4
$a
Middle Eastern studies.
$3
3168421
653
$a
Chunks
653
$a
Dependency parsing
653
$a
Part of speech
653
$a
Semantic similarity
653
$a
Sense representation
653
$a
Word embedding
690
$a
0800
690
$a
0489
690
$a
0555
690
$a
0679
690
$a
0290
710
2
$a
Princess Sumaya University for Technology (Jordan).
$b
Department of Computer Science.
$3
3682737
773
0
$t
Dissertations Abstracts International
$g
83-12B.
790
$a
2116
791
$a
Ph.D.
792
$a
2021
793
$a
English
856
4 0
$u
http://pqdd.sinica.edu.tw/twdaoapp/servlet/advanced?query=28863637
筆 0 讀者評論
館藏地:
全部
電子資源
出版年:
卷號:
館藏
1 筆 • 頁數 1 •
1
條碼號
典藏地名稱
館藏流通類別
資料類型
索書號
使用類型
借閱狀態
預約狀態
備註欄
附件
W9474605
電子資源
11.線上閱覽_V
電子書
EB
一般使用(Normal)
在架
0
1 筆 • 頁數 1 •
1
多媒體
評論
新增評論
分享你的心得
Export
取書館
處理中
...
變更密碼
登入