語系:
繁體中文
English
說明(常見問題)
回圖書館首頁
手機版館藏查詢
登入
回首頁
切換:
標籤
|
MARC模式
|
ISBD
FindBook
Google Book
Amazon
博客來
Generalized Hate Speech Detection on Social Media = = איתור תכני שנאה ברשתות חברתיות.
紀錄類型:
書目-電子資源 : Monograph/item
正題名/作者:
Generalized Hate Speech Detection on Social Media =/
其他題名:
איתור תכני שנאה ברשתות חברתיות.
作者:
Wullach, Tomer.
其他作者:
וולך, תומר
出版者:
Ann Arbor : ProQuest Dissertations & Theses, : 2021,
面頁冊數:
51 p.
附註:
Source: Masters Abstracts International, Volume: 83-04.
Contained By:
Masters Abstracts International83-04.
標題:
Language. -
電子資源:
http://pqdd.sinica.edu.tw/twdaoapp/servlet/advanced?query=28745550
ISBN:
9798471164567
Generalized Hate Speech Detection on Social Media = = איתור תכני שנאה ברשתות חברתיות.
Wullach, Tomer.
Generalized Hate Speech Detection on Social Media =
איתור תכני שנאה ברשתות חברתיות. - Ann Arbor : ProQuest Dissertations & Theses, 2021 - 51 p.
Source: Masters Abstracts International, Volume: 83-04.
Thesis (Master's)--University of Haifa (Israel), 2021.
This item must not be sold to any third party vendors.
Hate speech detection is a critical problem in social media, being often accused for enabling the spread of hatred and igniting violence. Hate speech monitoring requires overwhelming computing resources as well as thousands of human experts for daily screening of suspected posts or tweets. Recently, Deep Learning (DL)-based solutions have been proposed for hate speech detection. Yet, existing datasets of hate speech are modest in size, comprised of few thousands of manually-labeled text sequences. We show that models trained using these datasets perform well on similar examples, but generalize poorly to different hate speech sequences. In order to achieve a scale-up in train set size and diversity, and exploit the superiority of DL methods given large volumes of data, we first construct a dataset of 1 million hate and non-hate sequences, produced automatically using a deep generative model. We then utilize the generated data to train a well-studied convolution-based DL hate speech detector, demonstrating consistent and significant performance improvements across five public hate speech datasets. In the second part of this thesis, we extend the empirical evaluation, considering additional types of DL classifiers, and larger amounts of generated data. In addition to popular models like BERT and ALBERT, we adapt and examine compact character-based DL models on the task of hate detection. We show that all of the models evaluated benefit from generated data, showing better generalization. In particular, we observe that the character-based models consistently benefit from increased amounts of generated data; while these model are inferior initially, they reach similar, and sometimes better, performance compared with the word-based, pre-trained models, given large amounts of generated examples, despite being smaller in size.
ISBN: 9798471164567Subjects--Topical Terms:
643551
Language.
Generalized Hate Speech Detection on Social Media = = איתור תכני שנאה ברשתות חברתיות.
LDR
:06576nmm a2200385 4500
001
2350033
005
20221020123837.5
008
241004s2021 ||||||||||||||||| ||eng d
020
$a
9798471164567
035
$a
(MiAaPQ)AAI28745550
035
$a
(MiAaPQ)Haifa9919686285302791
035
$a
AAI28745550
040
$a
MiAaPQ
$c
MiAaPQ
100
1
$a
Wullach, Tomer.
$3
3689473
245
1 0
$a
Generalized Hate Speech Detection on Social Media =
$b
איתור תכני שנאה ברשתות חברתיות.
260
1
$a
Ann Arbor :
$b
ProQuest Dissertations & Theses,
$c
2021
300
$a
51 p.
500
$a
Source: Masters Abstracts International, Volume: 83-04.
500
$a
Advisor: Minkov, Einat; Adler, Amir;מינקוב, ענת;אדלר, אמיר.
502
$a
Thesis (Master's)--University of Haifa (Israel), 2021.
506
$a
This item must not be sold to any third party vendors.
520
$a
Hate speech detection is a critical problem in social media, being often accused for enabling the spread of hatred and igniting violence. Hate speech monitoring requires overwhelming computing resources as well as thousands of human experts for daily screening of suspected posts or tweets. Recently, Deep Learning (DL)-based solutions have been proposed for hate speech detection. Yet, existing datasets of hate speech are modest in size, comprised of few thousands of manually-labeled text sequences. We show that models trained using these datasets perform well on similar examples, but generalize poorly to different hate speech sequences. In order to achieve a scale-up in train set size and diversity, and exploit the superiority of DL methods given large volumes of data, we first construct a dataset of 1 million hate and non-hate sequences, produced automatically using a deep generative model. We then utilize the generated data to train a well-studied convolution-based DL hate speech detector, demonstrating consistent and significant performance improvements across five public hate speech datasets. In the second part of this thesis, we extend the empirical evaluation, considering additional types of DL classifiers, and larger amounts of generated data. In addition to popular models like BERT and ALBERT, we adapt and examine compact character-based DL models on the task of hate detection. We show that all of the models evaluated benefit from generated data, showing better generalization. In particular, we observe that the character-based models consistently benefit from increased amounts of generated data; while these model are inferior initially, they reach similar, and sometimes better, performance compared with the word-based, pre-trained models, given large amounts of generated examples, despite being smaller in size.
520
$a
תכני שנאה המופיעים ברשתות חברתיות עלולים לעודד אלימות ואת התפשטות התופעה ברחבהרשת. איתור תכנים אלו מהווה בעיה קריטית שאיתה נאלצות להתמודד רשתיות חברתיות שונת.בכדי להתמודד עם בעיה זו, נדרשים משאבים גדולים וקרים הכוללי כוח אדם מיומן אשר עטר.באופן שוטף תכנים המופיעים ברשתות החברתיות, וכו כ וח עיבוד רב בכדי לסנן את כמות התוכןהעצומה.ההתפתחויות האחרונות במודלים מבוססי למידה עמוקה הביאו לבחינת גישה זו בכדי לאתר תכניםחשודים, אך ג'שה זו דורשת לרוב כמות גדולה של מידע מתויג לצורך אימון המודלים בעוד.שהמאגרים המכילים דוגמאות רלוונטיות ופורסמו לשימוש הכלל הינם קטנים יחסית ומכילים אלפים.בודדים של דוגמאות אשר תויגוידנת.בתזה הזו, אנו מדגימים כיצד מודלים מבוססי למידה עמוקה אמנם משיגים תוצאות טובות לאחר.שאומנו בעזרת דוגמאות מהמאגרים הכ"לונבדקים על דוגמאות דומות, אך התוצאות פחות טובות.כאשר המודלים נבדקים בעזרת דומאות שונות, ולכן ניתן להסיק שיכולת ההכללה של המודלים.בכדי לשפר את יכולות ההכללה, אנו מסתמכים על יכולתם של מודלים מבוססי למידה עמוקה לנצל.כמוית אדירות של מידע. ומצ'גים מאגר נתונים חדש המכל מיליון דוגמאות סינטטיות חדשות אשר.נוצרו בעזרת מודל גנרטיביאנו משתמשים במאגר החדש כדי לאמן מודל הידוע ביכולתו לאתר תכני שנאה, ומציגים שיפור גורף.ביולות הזיהוי כאשר בודקים את המודל בעזרת דוגמאות שמקור בחעזישה מאגרי נתונים שונים.בחלקה השני של התזה, אנו מרחיבים את המחקר נעזרים בכמויות אף גדולות יותר של דוגמאותובמודלים נוספים וניאנו מדגימים את השיטה שהצענו בעזרת המודלים הפופולריים למשימות עיבוד שפה, ד868 ו-86)ג, וכמו כן במודלים נוספים הקטנים מהם במספר סדרי גודל, אשר מסתמכים על "צוג הקלט.כרצף של תווים במקום מילים או חלקי מילים.בנוסף, אנו בודקים האם ישנה חשיבות לכמות הדוגמאות הסינטטיות שנוסיף לסט הנתונים איתם.נאמן את המודלים השונים, והאם ישנם מודלים שביכולתם לנצל דוגמאות אלו בצורה טובה יותר.אנו מסיקים שעל אף שהציגו תחילה תוצאות נחותות, המודלים הקטנים המשתמשים בקלט המיוצ.יםמנצלים בצורה יעילה יותר כמוות גדולות של דוגמאות סינטטיות, ומגיעים לתופאותתות אשר קרובות או טובות יותר מאלו שהתקבו ע" מודלים מתקדמים וגדולים יותר.
590
$a
School code: 1445.
650
4
$a
Language.
$3
643551
650
4
$a
Text categorization.
$3
3689475
650
4
$a
Deep learning.
$3
3554982
650
4
$a
Teaching methods.
$3
595505
650
4
$a
Sensors.
$3
3549539
650
4
$a
Neural networks.
$3
677449
650
4
$a
Adaptation.
$3
3562958
650
4
$a
Probability.
$3
518898
650
4
$a
Natural language processing.
$3
1073412
650
4
$a
Multiculturalism & pluralism.
$3
3558958
650
4
$a
Hate speech.
$3
737070
650
4
$a
Bullying.
$3
533738
650
4
$a
Gender identity.
$3
523751
650
4
$a
Semantics.
$3
520060
650
4
$a
Artificial intelligence.
$3
516317
650
4
$a
Education.
$3
516579
650
4
$a
Linguistics.
$3
524476
650
4
$a
Mathematics.
$3
515831
650
4
$a
Pedagogy.
$3
2122828
650
4
$a
Web studies.
$3
2122754
690
$a
0679
690
$a
0800
690
$a
0515
690
$a
0290
690
$a
0405
690
$a
0456
690
$a
0646
700
1 0
$a
וולך, תומר
$e
joint author
$3
3689474
710
2
$a
University of Haifa (Israel).
$3
3566283
773
0
$t
Masters Abstracts International
$g
83-04.
790
$a
1445
791
$a
Master's
792
$a
2021
793
$a
English
856
4 0
$u
http://pqdd.sinica.edu.tw/twdaoapp/servlet/advanced?query=28745550
筆 0 讀者評論
館藏地:
全部
電子資源
出版年:
卷號:
館藏
1 筆 • 頁數 1 •
1
條碼號
典藏地名稱
館藏流通類別
資料類型
索書號
使用類型
借閱狀態
預約狀態
備註欄
附件
W9472471
電子資源
11.線上閱覽_V
電子書
EB
一般使用(Normal)
在架
0
1 筆 • 頁數 1 •
1
多媒體
評論
新增評論
分享你的心得
Export
取書館
處理中
...
變更密碼
登入