Hatebase แคตตาล็อกคำพูดแสดงความเกลียดชังของโลกแบบเรียลไทม์ดังนั้นคุณไม่จำเป็นต้อง – TechCrunch


การพูดแสดงความเกลียดชังการรักษาเป็นสิ่งที่เกือบทุกแพลตฟอร์มการสื่อสารออนไลน์ดิ้นรนกับ เพราะตำรวจคุณต้องตรวจจับมัน และในการตรวจจับคุณต้องเข้าใจ Hatebase เป็น บริษัท ที่ได้สร้างความเข้าใจคำพูดแสดงความเกลียดชังภารกิจหลักและให้ความเข้าใจว่าเป็นการบริการซึ่งเป็นสิ่งที่มีค่ามากขึ้นเรื่อย ๆ

โดยพื้นฐานแล้ว Hatebase จะวิเคราะห์การใช้ภาษาบนเว็บโครงสร้างและบริบทของข้อมูลผลลัพธ์และขาย (หรือให้) ฐานข้อมูลผลลัพธ์แก่ บริษัท และนักวิจัยที่ไม่มีความเชี่ยวชาญในการทำสิ่งนี้ด้วยตนเอง

บริษัท แคนาดาซึ่งเป็นกิจการขนาดเล็ก แต่กำลังเติบโตได้ออกมาจากการวิจัยที่โครงการ Sentinel เพื่อทำนายและป้องกันความโหดร้ายจากการวิเคราะห์ภาษาที่ใช้ในภูมิภาคที่มีความขัดแย้ง

“ สิ่งที่ Sentinel ค้นพบคือคำพูดแสดงความเกลียดชังมีแนวโน้มที่จะนำความขัดแย้งเหล่านี้มาเพิ่ม” ทิโมธีควินน์ผู้ก่อตั้งและซีอีโอของ Hatebase อธิบาย “ ฉันร่วมมือกับพวกเขาเพื่อสร้าง Hatebase เป็นโครงการนำร่อง – โดยทั่วไปแล้วเป็นศัพท์เฉพาะของคำพูดแสดงความเกลียดชังหลายภาษา สิ่งที่ทำให้เราประหลาดใจก็คือองค์กรเอกชนอื่น ๆ มากมาย [non-governmental organizations] เริ่มใช้ข้อมูลของเราเพื่อจุดประสงค์เดียวกัน จากนั้นเราเริ่มรับหน่วยงานเชิงพาณิชย์จำนวนมากโดยใช้ข้อมูลของเรา ดังนั้นเมื่อปีที่แล้วเราจึงตัดสินใจที่จะเปิดตัวเมื่อเริ่มต้น”

คุณอาจกำลังคิดว่า“ มีอะไรยากมากเกี่ยวกับการตรวจจับคนพูดจาไม่สุภาพและวลีที่แสดงความเกลียดชัง?” และแน่นอนว่าทุกคนสามารถบอกคุณได้ว่าเป็นคนพูดจาอนาจารและสิ่งที่น่ารังเกียจที่สุด มีมากกว่าที่จะเกลียดการพูดมากกว่าเพียงแค่สองคำที่น่าเกลียด เป็นคำสแลงทั้งหมดและภาษาสแลงของภาษาเดียวจะเติมพจนานุกรม สิ่งที่เกี่ยวกับคำสแลงของทุกภาษา?

พจนานุกรมขยับ

ดังที่วิกเตอร์ฮูโก้ชี้ให้เห็นใน Les Miserables คำสแลง (หรือ "โต้แย้ง" ในภาษาฝรั่งเศส) เป็นส่วนที่ไม่แน่นอนของภาษาใด ๆ คำพูดเหล่านี้อาจเป็น“ คำโดดเดี่ยวป่าเถื่อนและบางครั้งน่าเกลียด…เถียงเป็นสำนวนแห่งการคอร์รัปชั่นเสียหายได้ง่าย ยิ่งกว่านั้นเมื่อมันมักจะปลอมตัวทันทีที่มันรับรู้ว่ามันเข้าใจมันจะแปลงตัวเอง”

ไม่เพียง แต่เป็นคำแสลงและคำพูดแสดงความเกลียดชังเท่านั้น ดังนั้นงานในการทำแคตตาล็อกจึงเป็นงานที่ต่อเนื่อง

Hatebase ใช้การผสมผสานระหว่างกระบวนการแบบมนุษย์และแบบอัตโนมัติเพื่อขูดเว็บสาธารณะสำหรับการใช้คำที่เกี่ยวข้องกับความเกลียดชัง “ เราออกไปหลายแหล่ง – ที่ยิ่งใหญ่ที่สุดเท่าที่คุณจะจินตนาการได้คือ Twitter – และเราดึงมันทั้งหมดแล้วส่งกลับไปที่ Hatebrain เป็นโปรแกรมภาษาธรรมชาติที่ผ่านการโพสต์และส่งคืนความจริงเท็จหรือไม่รู้จัก”

จริงหมายความว่าค่อนข้างมั่นใจว่าเป็นคำพูดแสดงความเกลียดชัง – คุณสามารถจินตนาการได้ว่ามีตัวอย่างมากมาย เท็จหมายถึงไม่แน่นอน และไม่ทราบว่ามันไม่แน่ใจ บางทีมันอาจเป็นการเสียดสีหรือพูดคุยเชิงวิชาการเกี่ยวกับวลีหรือบางคนที่ใช้คำที่เป็นของกลุ่มและพยายามเรียกคืนหรือตำหนิผู้อื่นที่ใช้มัน เหล่านี้คือค่าที่ใช้งานผ่าน API และผู้ใช้สามารถเลือกที่จะค้นหาข้อมูลหรือบริบทเพิ่มเติมในฐานข้อมูลขนาดใหญ่รวมถึงสถานที่ตั้งความถี่ระดับความไม่พอใจและอื่น ๆ ด้วยข้อมูลประเภทนี้คุณสามารถเข้าใจแนวโน้มของโลกมีความสัมพันธ์กับกิจกรรมอื่น ๆ หรือเพียงแค่ติดตามโลกที่เคลื่อนไหวอย่างรวดเร็วของกลุ่มชาติพันธุ์

คำพูดแสดงความเกลียดชังถูกติดธงไปทั่วโลก – สิ่งเหล่านี้ถูกตรวจจับได้ไม่กี่วันพร้อมกับละติจูดและลองจิจูดของ IP ที่มาจาก

ควินน์ไม่ได้แสร้งทำเป็นว่ากระบวนการนั้นมีมนต์ขลังหรือสมบูรณ์แบบ “ มีเพียงไม่กี่ร้อยเปอร์เซ็นต์ที่ออกมาจาก Hatebrain” เขาอธิบาย “ มันแตกต่างกันเล็กน้อยจากวิธีการเรียนรู้ของเครื่องที่คนอื่นใช้ ML นั้นยอดเยี่ยมเมื่อคุณมีชุดฝึกอบรมที่ไม่คลุมเครือ แต่ด้วยคำพูดของมนุษย์และคำพูดแสดงความเกลียดชังซึ่งอาจเหมาะสมยิ่งนั่นคือเมื่อคุณมีอคติลอยเราไม่ได้มีคลังคำพูดแสดงความเกลียดชังขนาดใหญ่เพราะไม่มีใคร สามารถเห็นด้วยกับคำพูดแสดงความเกลียดชัง”

นั่นเป็นส่วนหนึ่งของปัญหาที่ บริษัท ต่าง ๆ ต้องเผชิญเช่น Google, Twitter และ Facebook – คุณไม่สามารถทำให้สิ่งที่ไม่สามารถเข้าใจได้โดยอัตโนมัติ

โชคดีที่ Hatebrain ยังใช้สติปัญญาของมนุษย์ในรูปแบบของคณะอาสาสมัครและพันธมิตรที่รับรองความถูกต้องตัดสินและรวบรวมจุดข้อมูลที่คลุมเครือมากขึ้น

“ เรามีเอ็นจีโอมากมายที่เป็นพันธมิตรกับเราในภูมิภาคที่มีความหลากหลายทางภาษาทั่วโลกและเราเพิ่งเปิดตัวโปรแกรม 'พลเมืองภาษาศาสตร์' ซึ่งเป็นอาสาสมัครของ บริษัท ของเราและพวกเขากำลังปรับปรุงและอนุมัติและทำความสะอาดอย่างต่อเนื่อง คำจำกัดความ” ควินน์กล่าว “ เราให้ความสำคัญกับข้อมูลที่พวกเขามอบให้เรา”

มุมมองของท้องถิ่นนั้นมีความสำคัญต่อการทำความเข้าใจบริบทของคำศัพท์ เขายกตัวอย่างของคำในไนจีเรียซึ่งเมื่อใช้ระหว่างสมาชิกของกลุ่มหนึ่งหมายถึงเพื่อน แต่เมื่อใช้โดยกลุ่มนั้นเพื่ออ้างถึงคนอื่นหมายถึงไม่มีการศึกษา เป็นไปได้ยากที่ทุกคน แต่ไนจีเรียจะสามารถบอกคุณได้ว่า ปัจจุบัน Hatebase ครอบคลุม 95 ภาษาใน 200 ประเทศและเพิ่มเข้ามาตลอดเวลา

นอกจากนี้ยังมีคำว่า "intensifiers" ซึ่งเป็นคำที่ไม่เหมาะสำหรับตัวเอง แต่เป็นการระบุว่ามีคนเน้นคำหรือประโยค ปัจจัยอื่นเข้ามาด้วยเช่นกันซึ่งบางอย่างเป็นเอ็นจินภาษาธรรมชาติอาจไม่สามารถรับรู้ได้เนื่องจากมีข้อมูลน้อยมาก ดังนั้นนอกเหนือจากการปรับปรุงคำจำกัดความทีมยังทำงานอย่างต่อเนื่องในการปรับปรุงพารามิเตอร์ที่ใช้ในการจัดหมวดหมู่คำพูด Hatebrain พบ

สร้างฐานข้อมูลที่ดีกว่าสำหรับวิทยาศาสตร์และผลกำไร

ระบบเพิ่งติดเครื่องเห็นคำพูดแสดงความเกลียดชังเป็นล้าน (อาจจะเป็นสิบเท่าที่วลีจำนวนมากประเมิน) ซึ่งฟังดูพร้อม ๆ กันมากและน้อย เป็นเพียงเล็กน้อยเนื่องจากปริมาณการพูดบนอินเทอร์เน็ตมีมากมายจนคาดว่าแม้จะเป็นเพียงส่วนเล็ก ๆ ของมันก็เป็นคำพูดแสดงความเกลียดชังที่เพิ่มขึ้นเป็นล้านและมากกว่านั้น

แต่มันก็เยอะเพราะไม่มีใครรวบรวมฐานข้อมูลขนาดและคุณภาพนี้ ชุดคำและวลีที่ตรวจสอบแล้วนับล้านจุดข้อมูลที่จัดว่าเป็นคำพูดแสดงความเกลียดชังหรือไม่แสดงความเกลียดชังเป็นสินค้าที่มีค่าทั้งหมดด้วยตัวเอง นั่นคือเหตุผลที่ Hatebase ให้บริการฟรีแก่นักวิจัยและสถาบันที่ใช้เพื่อวัตถุประสงค์ด้านมนุษยธรรมหรือวิทยาศาสตร์

แต่ บริษัท และองค์กรขนาดใหญ่ที่ต้องการตรวจจับคำพูดแสดงความเกลียดชังเพื่อวัตถุประสงค์ในการกลั่นกรองจ่ายค่าใบอนุญาตซึ่งทำให้ไฟติดและช่วยให้ระดับฟรีมีอยู่

ฉันคิดว่าเราได้เครือข่ายสังคมที่ใหญ่ที่สุดในโลกสี่แห่งที่ดึงข้อมูลของเรามาแล้ว เราได้รับข้อมูลของสหประชาชาติองค์กรพัฒนาเอกชนองค์กรระดับสูงในพื้นที่ที่ทำงานในพื้นที่ที่มีความขัดแย้ง เราดึงข้อมูลสำหรับ LAPD ในช่วงสองสามปีที่ผ่านมา และเรากำลังพูดคุยกับแผนกรัฐบาลมากขึ้น” ควินน์กล่าว

พวกเขามีลูกค้าเชิงพาณิชย์จำนวนมากซึ่งส่วนใหญ่อยู่ภายใต้ NDA ควินน์ตั้งข้อสังเกต แต่ล่าสุดการเข้าร่วมได้ทำเช่นนั้นต่อสาธารณะและ TikTok นั้น อย่างที่คุณสามารถจินตนาการได้แพลตฟอร์มยอดนิยมเช่นนั้นต้องการการกลั่นกรองที่รวดเร็วและแม่นยำ

ในความเป็นจริงมันเป็นเรื่องของวิกฤตเนื่องจากมีกฎหมายเข้ามาเล่นซึ่งทำให้ บริษัท มีจำนวนมหาศาลหากพวกเขาไม่ลบเนื้อหาที่ละเมิดออกโดยทันที การคุกคามแบบนั้นทำให้สายกระเป๋าหลวม หากค่าปรับอาจอยู่ในหลายสิบล้านดอลลาร์การจ่ายเงินเพียงเล็กน้อยสำหรับการบริการเช่น Hatebase เป็นการลงทุนที่ดี

“ ระบบนิเวศออนไลน์ขนาดใหญ่เหล่านี้จำเป็นต้องนำสิ่งนี้ออกจากแพลตฟอร์มของพวกเขาและพวกเขาจำเป็นต้องทำให้การดัดแปลงเนื้อหาเป็นเปอร์เซ็นต์โดยอัตโนมัติ” ควินน์กล่าว “ เราไม่เคยคิดว่าเราจะสามารถกำจัดการกลั่นกรองของมนุษย์นั่นเป็นเป้าหมายที่ไร้สาระและไม่สามารถบรรลุได้ สิ่งที่เราต้องการทำคือช่วยเหลือระบบอัตโนมัติที่มีอยู่แล้ว มันไม่สมจริงมากขึ้นทุกชุมชนออนไลน์ที่อยู่ภายใต้ดวงอาทิตย์กำลังจะสร้างฐานข้อมูลขนาดใหญ่ของตัวเองสำหรับคำพูดแสดงความเกลียดชังหลายภาษา AI ของพวกเขาเอง เช่นเดียวกับที่ บริษัท ต่างๆไม่มีเมล์เซิร์ฟเวอร์ของตัวเองอีกต่อไปพวกเขาใช้ Gmail หรือพวกเขาไม่มีห้องเซิร์ฟเวอร์พวกเขาใช้ AWS นั่นคือแบบจำลองของเราเราเรียกตัวเองว่าเกลียดการพูดในฐานะบริการ ประมาณครึ่งหนึ่งของพวกเราชอบคำนี้ แต่ครึ่งหนึ่งไม่ได้ แต่นั่นคือแบบจำลองของเรา”

ลูกค้าเชิงพาณิชย์ของ Hatebase ทำให้ บริษัท มีผลกำไรตั้งแต่วันแรก แต่พวกเขา“ ไม่กลิ้งเงินสดด้วยวิธีใด ๆ ”

“ เราไม่หวังผลกำไรจนกว่าเราจะแยกตัวออกมาและเราจะไม่เดินออกไปจากสิ่งนั้น แต่เราต้องการเงินทุนด้วยตนเอง” ควินน์กล่าว การพึ่งพาความมีน้ำใจของคนแปลกหน้าอย่างมากมายนั้นไม่มีทางที่จะทำธุรกิจต่อไปได้ บริษัท กำลังว่าจ้างและลงทุนในโครงสร้างพื้นฐาน แต่ควินน์ระบุว่าพวกเขาไม่ได้มองหาการเติบโตของน้ำผลไม้หรืออะไรก็ตามแค่ให้แน่ใจว่างานที่ต้องทำมีคนทำอยู่

ในระหว่างนี้ดูเหมือนว่า Quinn จะชัดเจนและทุกคนอื่น ๆ ที่ข้อมูลประเภทนี้มีค่าจริงแม้ว่าจะไม่ค่อยง่าย

“ มันเป็นปัญหาที่ซับซ้อนจริงๆ เรามักจะต่อสู้กับมันคุณรู้ไหมในแง่ของความเกลียดชังการพูดเล่นบทบาทอะไร ข้อมูลที่ผิดมีบทบาทอะไร บทบาททางสังคมและเศรษฐกิจมีบทบาทอย่างไร” เขากล่าว “ มีบทความที่ดีที่ออกมาจาก University of Warwick พวกเขาศึกษาความสัมพันธ์ระหว่างคำพูดแสดงความเกลียดชังและความรุนแรงต่อผู้อพยพในประเทศเยอรมนีฉันอยากจะพูดว่า 2015 ถึง 2017 พวกเขาวาดกราฟออกมา คุณรู้ว่ามันเป็นจุดสูงสุดสำหรับยอดเขา มันน่าทึ่ง. เราไม่ต้องวิเคราะห์อะไรมากมายเราเป็นผู้ให้บริการข้อมูล”

“ แต่ตอนนี้มีเหมือนมหาวิทยาลัยเกือบ 300 แห่งที่ดึงข้อมูลและ พวกเขา ทำการวิเคราะห์ประเภทนั้น นั่นเป็นการตรวจสอบที่ดีสำหรับเรา”

คุณสามารถเรียนรู้เพิ่มเติมเกี่ยวกับ Hatebase เข้าร่วมเป็นนักภาษาศาสตร์ของพลเมืองหรือเป็นหุ้นส่วนในการวิจัยหรือดูการพบเห็นและการอัพเดทล่าสุดในฐานข้อมูลได้ที่เว็บไซต์ของ บริษัท