Über die Automatische Erkennung von Hassrede

24. Oktober 2022 | Janis Goldzycher | Keine Kommentare |

Mit der immer weiter wachsenden Popularität von sozialen Netzwerken haben Beleidigungen und Hassrede ein Medium erhalten, durch das sie sich schnell verbreiten und eine immense Wirkung entfalten können. Um Hassrede einzudämmen, verwenden Plattformbetreiber*innen Algorithmen, die diese automatisch erkennen sollen. Die Entwicklung, Verbesserung und Evaluation solcher Algorithmen ist ein sich schnell entwickelndes Forschungsfeld innerhalb der Sprachtechnologie. Martin Volk und ich haben im Frühling ein Seminar zum Thema gegeben. In diesem Beitrag möchte ich zum einen einen Einblick in das Thema der automatischen Erkennung von Hassrede geben und zum anderen vom Seminar berichten.

Was ist Hassrede?

Der Begriff Hassrede ist eine Lehnübersetzung des englischen Hate Speech. Die Bedeutung von Hate Speech wird nicht einheitlich gehandhabt. Man kann aber grundsätzlich zwei Verwendungen unterscheiden: Im allgemeinen, nicht-fachlichen Diskurs wird er häufig als Oberbegriff für beleidigende und hetzerische Kommentare, für Drohungen, Aufrufe zu Gewalt und weitere ähnliche Inhalte verwendet. Im Fachdiskurs wird die Bedeutungsgrenze enger gezogen: Hier versteht man Hate Speech als angreifende, drohende, hetzerische oder diskriminierende Sprache, die sich gegen bestimmte gesellschaftliche Gruppen – definiert über Religion, Hautfarbe, ethnische Zugehörigkeit, Herkunft, Gender, sexuelle Orientierung, Behinderung u.ä. – oder gegen einzelne Personen aufgrund ihrer Zugehörigkeit zu einer solchen Gruppe richtet. Je nach Definition ist auch relevant, ob die Gruppe eine dominante oder marginalisierte Position innerhalb einer Gesellschaft innehat. Gemäss dieser Verwendung ist Hate Speech folglich nur eine Kategorie unter anderen Kategorien hasserfüllter Sprache. In diesem Beitrag verwende ich Hate Speech, oder im Deutschen Hassrede, in diesem engen, zweiten Sinn – so gut wie alles hier Geschriebene trifft aber auch auf die breitere Verwendung des Begriffs zu.

Verwendung von Hate Speech Detection

Für Plattformbetreiber*innen, Online-Zeitungen und Forenbetreiber*innen gibt es zwei Hauptgründe, Technologie zur automatischen Erkennung von Hassrede zu verwenden: Zum einen ist es auf grösseren Plattformen aufgrund der Menge von Posts kaum möglich, jeden einzelnen Post manuell überprüfen zu lassen. Um die Anzahl der manuell zu prüfenden Posts zu verringern, setzen Plattformbetreiber*innen automatische Systeme ein und lassen nur diejenigen Posts von Menschen überprüfen, bei denen das automatische Erkennungssystem besonders unsicher ist. Trotz des Einsatzes solcher Systeme arbeiten Schätzungen zufolge heute etwa 100’000 Menschen als Content Moderators, also Inhaltsmoderator*innen, die entscheiden, was auf einer Plattform erscheinen darf und was nicht. Die inzwischen immer deutlicher zutage tretende Tatsache, dass Inhaltsmoderator*innen durch die zu moderierenden Inhalte starken psychischen Belastungen ausgesetzt sind, begründet zum anderen ein starkes Interesse an der Weiterentwicklung der automatischen Erkennung von Hassrede. Wie viele Inhaltsmoderator*innen genau an posttraumatischen Belastungsstörungen oder Depressionen erkranken, ist nicht bekannt. Die vielen Berichte und Reportagen, die davon zeugen, lassen jedoch vermuten, dass ein grosser Teil derjenigen, die diese Aufgabe über längere Zeit als Vollzeitjob ausüben, davon betroffen sind. Folglich ist das Verringern der Notwendigkeit von manueller Inhaltsmoderation eine häufig genannte Motivation zur Entwicklung besserer Algorithmen für Hate Speech Detection.

Ein Hate Speech Detection Algorithmus löscht oder blockiert keine Posts – er produziert lediglich eine Wahrscheinlichkeit, dass ein Post Hassrede enthält. Es gibt verschiedene Möglichkeiten, wie Plattformbetreiber*innen auf die Erkennung von Hate Speech reagieren können. Die bekannteste Reaktion ist, den fraglichen Text zu löschen oder gar nicht erst zu veröffentlichen. Aber Plattformbetreiber*innen können auch „sanftere“ Methoden anwenden, wie z.B. User*innen mit einer automatisierten Nachricht darauf aufmerksam machen, dass der Post Hassrede enthält und sie dazu auffordern, entweder den Text anzupassen – sprich die Hassrede zu entfernen –, oder den Post selbst zu löschen. Eine weitere Möglichkeit, falls die Intervention vor oder während der Veröffentlichung stattfindet, besteht darin, kritisch nachzufragen, ob die Benutzer*innen den Text so tatsächlich veröffentlichen wollen. Immer populärer wird auch die Methode der Gegenrede – also unter dem als Hassrede erkannten Post einen von Menschen oder automatisch verfassten Kommentar zu veröffentlichen, der argumentativ gegensteuert.

Hate Speech Detection wird nicht nur von Plattformbetreiber*innen verwendet. Sie hilft auch Forscher*innen dabei, Hass und Konflikte im Netz zu analysieren, zu kartieren und besser zu verstehen. Sie kann somit als Werkzeug bei der Beantwortung von geistes- und sozialwissenschaftlichen Fragestellungen dienen.

Sprachtechnologie und Hassrede

Sprachtechnologie (eine lose Übersetzung aus dem Englischen Natural Language Processing) und Computerlinguistik arbeiten an der Schnittstelle zwischen Informatik und menschlicher Sprache. Beide Disziplinen beschäftigen sich mit der automatischen Verarbeitung von menschlicher Sprache und unterscheiden sich nur in ihrem jeweiligen Ziel: Die Sprachtechnologie will Software entwickeln, die mit menschlicher Sprache umgehen kann. Computerlinguistik dagegen bedient sich derselben Methoden mit dem Ziel, sprachwissenschaftliche Erkenntnisse zu erlangen. Häufig werden beide Begriffe auch synonym verwendet.

Das Phänomen der Online Hassrede führt diese beiden Ziele zusammen: Ein grosser Teil der Forschung fokussiert auf Entwicklung und Evaluation von immer besseren Methoden zur automatischen Erkennung von Hassrede und ähnlichen Phänomenen – hier sind wir in der Sprachtechnologie. Dieselben Methoden werden aber auch verwendet, um linguistische und soziologische Fragen rund um Hassrede zu erforschen – dann bewegen wir uns in der Computerlinguistik.

Sprachtechnolog*innen denken in Tasks, also in Aufgaben, die ein maschinelles System erfolgreich erledigen soll. Zu solchen Tasks gehören z.B. maschinelle Übersetzung, Information Retrieval (das, was Suchmaschinen leisten), Relation Extraction (das automatische Extrahieren von Relationen zwischen Entitäten, um Wissensdatenbanken aufzubauen) usw. – oder eben auch die automatische Erkennung von Hassrede: Hate Speech Detection.

Hassrede ist von vielen verwandten Phänomenen umgeben, wie z.B. Cyber-Bullying, diffamierende Sprache sowie sexistisch oder rassistisch motivierte Angriffe. Entsprechend existieren in der Sprachtechnologie eine Vielzahl sich überschneidender Tasks, die schwer auseinanderzuhalten sind, wie cyber-bullying detection, offensive language detection, abusive language detection, sexism detection, racism detection – und eben hate speech detection. All diese Tasks haben dieselbe Struktur, die ich hier am Beispiel Hate Speech Detection erläutere: Für einen gegebenen Text oder ein Textfragment fällt ein System eine binäre Entscheidung: entweder, dass der Text Hassrede enthält, oder dass er keine enthält. Tatsächlich geben solche Systeme meistens eine Wahrscheinlichkeit zwischen 0 und 1 aus. Die Benutzer*innen des Systems (soziale Medien, Kommentarspaltenbetreiber*innen etc.) definieren jeweils einen Schwellenwert, ab dem der Text als Hassrede behandelt wird – oder sie geben Fälle, bei denen die Hassrede-Wahrscheinlichkeit in ein bestimmtes Wahrscheinlichkeitsintervall fällt, an Inhaltsmoderator*innen zur Prüfung weiter.

Wie funktioniert die automatische Erkennung von Hassrede?

Die Algorithmen und Systeme für Hate Speech Detection werden nicht händisch programmiert, sondern basieren auf maschinellem Lernen. Das heisst, dass sie aus vielen (Tausenden bis Millionen) Beispielen lernen, wie typische Hassrede aussieht – und wie nicht. Um dies möglich zu machen, benötigt man annotierte oder gelabelte Daten. Für Hate Speech Detection bedeutet das Folgendes: Wir brauchen Texte, die jeweils mit der Information gepaart sind, ob der Text Hassrede enthält oder nicht. Manchmal werden auch zusätzliche Informationen hinzugefügt, zum Beispiel gegen welche soziale Gruppe sich der Text richtet, ob der Text bestimmte Stereotype verwendet, ob er explizite Drohungen oder Aufrufe zu Gewalt enthält usw. Erst durch diese (in aufwändiger händischer Arbeit) hinzugefügten Informationen sind Algorithmen in der Lage, Muster zu erlernen, welche die Erkennung von Hassrede erlauben.

Aktuelle Algorithmen, typischerweise künstliche neuronale Netzwerke, zerlegen die eingehenden Texte in viele kleine Einzelteile. Je nachdem sind das Wörter, silbenänhliche Buchstabenkombinationen oder einzelne Buchstaben. Diese Einzelteile werden in im Voraus erlernte numerische Repräsentationen übersetzt, welche die Bedeutung der Textbruchstücke abbilden. Diese werden dann durch ein Netzwerk geschickt, das die numerischen Repräsentationen miteinander kombiniert, die Kombinationen der Repräsentationen wieder neu miteinander kombiniert usw., bis am Ende eine finale Kombination stattfindet, aus der eine Zahl hervorgeht – die Wahrscheinlichkeit, dass der gegebene Input-Text Hassrede enthält. Für das Netzwerk lernbar, also anpassbar, ist dabei die Gewichtung der einzelnen Repräsentationen, wenn sie mit anderen zu neuen Repräsentationen kombiniert werden. Typischerweise haben künstliche neuronale Netzwerke mehrere hundert Millionen bis Milliarden solcher anpassbaren Gewichte.

Während der Trainingsphase bekommt das Netzwerk einen Text als Input und produziert eine Hate Speech-Wahrscheinlichkeit. Anschliessend wird es mit dem korrekten Label für den Input präsentiert, um die internen Gewichte anpassen zu können. Beim Testen und Anwenden bestimmt man entweder einen Schwellwert, ab dem ein Input als Hassrede betrachtet wird. Oder man definiert ein Wahrscheinlichkeitsintervall: Wenn die Hate Speech-Wahrscheinlichkeit in diesem Intervall liegt, dann wird der Text an Moderator*innen weitergegeben und wenn die Wahrscheinlichkeit über oder unter den Intervallgrenzen liegt, dann wird der Text direkt als Hassrede oder nicht-Hassrede betrachtet.

Während der Trainingsphase bekommt das Netzwerk als Input einen Text und produziert als Output eine Wahrscheinlichkeit für Hassrede. Daraufhin wird dem Netzwerk das dazugehörige Label, d.h. die menschliche Annotation, präsentiert. Falls das Netzwerk mit seiner Vorhersage falsch lag (also bspw. eine tiefe Wahrscheinlichkeit bei vorhandener Hassrede produziert hat), werden die internen Gewichte entsprechend ihrem Beitrag zur falschen Vorhersage leicht korrigiert. Die Trainingsphase (auch Lernen oder Optimierung genannt) besteht aus einem 1000-fachen bis millionenfachen Wiederholen von diesem Vorhersagen und Anpassen der internen Gewichte. Ziel dabei ist es, die Gewichte schliesslich so angepasst zu haben, dass das Netzwerk für jeden Input die richtige Wahrscheinlichkeit produziert.

Den so trainierten Algorithmus können wir nun mit annotierten Beispielen testen, die dem Algorithmus während des Trainings vorenthalten wurden. Wir lassen ihn Wahrscheinlichkeiten für diese annotierten Beispiele produzieren und werten aus, wie häufig er (eher) richtig oder (eher) falsch lag. Wenn das Ergebnis gut genug ist, kann der Algorithmus zur Anwendung kommen.

Seminar zur Automatischen Erkennung von Hassrede

Im Frühlingssemester 2022 haben Martin Volk und ich ein Seminar zu diesem Thema gegeben. 16 Student*innen nahmen teil. Zu Beginn der ersten Lektion stellten sich alle Studierenden vor und erzählten, wieso sie den Kurs gewählt hatten. Dabei wurde schnell klar, dass sie hochmotiviert waren – unter anderem auch wegen persönlicher Betroffenheit von Hassrede. Der vorgesehene Anfang meiner Präsentation, der das Thema hätte motivieren sollen, erübrigte sich somit. Im Verlauf des Semester hielten alle Student*innen Vorträge, in denen sie ein breites Themenfeld abdeckten: von Anwendungsfällen, speziellen Herausforderungen bis hin zu zukünftigen Entwicklungen. Eine Auswahl der behandelten Themen werde ich hier überblicksartig nachzeichnen.

Die Vortragsthemen der Studierenden

Hate Speech in Subtitles
Perspectivism in Annotation
Dog Whistling Detection
Data Scarcity
Hate Speech Automated Moderation in Online Video Games (League of Legends)
Hate Speech Detection Methods in Online Video Game Chats
Misogyny: Overview of Existing Datasets
Implicit Hate Speech and Abusive Language
Processing of Emojis in Hate Speech
Counter Speech Generation
Hate Speech Revolving around the Covid Pandemic
Hate Speech Detection vs. Fake News Detection
Hate Speech and Multimodality
State of German-Language Hate Speech Detection
The Relationship of Hate Speech to Radicalisation and Extremism

Eine erste Gruppe von Vortragenden beschäftigte sich mit verschiedenen Kontexten, in denen Hassrede auftritt sowie mit den Reaktionen der Plattformbetreiber*innen darauf. So beschäftigten sich zwei Vorträge mit Hassrede in Chats von Multi-Player Videospielen – eine Domäne, von welcher Gamer*innen häufig berichten, dass diskriminierende Sprache weit verbreitet ist. Über die Ansätze und Methoden zur Inhaltsmoderation der Spielehersteller*innen ist aber vergleichsweise wenig bekannt. Weitere Vorträge diskutierten Hassrede in Untertiteln sowie das Auftreten und die Erkennung von Hassrede auf sozialen Medien gegen asiatisch oder chinesisch gelesene Menschen im Kontext der Covid-Pandemie.

Andere Studierende beschäftigten sich mit verschiedensten Herausforderungen und Problemen bei der automatischen Erkennung von Hassrede. Die im Folgenden beschriebenen Vorträge widmeten sich jeweils einer dieser Herausforderungen.

Klassische Systeme zur Erkennung von Hassrede ignorieren nicht-alphanumerische Zeichen des zu bewertenden Texts wie Emojis. Das führt zu Fehlern, wann immer ein Emoji notwendig ist, um eine Nachricht zu verstehen. An Möglichkeiten, Hassnachrichten aus oder mit Emojis zu basteln, fehlt es nicht. Neuere Methoden versuchen deswegen, die Bedeutung(en) von Emojis abzubilden und in die Entscheidung der Algorithmen miteinfliessen zu lassen.

Hassrede kann nicht nur aus Text und Emojis, sondern auch aus Text und Bild(-ern) zusammengesetzt sein. Memes, das sind Bilder, die mit Text kombiniert werden, werden häufig zur Verbreitung von Hassbotschaften eingesetzt und sind für “konventionelle” Hate Speech Detection nicht fassbar, da diese Systeme nur mit Text umgehen können. In den letzten Jahren hat deswegen die Entwicklung von multimodaler Hate Speech Detection, also Systemen, die mit mehreren Input-Modalitäten umgehen können (Bild und Schrift zählen im maschinellen Lernen als distinkte Modalitäten) an Fahrt aufgenommen. Sie ist angesichts der höheren Komplexität aber noch lange nicht so weit wie Hate Speech Detection für “nur” Text.

“Data Scarcity”, also Datenknappheit, ist ein Problem in vielen Bereichen des maschinellen Lernens. Im Bereich der Hate Speech Detection fehlt es zwar nicht an Social Media Daten allgemein, aber an solchen, die mit den entsprechenden Labels annotiert sind. Da sich die meiste Forschung auf Englisch konzentriert, gibt es zwar für das Englische genug annotierte Daten, für fast alle anderen Sprachen der Welt aber wenig bis keine. Das Annotieren von solchen Daten ist zeit- und kostenintensiv. Deswegen beschäftigen sich immer mehr Forscher*innen mit der Frage, wie Hate Speech Detection Algorithmen dateneffizienter gemacht werden können – sprich: wie solche Systeme aus weniger Daten mehr lernen können.

Ein klassisches Problem beim Annotieren von Beispielen besteht in der Tatsache, dass Algorithmen typischerweise ein eindeutiges, binäres Label (Hassrede oder nicht-Hassrede) benötigen. Es gibt aber viele Grenzfälle, die je nach Definition und Kontext in den Bereich von Hassrede fallen oder nicht. Perspektivismus ist eine Bewegung und Forschungsrichtung im maschinellen Lernen, die versucht, Annotationsschemata und Algorithmen zu entwickeln, welche diesem Umstand Rechnung tragen, indem sie verschiedene Perspektiven einbeziehen und darstellen können.

Metaphern, Vergleiche, Vagheit und Ironie sind wichtige Bestandteile unserer Sprache, derer wir uns ständig bedienen, bewusst oder unbewusst. Natürlich sind sie auch hervorragende Werkzeuge, um auf kreative Weise Hass auszudrücken. Für die Sprachtechnologie im Allgemeinen und Hate Speech Detection im Speziellen stellen solche Ausdrucksweisen eine grosse Herausforderung dar, für deren Lösung wir erst am Anfang stehen. Dog-Whistling bezeichnet einen Spezialfall in diesem Bereich. Beim Dog-Whistling nutzt ein*e Sprecher*in aus, dass verschiedene Hörer*innen das Gesagte unterschiedlich verstehen und interpretieren werden. So kann die Aussage “Wir müssen endlich sicherheitspolitische Lösungen für die äusseren Stadtbezirke finden“, für Uneingeweihte wie eine harmlose Feststellung oder Forderung an die Politik klingen, während dies von Eingeweihten oder Gleichgesinnten gleichbedeutend mit einer Aufforderung zur Einschüchterung und Vertreibung einer bestimmten Bevölkerungsgruppe aus diesen Bezirken verstanden wird. Die Auflösung dieser gewollten Vagheit setzt konkretes Wissen über die lokale Situation und über Sprachcodes von Gruppen voraus und stellt eine ungelöste Herausforderung für Hate Speech Detection dar.

Gegenrede als Alternative zum Löschen von Posts erfährt als “sanftere” Reaktionsmöglichkeit für Plattformbetreiber*innen immer mehr Aufmerksamkeit. Damit Gegenrede effektiv ist, muss sie spezifisch auf das vorher Gesagte eingehen und darauf antworten. Vorgefertigte, allgemeine Antwortsätze sind deshalb keine Option. Zugleich ist aufgrund der Menge an Nachrichten auch das Engagieren von Menschen, die auf jeden Hassrede-Post antworten, unrealistisch. So hat sich in der Sprachtechnologie der neue Task Counterspeech-Generation etabliert: Die automatische Generierung von Gegenrede, die auf spezifische Hassrede-Posts eingeht.

Fazit

Die Vorträge der Studierenden zeigen: Es gibt viele ungelöste Herausforderungen für die automatische Erkennung von Hassrede. Einige der Herausforderungen ergeben sich aus grundsätzlichen Eigenschaften der menschlichen Sprache, andere aus den spezifischen Möglichkeiten der Online-Kommunikation. Dessen ungeachtet gilt: Das Erkennen von Hassrede im Internet ist die Voraussetzung, um Hass zu analysieren und zu kartieren und versetzt uns in die Lage, entsprechend darauf zu reagieren. Algorithmen zur automatischen Erkennung von Hassrede liefern die technische diese Grundlage dazu.

Blogbeitrag von Janis Goldzycher, UFSP Projekt 8 Argumentstrukturen in der automatischen Erkennung von Intoleranz und Extremismus

Abgelegt unter: Projektvorstellung
Tags: hassrede⋅ hate speech⋅ hate speech detection⋅ machine learning⋅ maschinelles lernen

Digital Religion(s): Der Blog