Sentimentanalyse: Ergebnis Tonalitätstest ist da

sentimentanalyse ergebnisse tonalitaetstest Vor etwa drei Monaten haben wir um Hilfe beim Tonalitätstest gebeten, d.h. bei der Einstufung von insgesamt 20 Aussagen im Hinblick auf die Frage, ob die einzelne Aussage positiv, neutral oder negativ bewertet wird – gerne auch Sentimentanalyse genannt. Denn wir wollten mit diesem Experiment ausprobieren, wie eindeutig wohl die Zuordnung des Sentiments ausfallen würde – für viele eine wichtige Funktion im Bereich Social Media Monitoring. 167 Leserinnen und Leser haben mitgemacht – Danke! Und das Ergebnis zeigt vor allem eins: Es ist nicht so einfach, wie mancher denken mag.

Bei Diskussionen über die Präzision der Sentimentbestimmung läuft es schnell auf einen Vergleich von Tools mit den Leistungen menschlicher Analysten hinaus (wobei es gute Gründe gibt, warum die Analysten im Zweifelsfall “gewinnen”, siehe auch den Gastbeitrag von Jan Bartels: “Wann lohnt manuelle Beitragsprüfung und warum?“). Gerade bei größeren Datenmengen und bei niedrigeren Budgets kann aber ein Tool erst mal eine brauchbare erste Option sein, im Zweifelsfall mit nachgeschalteten Analysten.

Das größere Problem ist, dass der Prozess der Sentimentanalyse gerade von Laien und Einsteigern schnell unterschätzt wird. Denn oft ist es eben – ohne konkrete Vorgaben – nicht so eindeutig zu bestimmen, wie eine einzelne Aussage gewertet werden soll. Eines der meist gefragten Features im Toolbereich bleibt es aber weiterhin – insofern also höchste Zeit, sich mal die Ergebnisse der Umfrage im einzelnen anzusehen.

Sentimentanalyse: Die Verteilung nach Themengebieten

Die Aussagen waren in 5 Themengebiete aufgeteilt, bei denen die folgenden Ergebnisse entstanden. Interessanterweise gab es bei den letzten beiden Themen (Wochenende, Weihnachten) deutlich weniger eindeutige Ergebnisse, wobei das im Zweifelsfall auf die Aussagen zurückzuführen ist. Es zeigte sich aber schon hier, dass da durchaus Interpretationsspielraum bestand. Einige Teilnehmer fragten sogar direkt nach, ob es Regeln für die Zuordnung geben würde, was ja hier nicht der Fall war.

sentimentanalyse ergebnisse iphone

Sentiment beim Thema “iPhone”

sentimentanalyse ergebnisse bahn

Sentiment beim Thema “Bahn”

sentimentanalyse ergebnisse veranstaltungen

Sentiment beim Thema “Veranstaltungen”

sentimentanalyse ergebnisse wochenende

Sentiment beim Thema “Weihnachten”

sentimentanalyse ergebnisse weihnachten

Sentiment beim Thema “Weihnachten”

Sentimentanalyse: Eindeutigkeit nur zum Teil

Einige Sentiment-Zuordnungen basieren offensichtlich auf einem sehr breiten Konsens und haben eine sehr hohe Eindeutigkeit, bei anderen konnte so gerade noch eine knappe Mehrheit erreicht werden. Die Bandbreite war insgesamt sehr groß und reichte dabei von ausgezeichneten 96 Prozent bis zu niedrigen 51 Prozent.

sentimentanalyse eindeutigkeit

Sentimentanalyse: Eindeutigkeit Sentiment

Zusammengenommen ergab sich folgende Verteilung in Sachen Eindeutigkeit:

  • 50 Prozent des Sentiments waren zu 80 Prozent oder mehr eindeutig,

  • 30 Prozent des Sentiments lagen bei 60-80 Prozent Eindeutigkeit und
  • 20 Prozent waren zu 60 Prozent oder weniger eindeutig.

Demographische Daten zu den Teilnehmern der Umfrage

Die Mehrheit der Teilnehmer hat bereits Erfahrungen mit kommerziellen Monitoring Tools und hatte damit wohl auch schon mit dem Thema “Sentiment” zu tun. Konkret: 62 Prozent der Teilnehmer beantworteten die Aussage “Ich habe bereits mit kommerziellen Social Media Monitoring Tools gearbeitet.” mit Ja.

Bei der Geschlechterverteilung fällt auf, dass ein überdurchschnittlich hoher Frauenanteil an der Umfrage teilgenommen hat (61 Prozent weiblich gegenüber 39 Prozent männlich). So etwas kann wohl passieren, wenn man während der Umfrage den Eindruck hat, der Frauenanteil sei spürbar zu niedrig und dann in der Gruppe der Digital Media Women nachfragt… 😉

Bei der Verteilung der Teilnehmer auf die deutschen Bundesländer zeigt sich wie oft bei digitalen Themen eine überdurchschnittliche Häufung bei den großen drei “Regionen” Berlin, Hamburg und Nordrhein-Westfalen:

sentimentanalyse verteilung bundesland bundesländer

Eckdaten: Verteilung der Teilnehmer auf Bundesländer

Bei der Altersverteilung zeigt sich ein naturgemäßes Problem der Digitalbranche: Die meisten im Rahmen der Umfrage erreichten Akteure sind 25 und älter, die größte Personengruppe war 25-30 Jahre alt. 87 Prozent der Teilnehmer waren im Bereich von Mitte Zwanzig bis Mitte Vierzig. Eventuell wäre es spannend, bei weiteren Tests sowohl deutlich jüngere als auch ältere Menschen stärker anzusprechen – es ist durchaus vorstellbar, dass speziell bei jüngeren Teilnehmern die Sentiment-Bewertung anders ausfallen könnte.

sentimentanalyse verteilung alter

Eckdaten: Altersverteilung der Teilnehmer

Sentimentanalyse aus Toolperspektive: Die Sache mit dem Würfel

Wir haben die 20 Aussagen auch über die automatische Sentimentanalyse einiger Toolanbieter getestet – und haben auch hier keine eindeutige Tendenz erkennen können. Das durch die teilnehmenden Personen eingestufte Sentiment wurden von den Tools nur zwischen 35 und 75 Prozent übereinstimmend identifiziert. Nur zur Einordnung: Würde man zur Sentimentanalyse einen normalen Würfel nehmen, wäre die Chance, das Sentiment “richtig” zu bestimmen, ebenfalls 1:3 bzw. zu 33 Prozent. Um hier aber auch die Tools in Schutz zu nehmen: Ohne klare Definitionen und ein entsprechendes Codebuch ist es wirklich schwierig, da brauchbare Ergebnisse zu erzielen. Aus Gründen der Fairness sollen hier auch keine Anbieter genannt werden.

Fazit und Ausblick zur Sentimentanalyse

Eins ist im Rahmen des Tonalitätstest-Experiments wieder mal deutlich geworden: Es ist kompliziert – und keineswegs so eindeutig, wie wir das manchmal gerne hätten. Gerade bei den weniger eindeutigen Aussagen ist es im Rahmen der Analyse wichtig, klare Definitionen und Regeln aufzustellen, möglicherweise sogar ein ausführlicheres Codebuch. Und das gilt im Zweifelsfall für die Analyse per Tool ebenso wie für die Arbeit von Analysten. Und bei dem gemeinsamen Erarbeiten solcher Rahmenbedingungen wächst dann oft auch das nicht immer vorhandene Verständnis für die Komplexität der Sentimentanalyse.

Ein besonderer Aspekt ist das Thema Sentimentanalyse über Social Media Monitoring-Tools. Hier sind oft schon sehr schnell die Grenzen erkennbar – und daran ändert vielfach auch die Möglichkeit zur Trainierung der Sentiment-Erkennung nichts oder nur wenig. Im Alltag zeigt sich aber auch, dass es oft ausreichen kann, statt einer automatisierten Sentiment-Erkennung eine manuelle Analyse einer Stichprobe durchzuführen – zumindest, wenn es um Routine-Analysen und nicht um die Begleitung von Krisenkommunikation in Echtzeit geht.

In jedem Fall bleibt es spannend und eine Herausforderung. Und der Wettstreit zwischen Maschinen und Menschen scheint mir noch längst nicht entschieden…

P.S. Alle Ergebnisse in einer Grafik

Und ganz zum Schluss gibt es noch die detaillierten Ergebnisse zu den einzelnen Aussagen in einer etwas längeren Grafik (Direktlink zur Grafik der Gesamtübersicht):

sentimentanalyse ergebnisse gesamt

Sentimentanalyse: Alle Aussagen und alle Bewertungen in einer Grafik

3 Kommentare » Schreibe einen Kommentar

  1. Hm, ich hätte jetzt eine direkte Gegenüberstellung der ‘menschlichen’ mit der Maschinenanalyse spannend gefunden, vor allem als Linguist. D.h. wo Ironie oder bestimmte redewendungen (Nicht.) erkannt werden etc. Von mir aus ein ‘schnitt’ der ungenannten Tools 😉 Oder tut fdas dei große Grfaik und ich blick es nur nicht?

    • Wie schon geschrieben: Wollte da keine Namen nennen und hatte auch den Eindruck, dass einige Toolanbieter da auf eine konkrete Nennung hätten verzichten wollen. Viel wichtiger ist aber: Letztendlich hätte das nur erneut verdeutlicht, dass es kompliziert bleibt – speziell bei Maschinen. Denn ohne klares Regelwerk bzw. konkrete Vorgaben gibt es in letzter Konsequenz keine Eindeutigkeit, auch wenn hier ja einige Aussagen bei den menschlichen Analysten eindeutig wahrgenommen wurden. Die Aussage mit dem “Nicht.” steht z.B. in unserer Social Media-Blase eindeutig für Ironie, ausserhalb würde das vor allem Stirnrunzeln verursachen…

  2. Pingback: Der "Human Touch" im Social Media Monitoring (Gastbeitrag)

Schreibe einen Kommentar

Pflichtfelder sind mit * markiert.


Newsletter?
Los