Niklas Kääb
- 7. Dez. 2021
- 10 Min. Lesezeit

Ein nicht so kurzer Text zu Social Media Research

Aktualisiert: 5. Feb. 2022

Die Berggipfel sind zu voll! So, oder so ähnlich lautet die Überschrift manch eines Plakativen Artikels (Dill, Peter 2017) (Radio Gong, 2020) (ua.). Und auch wenn wir diese Aussage ganz einfach mit einem sonntäglichen Besuch am Herzogstand bestätigen können, bleibt doch die Frage: Welche Berggipfel und wie voll sind diese Wirklich.

Dass die Beantwortung dieser Frage keineswegs trivial ist, will ich an einem Beispiel zeigen. Vom Herzogstand und Heimgarten in Richtung Süden, liegt ein als Estergebirge bekanntes Gebiet. Im Norden von der Eschenlaine, im Westen von der Loisach begrenzt liegt zwischen Walchensee, Krün und Garmisch Patenkirchen dieser, im Alpenvergleich fast mickrige, Gebirgszug. Mit gerade einmal 100 Quadratkilometern bildet dieser Gebirgszug 0.03% der Gesamtalpenfläche. Und dennoch warten hier schon einmal 30 benannte Berggipfel (Wikipedia, 2021) und mehr als 100 Kilometer Wanderwege auf uns.

Wie soll man nun die Besucherzahlen zu so einem Riesigem Gebiet Erforschen? Man könnte klar zu jedem Gipfel gehen und ein Blick in jedes Gipfelbuch werfen. Aber dreißig Gipfel wollen erst einmal erwandert werden, ganz abgesehen davon, dass ja Daten aus Gipfelbüchern dann noch in ein digital nutzbares Format transferiert werden müssten. Also anders. Wir könnten Wegposten aufstellen, Stichprobenartig zählen wie viele Wanderer welches Gebiet passieren. Etwa Zehn Wege, sowie die Wankbergbahn verbinden das Wegenetzt des Estergebirges mit den umgebenden Tälern. Also 11 Menschen, an jedem Zugang einer, Zählen an einem schönen Sommertag von Sonnenaufgang bis Sonnenuntergang wie viele Wanderer an ihnen Vorbeischlendern. Zur Sommersonnenwende, um einmal das Extremszenario anzunehmen, könnten wir also unsere Mitarbeiter für 16 ½ Stunden (Sunrise & Sunset, 2021) an den Wanderwegen Platzieren. Mal ganz abgesehen von den Arbeitsrechtlichen Problemen, die uns bei mehr als 12 Stunden Arbeitszeit entstehen wäre die Aktion auch so sehr kostspielig. Den Aktuellen Mindestlohn angenommen würde uns diese Art der Datenerhebung pro Tag 1742,4 € Kosten – Natürlich nur wenn wir nicht ein paar engagierte DAV Mitglieder finden, die das alles kostenfrei für uns machen.

Aber auch die engagiertesten DAV-Mitglieder werden sich nicht 356 Tage im Jahr, bei jedem Wind und Wetter, auf den Wanderwegen des Estergebirges die Beine in den Bauch stehen wollen. Also lasst uns die nächste Lösung untersuchen: Wildkameras mit einem Aktuellen Sonderangebot könnten wir uns die 11 Benötigten Wildkameras schon für 59.99 das Stück hohlen (kentfaith, 2021). Mit 659.89 € liegen wir Preislich also jetzt schon unter dem Tagespreis für unsere Menschlichen Zähler. Und die Wildkameras können das ganze Jahr über Hängen. Zumindest so lange alle zwei bis drei Tage jemand zum Batteriewechseln vorbeikommt. Dann muss nur noch ein fleißiger Werksstudent unsere wahrscheinlich in die Zehntausende gehenden Bilder sichten und wir haben verwertbare Daten. Vorausgesetzt natürlich, dass alle unsere Wildkameras korrekt funktionieren, keine gestohlen oder beschädigt wird und natürlich auch, dass bei der Dateneingabe keine gröberen Fehler passieren.

Also ist auch unser System mit Wildkameras noch nicht das gelbe vom Ei, vor allem dann, wenn wir größere oder komplexerer Gebiete überwachen müssten. Denn unsere Kosten sowie der Aufwand, den wir für die Dateneingabe betreiben müssen, dürfte auch dann schnell den realisierbaren Rahmen sprengen. Und nun, da ich bereits zeigen konnte, dass traditionell genutzte Möglichkeiten der Besucherzählung in der schieren weite des Alpenraumes schnell an ihre Grenzen kommen, beziehungsweise grundsätzlich erhebliche Beschränkungen mit sich bringen will ich also nun auf die Lösung für unser vermeintliches Problem eingehen: Social Media. Der ein oder andere wird jetzt vielleicht, nicht ganz unberechtigt, darauf hinweisen das die Worte Social Media und Problemlösung im selben Satz auch angesichts jüngster Gesellschaftlicher Entwicklungen wohl eher unpassend sind. Und auch in unserem Fall sind die Sozialen Medien keineswegs Allheilmittel, sondern kann durchaus mehr Probleme schaffen als eigentlich gelöst werden. Doch um diese zu versehen müssen wir ein wenig tiefer in die Materie des Social-Media-Datamining einsteigen.

Wir alle posten gerne auf Facebook, Instagram, Flicker, Twitter und noch vielen anderen Sozialen Medien. Und bei Veröffentlichung dieser Posts nutzen wir vielfach Tags. Wir taggen unsere Freunde, die im gleichen Bild zu sehen sind, wir taggen den Ort mit einem Geotag und versuchen unsere Veröffentlichung durch die Zuordnung von Hashtags selbst in bestimmte Kategorien einzuordnen. Und all diese Daten sind, untrennbar verbunden mit unserem persönlichen Account, öffentlich einsehbar.

Und das sind sie nicht nur für Menschen. Auch Computer können über die API (Application Programming Interface) all diese Daten auslesen. Sie können dies schneller und zuverlässiger als jeder Mensch und liefern oft in nur wenigen Sekunden Analysen von Geotags, Hashtags oder Nutzern. Und diese Daten sind für unsere Problem der Besucherzählung in weiten abgelegenen Wegenetzen eine scheinbare Wunderwaffe. Spencer A. Wood veröffentlichte 2020 einen Artikel in der Onlineausgabe von Nature, die ich in diesem Zusammenhang nur jedem empfehlen kann. Um aber die Ergebnisse zusammenzufassen: Nachdem mittlerweile mehr als 20 Studien aus den verschiedensten Ländern unter den verschiedensten Voraussetzungen bestätigten, dass die Zahl von Social Media Posts nachweißbar mit der Zahl der tatsächlichen Besucher vor Ort korreliert ging Wood in seiner Arbeit noch einen Schritt weiter. Er entwickelte eine Formel die, unter Eingabe der Menge an Social Media Posts, sowie Breits existenten Daten von vergangenen Besucherzählungen, recht zuverlässig vorhersagen kann, wie viele Menschen sich wirklich vor Ort aufgehalten haben.

Was die Existenz solcher Korrelationen und solcher Formeln für unser eingangs gestellten Problems bedeuten ist unschwer zu erkennen. Doch noch viel gewaltiger ist die Bedeutung für den gesamten Tourismussektor. Datenerfassung von Besuchern ist, also wer, wann, wo, wie viele und woher sie kamen, ist bei weitem keine exakte Wissenschaft. Selbst so scheinbar Einfache Fragen wie: Wie viele Gäste von Außerlandes haben letztes Jahr mindestens eine Nacht in Deutschland verbracht lassen sich nur mit einem gewissen Grad der Unsicherheit beantworten. Doch je spezieller unsere Fragen werden, je weiter wir uns vom Gästeprofil des „Standardgastes“ entfernen, desto weiter steigt die Unsicherheit solcher Daten. Wie viele Menschen haben letztes Jahr eine Radtour um den Starnberger See gemacht? Wie viele Menschen haben letztes Jahr am Herzogstand biwakiert? Und wie viele sind trotz Verbot zu den Wasserfällen am Königsbach gewandert? All das sind Fragen, die wir mit Traditionellen Besucherzählungen nur schwer beikommen. Aber es sind Fragen welche, so das vollmundige Versprechen, das Feld der Social-Media-Research beantworten kann. Und das nicht nur mit einer grob geschätzten Gesamtantwort, sondern je nach Frequenz der Posts sogar nach Jahreszeiten, Monaten, Wochen, Tagen, Stunden aufgeschlüsselt.

So gewaltig die Versprechungen des Social-Media-Research auch sein mögen, so gewaltig sind auch die Potenziellen Probleme. Im Rahmen einer selbst durchgeführten Untersuchung der Hashtags #wankbahn und #wankberg mit der Kostenpflichtigen Software von Analisa.io konnte ich eine ganze Reihe von Problemen aufzeigen:

Aus: Saisonelle Korrelation zwischen Instagram-Posts und Erstzutritten zur Wank-Bergbahn am Beispiel von #wankberg und #wankbahn.

Analisa.io beschränkt die Zahlen der maximal analysierten Posts auf eine Zahl von 5000 (vgl. Analisa.io 2021). Die beiden analysierten Hashtags #w1 (#wankberg) & #w2 (#wankbahn) wurden spezifisch gewählt, da die Gesamtzahl der jeweiligen Posts unter der Marke von 5000 lag. Somit konnte ein kompletter historischer Datensatz zu den beiden Hashtags erstellt werden. Da Analisa.io, auch nach Auskunft des Produktsupports, jedoch keine Möglichkeit bietet vor der Analyse eines Hashtags ein spezifisches Zeitfenster festzulegen, sondern, mit Ausnahme weniger Ausreißer, lediglich die neusten 5000 Posts analysiert und bei nachträglicher Veränderung des Zeitraumes keinen neuen Datensatz erstellt, sondern lediglich den bestehenden durchsucht, eignet es sich nicht als Tool zur Untersuchung von Hashtags mit mehr als 5000 Posts. (vgl. Abb.1)

Ebenso verfügt Analisa.io über einen eigenen Filter um „Spam-Posts“ aus der Datenmenge zu entfernen. Da es sich bei Analisa.io um ein privat- wirtschaftliches Unternehmen handelt, ist jedoch die Funktion dieses Filters kein Teil der öffentlich einsehbaren Informationen. Fest steht jedoch, dass zwischen der Zahl, der auf Instagram veröffentlichten Posts und der von Analisa.io im Ergebnis ausgegebenen Daten, ein Unterschied besteht (vgl. Tab. 1).

Um festzustellen, inwieweit diese Differenz das Ergebnis verfälschen könnte, wurden die zur Stichprobe des #w2 gehörenden Posts manuell über die öffentliche Instagram-Seite des Hashtags gezählt. Die Abweichung zwischen automatischer und manueller Zählung betrug, pro Monat aufgeschlüsselt zwischen 0 – 4 Posts, wobei in allen Fällen bis auf einen die Differenz zugunsten von Analisa.io ausfiel – sprich, die Suchmaschine fand mehr Posts als ich (Vgl. Tab. 2). Aus der Erfahrung des Autors ist der Grund hierfür, dass die Posts auf der entsprechenden Hashtag-Seite zwar in überwältigender Mehrzahl chronologisch angeordnet sind, aber immer wieder einzelne Posts diese Chronologie durchbrechen. Es ist also die Vermutung des Autors, dass der Fehler beim Menschen liegt und sich die, in der manuellen Zählung, entsprechend fehlenden Posts außerhalb der vom Autor analysierten, durch die Gesamt-Chronologie vorgegebenen, Stichprobe lagen. In jedem Fall liegt die Gesamtdifferenz aller Abweichungen bei 11 Posts (Vgl. Tab. 2) was, aufgrund der Gesamtstichprobe von 460 Posts einer Abweichung von 2.6% entspricht. Wird lediglich der eine Fall berücksichtigt, in dem der Autor mehr Posts fand als Analisa.io, welcher mutmaßlich durch den Spam-Filter erklärt werden kann, so liegt die Abweichung bei 0.2%.

Im weiteren Verlauf wird aufgrund der geringen Abweichung der Datensatz von Analisa.io als vollständig angenommen. Jedoch zeigt dieser Teil der Untersuchung eine generelle Schwäche mit allen Methoden der Datensammlung von Instagram auf. Sowohl die Daten von kommerziellen Anbietern als auch eigens programmierten Tools zum Data-Mining direkt über die API lassen sich, meiner Meinung nach, bei größeren Datenmengen allenfalls stichprobenartig und auch dann nur unter extremen Zeitaufwand mit den tatsächlichen Posts auf Instagram abgleichen. So benötigte allein die manuelle Analyse der hier gezeigten Teilstichprobe von 460 Posts ca. 4 Stunden. Aufgrund des erheblich höheren Zeitaufwandes bei größeren Datenmengen dürfte eine Überprüfbarkeit also kaum gewährleistet werden.

Einschränkungen von Hashtags als Datenquellen

Für diese Untersuchung wurden zwei Hashtags genutzt. der Hastag #w1, der erstmals 2013 auf Instagram genutzt wurde, sowie der Hashtag #w2, welcher seine erste Anwendung bereits 2012 erfuhr. Wirklich regelmäßig wurden beide Hashtags jedoch erst seit Mitte 2016 verwendet. Um den Einfluss einzelner Ausreißer auf die Analyse zu reduzieren, wurde daher eine Stichprobe vom 01/11/2016 bis zum 29/02/2020 gewählt. Da ab diesem Zeitpunkt die Coronakriese vermutlich wesentlichen Einfluss auf das Freizeitverhalten genommen hat entschied ich mich gegen die Verwendung von Daten nach diesem Datum.

Somit ergibt sich aus dem Datensatz des Hashtags #wankbahn eine Stichprobe von 49.62% der Gesamtdaten, sowie bei #wankberg von 26.38%. Ebenso ist ein interessanter Effekt in der Schnittmenge der beiden Stichproben zu beobachten. Von 1054 Posts, die mit entweder #wankberg oder #wankbahn getagt wurden, wurden lediglich 25, oder 2.36 % der Posts mit beiden Hashtags versehen. Eine Untersuchung der Ursachen hierfür müsste noch durchgeführt werden, der Autor vermutet jedoch, dass Unterschiede im Wanderverhalten der hinter den Posts stehenden Nutzer ursächlich sein könnten. Zumindest teilweise kann diese Vermutung durch unterschiedliche Korrelationseffekte der untersuchten Daten gestützt werden.

In jedem Falle sollte diese Beobachtung Warnung für alle sein, dass die Beschränkung auf ein einzelnes Hashtag bei quantitativen Social-Media-Analysen die Gefahr einer erheblich eingeschränkten Stichprobe mit, im Vergleich zur Analyse mehrerer Hashtags, reduzierter Aussagekraft birgt.

Einschränkungen von Geotags als Datenquellen

Aufgrund der Funktion von Geotags bei Instagram unterliegen diese besonderen Limitationen, die bereits in anderen Studien festgestellt wurden:

To find content on Instagram that was associated with study sites, we manually searched for Instagram places with corresponding names and locations. Some study sites were associated with more than one Instagram place, since sites can contain multiple trails or major landscape recreation destinations, while other study sites were not associated with any Instagram places. (Wood, et al 2020, S 9.)

Auch für die hier untersuchten Hashtags konnte eine Vielzahl verschiedener Geotags festgestellt werden – insgesamt 26 Geotags wurden in der Gesamtdatenmenge mindestens einmal verwendet und insgesamt 20 Geotags traten mindestens einmal in der für diese Untersuchung relevanten Gesamtstichprobenmenge auf. Besonders auffällig hierbei ist zudem, dass 390 Posts oder 37% der Gesamtstichprobenmenge überhaupt nicht mit Geo-Tags versehen war (vgl. Tab. 4). Damit war kein Geotag die mit Abstand häufigste Option, mit mehr als doppelt so vielen Anwendungen wie das zweit-populärste Geotag. Während Geotags die Analyse im weiteren Verlauf der Studie keine Rolle spielen, ist die Erwähnung des Datensatzes wiederum relevant, da er erneut aufzeigt, dass die Beschränkung auf ein einzelnes Geotag, oder sogar Geotags als alleinige Datenquellen für die quantitative Analyse die Gefahr einer verfälschten Stichprobe bieten. In jedem Fall ist hier weitere Forschung empfehlenswert. Jedoch zeigt dieses Beispiel auch einen der Nutzen von Analisa.io für die Vorbereitung von Studien. Da Analisa.io für jeden untersuchten Hashtag eine Wordcloud an genutzten Geo-Tags erstellt kann dieses Tool genutzt werden um Empfehlungen für zusätzliche Geotags / Hashtags zur Analyse zu finden. (vgl. Abb. 2)

Weitere Einschränkungen von Instagram

Ein weiteres Hindernis kann ebenso darstellen, dass der Zugang zu Daten durch Instagram beschränkt werden kann. Ein gutes Beispiel im Rahmen dieser Untersuchung bietet der Hashtag #wank, der auf Instagram, sehr wahrscheinlich aufgrund der sexuellen Konnotation im englischen Sprachraum, nicht öffentlich einsehbar ist. In unserer Stichprobe sind 224 Posts mit #wank getagt. Wenn wir diese Schnittmenge von 224 wie im Fall der Schnittmenge von #w1 und #w2 als 2.36 % einer Gesamtmasse annehmen, könnte uns dies auf Gesamtmenge von ca. 9492 Posts schließen lassen, deren überwiegender Teil für den Zweck unserer Datenerfassung nicht verfügbar ist. Diese Annahme ist zwar rein hypothetischer Natur und bedarf sicherlich noch weiterer Untersuchung, dennoch sollte dieses Beispiel als Warnung verstanden werden, dass auch bei einer scheinbar komplett öffentlichen Datenquelle erhebliche Mengen an relevanten Daten nicht einsehbar sein könnten.

Die Implikationen

Wie ich also in meiner eignen Studie zeigen konnte, gibt es einige Beschränkungen und Nachteile, welche wir bei der Verwendung von Instagram als Datenquelle zu beachten haben. Trotz dessen konnte ich aber im späteren Verlauf meiner Untersuchungen eine Saisonelle Korrelation zwischen manchen Hashtags und den Nutzern der nahegelegenen Wank-Bergbahn aufzeigen. Oder um es anders zu sagen: Trotz all der gezeigten Schwächen konnten waren die Instagramdaten noch immer nützlich. Daraus ergeben sich nun zwei Tatsachen:

Zum einen sollten die persönlichen Bullshitdetektoren anspringen, wann immer jemand die Datensammlung als Allheilmittel für seine Studie verkauft. Also zumindest dann, wenn vorher nicht ausdrücklich auf die Schwächen der Methode eingegangen wird.
Und zum zweiten sollte bei jedem Social Media Nutzer die Alarmglocken angehen.

Ich möchte ein Bild beschreiben, auf das ich im Rahmen der Untersuchung meiner Datenquellen gestoßen bin. In dem Versuch der darauf abgebildeten Person wenigstens etwas Privatsphäre einzuräumen will ich nicht näher darauf eingehen in welchem Teil meiner Stichprobe es sich versteckt kann aber gleichzeitig nicht verhehlen, dass jeder mit ein wenig Zeit und Muße dieses selbst aufspüren könnte. Und dafür noch nicht einmal einen Account bei Instagram benötigt. Wir sehen einen jungen Mann, die Haare durchgestyled zur linken Seite gelegt, die Augenbrauen leicht verschmitzt hochgezogen und mit gepflegten Hipstebart. Er posiert vor dem Eingangsschild der Wankbergbahn, die linke Backe von innen mit der Zunge ausgebeult, und die Faust in einer suggestiven Geste vor den Lippen.

Ob dieser junge Mann, zweifelsohne von der englischen Bedeutung des Namens angestachelt, wohl jemals damit gerechnet hätte, dass er Teil einer Wissenschaftlichen Untersuchung werden würde? Ich denke nicht. Genau so wenig wie auch ich vor wenigen Wochen noch geahnt hätte wie viele Untersuchungen es schon in diesem Bereich gibt. Dafür scheint das Thema aber noch bei sehr vielen Menschen unter dem Radar zu fliegen. So hat zum Beispiel meine eigene Universität keinerlei Ethische Richtlinien für Social Media Research. Ich hoffe nun, dass ich mit meinem Blog für diesen Monat zwei dinge aufzeigen konnte:

Social Media Research wird in Zukunft immer mehr an Bedeutung gewinnen, denn salopp gesagt: Sie ist ökonomisch sinnvoll
Gesetzgeber, Universitäten und Ethikkomissionen müssen einen Rahmen schaffen, in dem solche Forschungen verantwortungsvoll möglich sind
Und einmal mehr bestätigt sich, dass man vielleicht drei Mal überlegen sollte, was man im Netz veröffentlicht.

Ein nicht so kurzer Text zu Social Media Research

Einschränkungen von Hashtags als Datenquellen

Einschränkungen von Geotags als Datenquellen

Weitere Einschränkungen von Instagram

Die Implikationen

Aktuelle Beiträge