Was ist Big Data? Eine Erklärung für Anfänger

Kategorie: Internet und Gesellschaft

Sind Datenmengen zu groß und zu kompliziert, um sie mit einfachen Methoden auszuwerten, nennen Fachleute diese Massendaten Big Data. Die Daten zeichnen sich durch ihre große Masse, die hohe Geschwindigkeit mit der sie enstehen und die inhaltliche Vielfalt aus. Das 3-V-Modell bietet einen Ansatzpunkt zur genauen Defintion.

Inhalt

Definition von Big Data

Der Datenanalyst Doug Laney definierte Big Data mit seinem 3-V-Modell.

Volume (Masse)
In den sozialen Netwerken wie Instagram oder Facebook entstehen durch die Daten und Interaktionen der User sehr große Datenmengen. Die Anzahl der Beiträge und Likes wächst täglich. Zur Auswertung dieser Informationen ist ein gewaltiger Aufwand nötig. Liegen Daten in großer Masse vor, ist eine Voraussetzung für das Vorhandensein von Big Data erfüllt.
Velocity (Geschwindigkeit)
User stellen über Google eine Vielzahl an Suchanfragen pro Minute. Kunden kaufen bei Amazon viele Produkte in kurzen Zeitspannen. Videofilmer laden bei Youtube eine Vielzahl an Videos hoch. Im Internet gibt es noch zahlreiche andere Beispiele, bei denen innerhalb kurzer Zeit in großer Geschwindigkeit viele Daten entstehen. Eine stark wachsende Datenmenge bildet das zweite Definitionsmerkmal von Big Data.
Variety (Vielfalt)
Den Daten fehlt es oft an Struktur. Vor der Weiterverwendung strukturieren Analysten die Daten, um eine sinnvolle Verarbeitung zu ermöglichen. Eine Kundenkartei verfügt über eine übersichtliche Struktur mit Name, Geburtsdatum und Anschrift, während  Daten aus den sozialen Netzwerken meist in ungeordneter Form vorliegen. Unstrukturierte Daten sind das dritte Erkennungsmerkmal von Big Data.

Big Data sind Daten, die

  • in großer Menge vorliegen
  • deren Zahl stark anwächst
  • nicht strukturiert sind.

Die Verarbeitung dieser Daten erfolgt mit speziellen Algorithmen und besonders leistungsfähigen Computern.

Entstehung bzw. Verwendung der Daten

Wo kommen die gigantischen Datenberge her? Sie entstehen bei jedem Einkauf in einem Onlineshop, bei jedem Telefonat, bei jeder Eingabe ins Navigationsgerät, mit jeder Interaktion in einem sozialen Netzwerk, bei jeder Googlesuche,… Allein Google verzeichnet täglich 3,5 Millarden Sucheingaben. Auch durch die anderen Aktionen wächst die Menge an zu verarbeitenden Informationen. Die entstehenden Datenmenge sind von gängiger Soft- oder Hardware nicht mehr zu bewältigen. Zur Bewältigung von Big Data kommen neue Algorithmen und leistungsstarke Supercomputer zum Einsatz.

Unternehmen sammeln durch Cookies und digitale Fingerabdrücke auf ihren Webseiten Informationen über ihre Besucher. Dadurch ist es möglich auf den User angepasste Werbeeinblendungen anzuzeigen. Onlineshopbetreiber analysieren die Käufe der Kunden, um Muster festzustellen und Produkte zu identifizieren, die Kunden eventuell zusätzlich kaufen. Dadurch kommen die bekannten Kaufempfehlungen, wie  „Andere Kunden kauften auch dieses Produkt“ zustande.  

Politische Parteien üben gezielt Einfluss auf potentielle Wähler. Anhand der Likes in sozialen Netzwerken sind Rückschlüsse auf die politische Präferenzen möglich. Im Rahmen von Kampagnen erfolgt eine direkte Ansprache dieser vermeintlichen Sympathisanten. Außerdem beeinflussen Bots, die automatische Kommentare bzw. Tweets abgeben, die politische Stimmung.

Nutzen von Big Data

Big Data findet mittlerweile in vielen Bereichen der Medizin Anwendung. Aus anonymisierten Patientendaten ist so beispielsweise eine genauere Krebsdiagnose möglich. Durch die Auswertung der verschiedenen gespeicherten Krankheitsbilder stellen Ärzte präzise Diagnosen und steigern so die Heilungschanchen. Die Forscher isolieren aus Gewebetropfen die DNA, dabei dienen die Tumorprofile von 180.000 Patienten als Vergleich. Andere Daten wie Klinikstudien, Patientenakten oder klinische Biomarkerdaten fließen in die Beurteilung mit ein. Die hieraus resultierende gigantische Datenmenge bearbeiten Supercomputer mit effektiven Algorithmen.

Das Programm EPPICS widmete sich der Nutzung von Big Data zur Lösung von Alltagsproblemen. Die Daten der Videokameras ergeben dabei in Kombination mit den Informationen aus den sozialen Netzwerken ein intelligentes Verkehrsmanagement. Durch Umleitung der Autos oder Schaltungen von Ampel verbessern diese Systeme den Verkehrsfluß. Auch bei der Katastrophenbekämpfung findet Big Data Anwendung. Wetter- und Social-Media-Daten sind die Mischung, die beispielsweise Überschwemmungen vorhersagt.

Auch die Polizei nutzt Big Data zur Verbrechensbekämpfung. Im Rahmen des Predictive Policing (vorhersagende Polizeiarbeit) wertet der Computer Daten der Vergangenheit aus, um Verbrechen in der Zukunft zu vermeiden. Im Projekt SKALA in NRW analysiert die Polizei Einbruchsdaten. Die Informationen unterstützen bei der räumlichen- und zeitlichen Eindordnung der Delikte. Aussagen wie: Im Ort A finden im März 20 Prozent mehr Einbrüche statt, sind nun möglich. Die Polizei reagiert darauf und fährt im März dort besonders häufig Streife oder leitet andere Maßnahmen ein.

Gefahren durch Big Data

Bereits vor einigen Jahren sorgte in den USA ein spektakulärer Fall für Schlagzeilen. Die amerikanische Supermarktkette Target fand vor ihrem eigenen Vater die Schwangerschaft einer minderjährigen Frau heraus. Aus dem veränderten Einkaufsverhalten folgerten die Target Analysten, dass die Frau ein Kind erwartet und schickten ihr die entsprechende Werbung (Babyartikel) zu. Der Vater legte Beschwerde ein. Als er erfuhr, dass seine Tochter wirklich schwanger war, entschuldigte er sich bei Target. Big Data ermöglich so einen Einblick in das Privatleben, den viele Menschen  als negativ empfinden.

Private Firmen sammeln Informationen, um die Kreditwürdigkeit von Schuldnern zu beurteilen. Dabei sind oft Kleinigkeiten entscheidend. Eine ausgefallene Schriftart auf dem PC lässt unter Umständen Rückschlüsse auf den Lebenswandel zu. Die Schriftart kommt nur bei Casino- oder Pokerprogrammen vor.  User mit dieser installierte Schriftart gelten als spielsüchtige Zocker und erhalten fortan keine Kredite mehr. Ein weiteres Beispiel für den Gebrauch von Daten, der vielen Menschen Angst macht.

Apps oder Sportuhren sammeln vielfältige Daten der User. Verbrauchte Kalorien, Pulsfrequenz oder die zurückgelegte Strecke – Benutzer geben freiwillig viele Daten über sich preis. Mustererkennung ermöglicht hier weitreichende Aussagen über den Gesundheitszustand bzw. Lebensstil des Users. Bei Negativen Erlebnissen drohen allerdings Probleme mit Arbeitgebern oder Krankenversicherungen, falls die Daten in falsche Hände geraten.

Einem Arzt ermöglichen diese Informationen eine genaue Diagnose, andere verwenden diese Daten zum Schaden des Benutzers. Die Rohdaten sind zunächst einmal neutral, wer sie besitzt ist entscheidend. Setzt die Krankenkasse die Beiträge herauf, erhält der Arbeitgeber negative Informationen oder der Arzt wichtige Hinweise zur Bekämpfung von Krankheiten. Mit den gesammelten Daten ist vieles möglich.

Wichtig ist,

  • welches Unternehmen die Daten speichert
  • auf welchen Servern/Speichermedien diese Speicherung stattfindet
  • wie geschützt diese Daten gegen Zugriffe sind
  • ob die Daten anonym sind
  • wann die Löschung der Informationen erfolgt.

Fazit

Mediziner nutzen Big Data zur Behandlung bzw. Eindämmung von Krankheiten, Verkehrspolitiker zur Vermeidung von Staus und Umweltexperten zur Verhinderung von Überschwemmungen. Die positiven Nutzungsmöglichkeit sind vielfältig.

Die vorhandenen Gefahren sind allerdings nicht zu unterschätzen. Organisationen bzw. Firmen manipulieren Menschen. Die Privatsphäre schwindet. Selbst kleinere Jugendsünden haben unter Umständen jahrelange negative Konsequenzen. Ein Überwachungsstaat droht zu entstehen. Die gesellschaftliche Atmosphäre verschlechtert sich durch Überwachung bzw. Kontrolle und im schlimmsten Fall ist sogar die Demokratie in Gefahr.

Ob Big Data nutzt oder schadet, hängt von der Verwendungsart der Daten ab. Eine Abwägung zwischen Nutzen der Maßnahmen und den Schäden durch den Eingriff in die Persönlichkeitsrechte ist in jedem Einzelfall nötig. Wie so oft in der Geschichte liegt es an den Menschen, verantwortungsvoll mit den neuen technischen Möglichkeiten umzugehen.

 

Verwandte Beiträge

ChatGPT Vorgänger: Geschichte der Chatbots

ChatGPT bestimmt die Schlagzeilen. Der moderne Chatbot gibt auf Fragen (in vielen Fällen) sinnvolle Antworten und schreibt (meist) gute Texte. Dabei bestimmt die Art der Eingabe (durch den Menschen) die

Kurze Geschichte des Internets

Heutzutage bewegen wir uns wie selbstverständlich im Internet, doch wie kam es dazu,  dass wir Internetseiten bequem im Browser (Browser Erklärung) betrachten können? 1957 gelangte der Satellit Sputnik ins All.

Was ist Browser Fingerprinting bzw. der digitale Fingerabdruck?

Auch ohne Cookies hinterlassen Sie im Internet Spuren, mit denen Unternehmen Sie identifizieren. Der Browser speichert durch den sogenannten digitalen Fingerabdruck zahlreiche Informationen über Sie. Sobald eine Verbindung zum Internet

Clickbait einfach erklärt

Der User klickt auf die Überschrift, sieht den Text und findet die in der Headline versprochenen Informationen nicht. Ein Fall von Clickbait. Reißerische Überschriften ködern (to bait) die Nutzer und

IP-Adressen für Anfänger erklärt

IP Adressen sind notwendig, um Rechner in einem Netzwerk zu identifizieren. Dadurch ist es beispielsweise möglich, ein Datenpaket an diese IP zu senden. Inhalt Aufbau einer IP-Adresse IPv6 – das