Data Science: Eine praxisorientierte Einführung im Umfeld von Machine Learning, künstlicher Intelligenz und Big Data - 2., erweiterte Auflage

eBook256 Seiten2 Stunden

Data Science: Eine praxisorientierte Einführung im Umfeld von Machine Learning, künstlicher Intelligenz und Big Data - 2., erweiterte Auflage

Name: Data Science: Eine praxisorientierte Einführung im Umfeld von Machine Learning, künstlicher Intelligenz und Big Data - 2., erweiterte Auflage
Author: Michael Oettinger
ISBN: 9783347069527

Von Michael Oettinger

Bewertung: 0 von 5 Sternen

()

Vorschau lesen

Über dieses E-Book

Das Thema Data-Science wird häufig diskutiert. Seit der ersten Auflage dieses Buches im Jahr 2017 hat sich an diesem Trend wenig verändert. Data-Scientisten (m/w/d) erfahren eine steigende Nachfrage auf dem Job-Markt, da immer mehr Unternehmen ihre Analytics-Abteilungen auf- bzw. ausbauen und hierfür entsprechende Mitarbeiter suchen. Hier stellt sich die Frage, worin eigentlich der Tätigkeitsbereich eines Data-Scientisten besteht. Das Aufgabenfeld ist nicht eindeutig definiert und reicht über künstliche Intelligenz, Machine-Learning, Data-Mining, Python-Programmierung bis zu Big Data. Im vorliegenden Buch soll eine praxisorientierte Einführung und ein aktueller Überblick darüber gegeben werden, was Data-Science und der Beruf Data-Scientist umfassen.

Karussell überspringen

Wissenschaft & Mathematik

SpracheDeutsch

Herausgebertredition

Erscheinungsdatum18. Mai 2020

ISBN9783347069527

Autor

Michael Oettinger

Michael Oettinger ist ein freiberuflicher Data-Scientist und Geschäftsführer der oetti-ds GmbH. Er berät Unternehmen in unterschiedlichen Branchen. Nach einem Studium der Betriebswirtschaft mit Schwerpunkt auf mathematischen Verfahren und Marktforschung in Augsburg und Oviedo füllte er unterschiedliche Rollen bei PwC, IBM (u. a. SPSS), Fuzzy Logix und weiteren Softwareunternehmen aus. Als Mitglied bei MENSA beschäftigt er sich sowohl mit der menschlichen als auch mit der künstlichen Intelligenz. Schwerpunkt seiner Aktivitäten ist der konkrete und pragmatische Einsatz der existierenden analytischen Modelle in der betrieblichen Praxis mit den entsprechenden Softwaretools (v. a. Python, R, SQL, KNIME, RapidMiner, PySpark, und Tensorflow).

Mehr von Michael Oettinger lesen

Karussell überspringen

EPSAS: Leitfaden - Vorbereitung auf die Einführung europäischer Rechnungslegungsstandards im öffentlichen Sektor
eBook
EPSAS: Leitfaden - Vorbereitung auf die Einführung europäischer Rechnungslegungsstandards im öffentlichen Sektor
vonMichael Oettinger
Bewertung: 0 von 5 Sternen
0 Bewertungen
Data Science und AI: Eine praxisorientierte Einführung im Umfeld von Machine Learning, künstlicher Intelligenz und Big Data - 3. erweiterte Auflage
eBook
Data Science und AI: Eine praxisorientierte Einführung im Umfeld von Machine Learning, künstlicher Intelligenz und Big Data - 3. erweiterte Auflage
vonMichael Oettinger
Bewertung: 0 von 5 Sternen
0 Bewertungen

Ähnlich wie Data Science

Wissenschaft & Mathematik für Sie

Karussell überspringen

Anglizismen und andere "Fremdwords" deutsch erklärt: Über 1000 aktuelle Begriffe
eBook
Anglizismen und andere "Fremdwords" deutsch erklärt: Über 1000 aktuelle Begriffe
vonHeinz C. Pütz
Bewertung: 0 von 5 Sternen
0 Bewertungen
Tesla: Freie Energie selber bauen Ausgabe 2018 Weiteres Bonusmaterial zum Buch auch auf: https://www.dein-teslabauplan.de
eBook
Tesla: Freie Energie selber bauen Ausgabe 2018 Weiteres Bonusmaterial zum Buch auch auf: https://www.dein-teslabauplan.de
vonPatrick Weinand-Diez
Bewertung: 0 von 5 Sternen
0 Bewertungen
Das indoktrinierte Gehirn: Wie wir den globalen Angriff auf unsere mentale Freiheit erfolgreich abwehren
eBook
Das indoktrinierte Gehirn: Wie wir den globalen Angriff auf unsere mentale Freiheit erfolgreich abwehren
vonDr. med. Michael Nehls
Bewertung: 0 von 5 Sternen
0 Bewertungen
Yildiz Freie Energie Magnetmotor selber bauen: Mit dem Yildiz Premium 3D Modell im Buch Weiteres Bonusmaterial zum Buch auch auf: www.magnet-motor4u.de/start
eBook
Yildiz Freie Energie Magnetmotor selber bauen: Mit dem Yildiz Premium 3D Modell im Buch Weiteres Bonusmaterial zum Buch auch auf: www.magnet-motor4u.de/start
vonPatrick Weinand-Diez
Bewertung: 0 von 5 Sternen
0 Bewertungen
Lexikon der Symbole und Archetypen für die Traumdeutung
eBook
Lexikon der Symbole und Archetypen für die Traumdeutung
vonPeter Chairon
Bewertung: 5 von 5 Sternen
5/5
SPRACHSPIELE: FACHSPRACHE WIRTSCHAFT DAF: Ein universitäres Experiment
eBook
SPRACHSPIELE: FACHSPRACHE WIRTSCHAFT DAF: Ein universitäres Experiment
vonBrigitta Joebstl-Berger
Bewertung: 0 von 5 Sternen
0 Bewertungen
ChatGPT: Begegnung mit einer neuen Welt: Lernen Sie Künstliche Intelligenz mit der Gratisversion ChatGPT 3.5
eBook
ChatGPT: Begegnung mit einer neuen Welt: Lernen Sie Künstliche Intelligenz mit der Gratisversion ChatGPT 3.5
vonRolf Jeger
Bewertung: 0 von 5 Sternen
0 Bewertungen
Das Tibetanische Totenbuch, Swedenborg und die moderne Nahtod-Forschung: Vergleichende Analyse mit einer Einführung in das Abduktions-Phänomen im Kontext höherdimensionaler Raumzeit
eBook
Das Tibetanische Totenbuch, Swedenborg und die moderne Nahtod-Forschung: Vergleichende Analyse mit einer Einführung in das Abduktions-Phänomen im Kontext höherdimensionaler Raumzeit
vonDirk Bertram
Bewertung: 0 von 5 Sternen
0 Bewertungen
Astronomie und Chronologiekritik
eBook
Astronomie und Chronologiekritik
vonMario Arndt
Bewertung: 0 von 5 Sternen
0 Bewertungen
Einstieg in ChatGPT: Künstliche Intelligenz verstehen und nutzen: Ein praktischer Ratgeber für Einsteiger
eBook
Einstieg in ChatGPT: Künstliche Intelligenz verstehen und nutzen: Ein praktischer Ratgeber für Einsteiger
vonRolf Jeger
Bewertung: 0 von 5 Sternen
0 Bewertungen
Unterricht kompetent planen (E-Book): Vom didaktischen Denken zum professionellen Handeln
eBook
Unterricht kompetent planen (E-Book): Vom didaktischen Denken zum professionellen Handeln
vonBarbara Zumsteg
Bewertung: 0 von 5 Sternen
0 Bewertungen
Wie man einen verdammt guten Roman schreibt 1
eBook
Wie man einen verdammt guten Roman schreibt 1
vonJames N Frey
Bewertung: 4 von 5 Sternen
4/5
Wissenschaft als Beruf: Eine Debatte
eBook
Wissenschaft als Beruf: Eine Debatte
vonMax Weber
Bewertung: 0 von 5 Sternen
0 Bewertungen
Kognitive Verhaltenstherapie - Einführung: Kognitive Verhaltenstherapie bei Angst- und Panikstörungen, Burn-out und Depressionen - inkl. 4-Wochen-Plan, Arbeitsblättern und Fragebögen
eBook
Kognitive Verhaltenstherapie - Einführung: Kognitive Verhaltenstherapie bei Angst- und Panikstörungen, Burn-out und Depressionen - inkl. 4-Wochen-Plan, Arbeitsblättern und Fragebögen
vonKonstantin Pfannschmidt
Bewertung: 0 von 5 Sternen
0 Bewertungen
...Als die Noten laufen lernten...Band 2: Kabarett-Operette-Revue-Film-Exil. Unterhaltungsmusik bis 1945
eBook
...Als die Noten laufen lernten...Band 2: Kabarett-Operette-Revue-Film-Exil. Unterhaltungsmusik bis 1945
vonKarin Ploog
Bewertung: 0 von 5 Sternen
0 Bewertungen
Einsteigerhandbuch für die Obsidian-Notiz-App und Second Brain: Alles, was Sie über die Obsidian-Software wissen müssen, mit über 70 Screenshots als Anleitung
eBook
Einsteigerhandbuch für die Obsidian-Notiz-App und Second Brain: Alles, was Sie über die Obsidian-Software wissen müssen, mit über 70 Screenshots als Anleitung
vonMarc A. Palmer
Bewertung: 0 von 5 Sternen
0 Bewertungen
Philosophie als strenge Wissenschaft
eBook
Philosophie als strenge Wissenschaft
vonEdmund Husserl
Bewertung: 4 von 5 Sternen
4/5
Die Krisis der europäischen Wissenschaften und die transzendentale Phänomenologie: Eine Einleitung in die phänomenologische Philosophie
eBook
Die Krisis der europäischen Wissenschaften und die transzendentale Phänomenologie: Eine Einleitung in die phänomenologische Philosophie
vonEdmund Husserl
Bewertung: 5 von 5 Sternen
5/5
Narrative des Neuen Menschen: Vom Versprechen einer besseren Welt
eBook
Narrative des Neuen Menschen: Vom Versprechen einer besseren Welt
vonHans-Joachim Hahn
Bewertung: 0 von 5 Sternen
0 Bewertungen
Rassismus und kulturelle Identität: Ausgewählte Schriften 2
eBook
Rassismus und kulturelle Identität: Ausgewählte Schriften 2
vonStuart Hall
Bewertung: 0 von 5 Sternen
0 Bewertungen
In Bildern sprechen: Wie Metaphern unser Denken leiten - Materialien zur fächerübergreifenden Sprachreflexion
eBook
In Bildern sprechen: Wie Metaphern unser Denken leiten - Materialien zur fächerübergreifenden Sprachreflexion
vonHugo Caviola
Bewertung: 0 von 5 Sternen
0 Bewertungen
Menschheit 2.0: Die Singularität naht
eBook
Menschheit 2.0: Die Singularität naht
vonRay Kurzweil
Bewertung: 0 von 5 Sternen
0 Bewertungen
Musik als Bewegung: Die Energietheorie der Musik von Ernst Kurth
eBook
Musik als Bewegung: Die Energietheorie der Musik von Ernst Kurth
vonChristian Salvesen
Bewertung: 0 von 5 Sternen
0 Bewertungen
Viva Vortex: Alles lebt - Quanten sind Wirbel sind verschachtelte Rückkopplungen
eBook
Viva Vortex: Alles lebt - Quanten sind Wirbel sind verschachtelte Rückkopplungen
vonGabi Müller
Bewertung: 5 von 5 Sternen
5/5
Mehrsprachigkeiten (E-Book): Mit Vielfalt jonglieren - auf Sekundarstufe II und an Hochschulen
eBook
Mehrsprachigkeiten (E-Book): Mit Vielfalt jonglieren - auf Sekundarstufe II und an Hochschulen
vonMonique Honegger
Bewertung: 0 von 5 Sternen
0 Bewertungen
Kinderlieder: 100 Liedertexte der schönsten Kinderlieder
eBook
Kinderlieder: 100 Liedertexte der schönsten Kinderlieder
vonFrank Weber
Bewertung: 4 von 5 Sternen
4/5
Schöpferische Evolution
eBook
Schöpferische Evolution
vonHenri Bergson
Bewertung: 5 von 5 Sternen
5/5
Experimente mit Hochleistungs-LEDs: Power-LEDs in der Praxis!
eBook
Experimente mit Hochleistungs-LEDs: Power-LEDs in der Praxis!
vonBurkhard Kainka
Bewertung: 5 von 5 Sternen
5/5
Anarchistische Welten: Nautilus Flugschrift
eBook
Anarchistische Welten: Nautilus Flugschrift
vonDavid Graeber
Bewertung: 0 von 5 Sternen
0 Bewertungen
Die große Hausapotheke der Psychologie
eBook
Die große Hausapotheke der Psychologie
vonIna Brunnlandt
Bewertung: 0 von 5 Sternen
0 Bewertungen

Buchvorschau

Data Science - Michael Oettinger

1 Einleitung

Das Thema Data-Science wird häufig diskutiert. Seit der ersten Auflage dieses Buches im Jahr 2017 hat sich an diesem Trend wenig verändert.

Data-Scientisten (m/w/d) erfahren eine steigende Nachfrage auf dem Job-Markt, da immer mehr Unternehmen ihre Analytics-Abteilungen auf- bzw. ausbauen und hierfür entsprechende Mitarbeiter suchen. Hier stellt sich die Frage, worin eigentlich der Tätigkeitsbereich eines Data-Scientisten besteht.

Das Aufgabenfeld ist nicht eindeutig definiert und reicht über künstliche Intelligenz, Machine-Learning, Data-Mining, Python-Programmierung und Big Data.

Das Thema wird auch außerhalb der Unternehmen zunehmend wahrgenommen und diskutiert. Oft ist der Diskurs geprägt von einer Mischung aus Unwissenheit, Ignoranz und Ängsten, vor allem, was künstliche Intelligenz angeht.

Das Spektrum der Meinungen reicht dabei von Weltuntergang bis Weltrettung. Viele warnen vor den Gefahren, die sich aus der unkontrollierten Nutzung von Daten und den Möglichkeiten der künstlichen Intelligenz ergeben. Unternehmen wie Google und Facebook sind Datenkraken, die ihre unvorstellbar großen Datenschätze mit intelligenten Verfahren auswerten, um damit unser Verhalten in ihrem Sinne beeinflussen und letztendlich auch über unser Leben bestimmen zu können. Autos fahren zukünftig autonom und intelligente Roboter werden unsere Sprache verstehen, selbständig intelligente Entscheidungen treffen und uns die Arbeitsplätze wegnehmen.

Auf der anderen Seite werden unvorstellbare Wunderszenarien mit „rosa Farben" an die Wand gemalt. Durch die Analyse von Daten können zukünftig künstliche Ärzte Krankheiten ausrotten, Verkehrsflüsse werden ohne Stau organisiert und der intelligente Kühlschrank wird sich automatisch selbst füllen, da er genau weiß, was wir benötigen.

Die Wahrheit liegt irgendwo in der Mitte, wobei es nicht wirklich die Mitte ist. Denn einerseits werden die Möglichkeiten und Fähigkeiten der eingesetzten Verfahren – meist aus Unwissenheit – völlig überschätzt. Ein künstliches neuronales Netz ist nichts Weiteres als ein relativ einfaches mathematisches Verfahren, das noch meilenweit von den Fähigkeiten eines echten neuronalen Netzwerkes mit dem Namen Gehirn entfernt ist. Deep Learning mit dem Computer ist dem Lernen eines Zweijährigen in vielen Aspekten so unterlegen, dass der Begriff Lernen eigentlich irreführend ist. In anderen Aspekten ist der Computer aber mit seinen Fähigkeiten dem Menschen weit überlegen. Viele der Potenziale, die sich daraus ergeben, sind noch ungenutzt.

Mit diesem Buch soll das Themengebiet – praxisorientiert – auf den Boden der Realität geholt werden. Es geht um Data-Science. Dabei handelt es sich zwar auch um eine Wissenschaft, aber vor allem um betriebliche Praxis. Es geht um den Aufgabenbereich eines Data-Scientisten. Spätestens, als das Harvard Business Review im Oktober 2012 Data-Science als „The Sexiest Job of the 21st Century" ausrief, stieg das Interesse an dem Aufgabenfeld stark an.¹ Der Job eines Data-Scientisten ist es, aus großen Datenmengen Informationen zu generieren und Handlungsempfehlungen abzuleiten, die das Unternehmen befähigen, effizienter zu arbeiten. Dazu werden technische Hilfsmittel (Datenbanken, Analysesoftware) und theoretische Verfahren (Machine-Learning, Data-Mining, statistische Verfahren etc.) eingesetzt.

Ein Data-Scientist kann mit riesigen Datenmengen umgehen und einen möglichst großen Nutzen daraus ziehen. Das bedeutet, dass eine Mischung aus

• aktuellem, technischen/IT-Wissen,

• fundierten Kenntnissen der mathematisch-statistischen Verfahren,

• Domänenwissen über das fachliche Umfeld des Arbeitgebers/Auftraggebers

• und kommunikativen Fähigkeiten

vorhanden sein muss. Es handelt sich um ein modernes Einhorn: ein Data-Geek mit Managementqualitäten.

Im vorliegenden Buch soll ein aktueller Überblick darüber gegeben werden, was die Wissenschaft Data-Science und der Beruf Data-Scientist umfassen. Es soll ein Beitrag geleistet werden, der die Diskussion versachlicht und dazu anregt, das große Potenzial maschinellen Lernens vermehrt in der unternehmerischen Praxis zu nutzen. Es entsteht der Eindruck, dass viele Aktivitäten in Unternehmen noch zu stark auf Randgebiete beschränkt sind (es geht z. B. um die Bereitstellung der Technik oder um Diskussionen, was gewollt und was erlaubt ist), während die tatsächlichen „Erkenntnisgewinnungsprojekte" viel zu kurz kommen.

Es lässt sich die Frage stellen, ob es nicht fahrlässig ist, wenn Unternehmen und Organisationen bewährte Verfahren und Technologien nicht einsetzen. Beispielhaft auf das Gesundheitswesen angewendet, sieht die Problematik wie folgt aus:

Ist es unterlassene Hilfeleistung mit Todesfolge, wenn Gesundheitsdaten nicht analysiert werden? Das ist zugegebenermaßen eine sehr provokante These. Aber im Kern geht es darum, dass es zahlreiche Beispiele gibt, in denen nachgewiesenermaßen durch die Analyse von Gesundheitsdaten Kosten gespart, Krankheitsbehandlungen optimiert und letztendlich Todesfälle verhindert werden können (siehe Abschnitt 6.2.4).

Es ist eben bequemer, sich auf die Schwierigkeiten der Datenbeschaffung, die restriktiven Datenschutzregelungen oder auf technische Engpässe zu berufen. Häufig ist auch – insbesondere bei Führungskräften – ein Kokettieren mit der eigenen Ignoranz bezüglich Mathematik, Statistik und Technik erkennbar. Aber es gibt keinen Grund, nicht zu handeln: Die Daten sind vorhanden; die mathematischen und statistischen Verfahren sind vorhanden; die Technik, auch um riesige Datenmengen bzw. Big Data auszuwerten, ist vorhanden.

Letztendlich ist es ein Imperativ, alles daranzusetzen, Erkenntnisse aus den vorhandenen Daten zu gewinnen. Alles andere bedeutet eine Verschwendung des Geldes der Mitglieder unseres Gesundheitssystems und im extremen Fall eben auch unterlassene Hilfeleistung mit Todesfolge.

Es lassen sich ähnlich provokante Fragen in allen Branchen finden. Ist es Verschwendung des Geldes der Eigentümer, wenn ein Chiphersteller nicht alles daran setzt, seinen Produktionsprozess durch Datenanalyse zu optimieren und den Ausschuss zu vermindern? Warum verschwendet eine Supermarktkette Lebensmittel, weil sie den Bedarf nicht nach Regeln der Data-Science prognostiziert hatte (siehe Abschnitt 6.2.6)? Warum bleibt ein Zug stehen und verursacht hohe Kosten beim Bahnunternehmen und bei den Kunden, nur weil ein Teil kaputtgeht, das vorausschauend schon hätte ausgewechselt werden können (siehe Abschnitt 6.2.2)?

Es lassen sich, wie bereits erwähnt, in jeder Branche Hunderte vergleichbare Situationen finden, in denen mit datenanalysierenden Verfahren Verbesserungen realisiert werden können. Die Optimierungen in den einzelnen Projekten sind oft nicht umfassend und aufwändig, sondern liegen eher im unspektakulären Prozentbereich. Es reicht aber in der Regel aus, dass sich das einzelne Projekt rechnet (eine um ein Prozent erhöhte Responserate auf eine Mailingaktion kann eine Verdopplung des Gewinnes bedeuten). Hochgerechnet auf das ganze Unternehmen oder sogar auf Volkswirtschaften handelt es sich um Millionen- bzw. Milliardenbeträge – und manchmal eben auch um Tausende von Menschenleben.

Diese Effekte können oft über unkritische Projekte erreicht werden. Die Kritik an datenanalysierenden Aktivitäten, die Persönlichkeitsrechte verletzen, das Leben von Menschen manipulieren etc. ist berechtigt und notwendig. Aber es gibt genügend Bereiche, die unkritisch sind, und es gibt keinen Grund, Aktivitäten in diesen Gebieten nicht anzugehen.

Zweite Auflage

In den drei Jahren seit der ersten Auflage dieses Buches haben sich insbesondere im Bereich der Softwarelösungen einige Änderungen ergeben. Bestehende Angebote haben sich weiterentwickelt, neue Lösungen kamen hinzu und wurden optimiert und manche Angebote haben an Beliebtheit verloren. Der Trend zur Cloud hat ebenso Auswirkungen auf die Anforderungen an Data-Scientisten. Dementsprechend wurden die diesbezüglichen Kapitel in der zweiten Auflage aktualisiert. Im Kapitel zum Verfahren wurden die Bereiche Ensemble-Verfahren, Entscheidungsbäume und neuronale Netze überarbeitet und ergänzt, um deren hoher Bedeutung gerecht zu werden.

Ein Abschnitt zum Thema Deployment von Modellen wurde hinzugefügt, da die Umsetzung von Machine-Learning-Modellen in produktiven Softwareanwendungen in der betrieblichen Praxis eines der bedeutenden Themen darstellt. Zum Beispiel kann ein Credit-Scoring-Modell erst durch den Realtime-Einsatz in einem Webshop einen echten Mehrwert schaffen. Wie es ein Python-Modell aus dem Jupyter-Notebook des Data-Scientisten in die Webanwendung des Unternehmens schafft, ist dabei die zentrale Frage.

Bei den Anwendungsbeispielen wurden die Themen autonomes Fahren und – aus gegebenem Anlass – Machine-Learning in einer Pandemie ergänzt.

Bedanken möchte ich mich bei meiner Familie für die geistig moralische Unterstützung bei der Erstellung des Buches, bei meinen Kunden und Kollegen für den fachlichen Input durch Diskussionen und konkrete Fragestellungen und bei Torsten Haase von Mercedes Benz für die kritische Durchsicht des Manuskriptes.

Gliederung des Buches

Das Buch ist folgendermaßen gegliedert:

Nach einer Einführung in Kapitel 1 orientiert sich die Gliederung des Buches am Prozess der Datenanalyse. Von der Datenquelle geht es über die verwendeten Werkzeuge und die eingesetzten Verfahren bis hin zum konkreten Vorgehen und Beispielen in der Praxis.

Kapitel 2 beschäftigt sich mit den „Datentöpfen" unter einer technischen Brille. Wo und wie werden die Daten bereitgestellt, die als Quelle für die Datenanalyse herangezogen werden? Konkret werden die wichtigsten Arten von Datenbanken vorgestellt:

• Flatfiles

• ODBC-Datenbanken

• Data-Warehouse

• NoSQL-Datenbanken

• Hadoop

• Cloud-Speicher

In Kapitel 3 wird auf die Werkzeuge – also die Softwarelösungen – eingegangen, mit denen die Daten analysiert werden. Dabei wird zwischen den wichtigsten Sprachen (SQL, R, Python), den Data-Science-Plattformen und den Machine Learning Libraries unterschieden. Unter diesen Softwareanwendungen gibt es sowohl Open-Source- als auch kommerzielle Angebote.

In Kapitel 4 wird auf die gebräuchlichsten Analyseverfahren eingegangen. Dabei handelt es sich um Verfahren aus den Bereichen Statistik, Mathematik, Machine Learning, künstliche Intelligenz und Computer Science. Es wird versucht, die Verfahren zu strukturieren und im Einzelnen so darzustellen, dass ein Grundverständnis für die Möglichkeiten und Grenzen des Verfahrens aufgebaut werden kann.

Kapitel 5 wendet sich der Praxis zu und erläutert, wie Analytics-Projekte in Unternehmen oder Forschungseinrichtungen durchgeführt werden. Die bewährten Vorgehensmodelle werden vorgestellt. Außerdem wird auf das Thema Modell-Management eingegangen. Dies ist vor allem dann wichtig, wenn in größeren Teams zusammengearbeitet wird und über die Zeit eine Vielzahl von Analysemodellen erstellt, getestet, angepasst und wieder verworfen werden.

In Kapitel 6 werden Use Cases – also Anwendungsfälle – für die besprochenen Verfahren und Techniken vorgestellt. Dabei geht es nicht nur um konkrete Einzelfälle, sondern auch um den Versuch, ein Bild über mögliche Einsatzszenarien zu geben. Die Use Cases werden vorgestellt und die Besonderheiten ausgewählter Branchen diskutiert.

¹ Vgl. Harvard Business Review

2 Daten bereitstellen

Data-Science bezeichnet den Prozess, durch die Analyse von Daten mit geeigneten Verfahren Erkenntnisse zu gewinnen. Die erste Frage, die sich stellt, ist diejenige nach der Quelle der Daten. Woher kommen die zu analysierenden Daten und wo und wie werden sie bereitgestellt? Im Folgenden wird auf diese Datenquellen näher eingegangen. Konkret handelt es sich dabei um:

• Flatfiles

• Relationale Datenbanken

• Data-Warehouses

• NoSQL-Datenbanken

• Hadoop

• Cloud-Datenbanken

2.1 Flatfiles

Die einfachste Form der Datenbereitstellung sind Flatfiles, also Tabellen und strukturierte Textdateien, die man aus operativen Systemen wie z. B. ERP-Systemen exportiert oder über Befragungen gewonnen hat. Die Dateien werden in unterschiedlichen Formaten zur Verfügung gestellt. Die gebräuchlichsten sind:

• csv

• xls

• xml

• produktspezifische Formate (SPSS, SAS, Stata, ARFF, DBase …)

Bei dieser Form der Datenanalyse handelt es sich meist nicht um „Big Data" (auch wenn die Größe der Files grundsätzlich nahezu unbegrenzt sein kann), aber dennoch spielen Flatfiles nach wie vor eine wichtige Rolle in Data-Science-Projekten. Es muss z.B. kein Zugang zur Datenbank eines Produktivsystems eingerichtet werden, was meist einen höheren Aufwand im Bereich Berechtigungen und Netzwerkzugang bedeutet. Stattdessen werden die Daten aus dem Quellsystem exportiert und dann in das Analysesystem eingelesen, wo die eigentliche Analyse bzw. Modellierung stattfindet. Liegt eine sehr hohe Anzahl an Flatfiles vor, bietet es sich an, den Prozess

Gefällt Ihnen die Vorschau?

Seite 1 von 1

Data Science: Eine praxisorientierte Einführung im Umfeld von Machine Learning, künstlicher Intelligenz und Big Data - 2., erweiterte Auflage

Über dieses E-Book

Michael Oettinger

Mehr von Michael Oettinger lesen

EPSAS: Leitfaden - Vorbereitung auf die Einführung europäischer Rechnungslegungsstandards im öffentlichen Sektor

Data Science und AI: Eine praxisorientierte Einführung im Umfeld von Machine Learning, künstlicher Intelligenz und Big Data - 3. erweiterte Auflage

Ähnliche Autoren

Ähnlich wie Data Science

Ähnliche E-Books

Big Data: Die neue Intelligenz des Menschen (GEO eBook)

Künstliche Intelligenz in Sozialen Medien

Digital Politics: So verändert das Netz die Demokratie. 10 Wege aus der digitalen Unmündigkeit

Business-Intelligence-Lösungen für Unternehmen

Modellbasiertes Requirements Engineering: Von der Anforderung zum ausführbaren Testfall

"Meisterhaft mit ChatGPT": "Der umfassende Leitfaden zur effektiven Nutzung von KI-gestützten Gesprächspartnern"

IT Wissensmanagement: Theorie und Praxis

30 Minuten ChatGPT

IT-Wissen für Manager: Ein kompakter Überblick zu aktuellen Technologien und Trends

Mensch und Künstliche Intelligenz: Herausforderungen für Kultur, Wirtschaft und Gesellschaft

ChatGPT – Für Einsteiger: Schreibprofi mit KI, Zeit und Geld sparen ohne peinliche Fehler

Generatives Deep Learning: Maschinen das Malen, Schreiben und Komponieren beibringen

Künstliche Intelligenz und Maschinisierung des Menschen

Künstliche Intelligenz in Nachrichtenredaktionen: Begriffe, Systematisierung, Fallbeispiele

Ihr Persönlichkeitstyp: Logiker (INTP)

Python lernen – kurz & gut

Maschinelles Lernen In Aktion: Einsteigerbuch Für Laien, Schritt-Für-Schritt Anleitung Für Anfänger

Künstliche Intelligenz für jedermann: Wie wir von schlauen Computern profitieren: Einführung in die Forschung der Künstlichen Intelligenz in Deutschland. Einfach erklärt und mit Blick in die Zukunft der Informationstechnologie.

Machine Learning – Die Referenz: Mit strukturierten Daten in Python arbeiten

Google & mehr: Online-Recherche: Wie Sie exakte Treffer auf Ihre Suchanfragen erhalten

Boost - Denken wie Elon Musk und Co: Wissenschaftlich erprobte Strategien für gigantische Fortschritte in Beruf und Privatleben

Einstieg in die Datenanalyse mit SPSS

Blockchain kurz & gut

Phytotronik: Kurioses aus Botanik, Züchtung und Vererbung IV

Digitalotopia: Sind wir bereit für die (R)Evolution der Wirklichkeit?

Kursbuch 213: Alles kein Zufall

Auf lange Sicht (E-Book): Daten erzählen Geschichten

Die nicht zu kurze Kurzeinführung in MATLAB: Erste Schritte in MATLAB

Du dachtest, du kennst die Welt...: Science Facts mit Mindblow-Garantie (Platz 1 SPIEGEL-Bestseller)

Grundlagen der Softwareentwicklung

Wissenschaft & Mathematik für Sie

Anglizismen und andere "Fremdwords" deutsch erklärt: Über 1000 aktuelle Begriffe

Tesla: Freie Energie selber bauen Ausgabe 2018 Weiteres Bonusmaterial zum Buch auch auf: https://www.dein-teslabauplan.de

Das indoktrinierte Gehirn: Wie wir den globalen Angriff auf unsere mentale Freiheit erfolgreich abwehren

Yildiz Freie Energie Magnetmotor selber bauen: Mit dem Yildiz Premium 3D Modell im Buch Weiteres Bonusmaterial zum Buch auch auf: www.magnet-motor4u.de/start

Lexikon der Symbole und Archetypen für die Traumdeutung

SPRACHSPIELE: FACHSPRACHE WIRTSCHAFT DAF: Ein universitäres Experiment

ChatGPT: Begegnung mit einer neuen Welt: Lernen Sie Künstliche Intelligenz mit der Gratisversion ChatGPT 3.5

Das Tibetanische Totenbuch, Swedenborg und die moderne Nahtod-Forschung: Vergleichende Analyse mit einer Einführung in das Abduktions-Phänomen im Kontext höherdimensionaler Raumzeit

Astronomie und Chronologiekritik

Einstieg in ChatGPT: Künstliche Intelligenz verstehen und nutzen: Ein praktischer Ratgeber für Einsteiger

Unterricht kompetent planen (E-Book): Vom didaktischen Denken zum professionellen Handeln

Wie man einen verdammt guten Roman schreibt 1

Wissenschaft als Beruf: Eine Debatte

Kognitive Verhaltenstherapie - Einführung: Kognitive Verhaltenstherapie bei Angst- und Panikstörungen, Burn-out und Depressionen - inkl. 4-Wochen-Plan, Arbeitsblättern und Fragebögen

...Als die Noten laufen lernten...Band 2: Kabarett-Operette-Revue-Film-Exil. Unterhaltungsmusik bis 1945

Einsteigerhandbuch für die Obsidian-Notiz-App und Second Brain: Alles, was Sie über die Obsidian-Software wissen müssen, mit über 70 Screenshots als Anleitung

Philosophie als strenge Wissenschaft

Die Krisis der europäischen Wissenschaften und die transzendentale Phänomenologie: Eine Einleitung in die phänomenologische Philosophie

Narrative des Neuen Menschen: Vom Versprechen einer besseren Welt

Rassismus und kulturelle Identität: Ausgewählte Schriften 2

In Bildern sprechen: Wie Metaphern unser Denken leiten - Materialien zur fächerübergreifenden Sprachreflexion

Menschheit 2.0: Die Singularität naht

Musik als Bewegung: Die Energietheorie der Musik von Ernst Kurth

Viva Vortex: Alles lebt - Quanten sind Wirbel sind verschachtelte Rückkopplungen

Mehrsprachigkeiten (E-Book): Mit Vielfalt jonglieren - auf Sekundarstufe II und an Hochschulen

Kinderlieder: 100 Liedertexte der schönsten Kinderlieder

Schöpferische Evolution

Experimente mit Hochleistungs-LEDs: Power-LEDs in der Praxis!

Anarchistische Welten: Nautilus Flugschrift

Die große Hausapotheke der Psychologie

Ähnliche Podcast-Episoden

Ähnliche Artikel

Verwandte Kategorien

Rezensionen für Data Science

Wie hat es Ihnen gefallen?

Buchvorschau

Data Science - Michael Oettinger

1 Einleitung

2 Daten bereitstellen

2.1 Flatfiles