Double Moving Durchschnitt Minitab


Eine Reihe von wiederholbaren Schritten zum Ausführen einer bestimmten Art von Aufgabe mit Daten. Wie bei den Datenstrukturen lernen die Menschen, die Informatik studieren, verschiedene Algorithmen und ihre Eignung für verschiedene Aufgaben kennen. Spezifische Datenstrukturen spielen oft eine Rolle, wie bestimmte Algorithmen implementiert werden. Siehe auch Datenstruktur Eine Open-Source-JavaScript-Bibliothek, die von Google und der AngularJS-Community verwaltet wird, ermöglicht Entwicklern, sogenannte Single Web Page-Anwendungen zu erstellen. AngularJS ist beliebt bei Daten-Wissenschaftler als eine Möglichkeit, die Ergebnisse ihrer Analyse zu zeigen. Siehe auch JavaScript. D3 Auch AI. Die Fähigkeit, Maschinen mit scheinbarer Intelligenz zu handeln, obwohl verschiedene Definitionen der Intelligenz zu einer Reihe von Bedeutungen für die künstliche Vielfalt führen. In AIs frühen Tagen in den 1960er Jahren suchten die Forscher allgemeine Prinzipien der Intelligenz zu implementieren, oft mit symbolischen Logik zu automatisieren Argumentation. Da die Kosten für Rechenressourcen sank, konzentrierte sich der Fokus stärker auf die statistische Analyse großer Datenmengen, um Entscheidungen zu treffen, die das Auftreten von Intelligenz vermitteln. Siehe auch maschinelles Lernen. Data Mining Auch Backprop. Ein Algorithmus zur iterativen Einstellung der in einem neuronalen Netzwerksystem verwendeten Gewichte. Backpropagation wird oft verwendet, um Gradientenabstieg zu implementieren. Siehe auch neuronales Netzwerk. Gradient Abstieg auch, Bayes Regel. Eine Gleichung zur Berechnung der Wahrscheinlichkeit, dass etwas wahr ist, wenn etwas, das damit in Zusammenhang steht, wahr ist. Wenn P (A) die Wahrscheinlichkeit ist, daß A wahr ist und P (AB) die Wahrscheinlichkeit ist, daß A wahr ist, wenn B wahr ist, dann sagt der Bayes-Satz, daß P (AB) (P (BA) P (A)) P ist (B). Dies ist nützlich für die Arbeit mit falschen Positiven zum Beispiel, wenn x von Menschen eine Krankheit haben, ist der Test für sie korrekt y der Zeit, und Sie testen positive, Bayes Theorem hilft, die Chancen, dass Sie tatsächlich die Krankheit zu berechnen. Das Theorem macht es auch einfacher, eine Wahrscheinlichkeit basierend auf neuen Daten zu aktualisieren, was es wertvoll in den vielen Anwendungen macht, wo sich die Daten weiter ansammeln. Benannt für den achtzehnten Jahrhundert englischen Statistiker und Presbyterian Minister Thomas Bayes. Siehe auch Bayesschen Netz. Vorherige Verteilung Auch Bayes net. Bayes-Netzwerke sind Graphen, die kompakt die Beziehung zwischen Zufallsvariablen für ein gegebenes Problem darstellen. Diese Graphen helfen bei der Durchführung von Argumentation oder Entscheidungsfindung angesichts der Unsicherheit. Diese Argumentation beruht stark auf der Bayes-Regel. Bourg Diese Netze werden in der Regel als Graphen dargestellt, in denen die Verknüpfung zwischen zwei beliebigen Knoten einem Wert zugeordnet wird, der die Wahrscheinlichkeitsbeziehung zwischen diesen Knoten darstellt. Siehe auch Bayes Theorem. Markov Chain Im maschinellen Lernen ist Bias eine Lerntendenz, konsequent das gleiche Falsche zu lernen. Varianz ist die Tendenz, zufällige Dinge unabhängig vom realen Signal zu lernen. Seine leicht zu vermeiden Überbeugung (Varianz) durch das Fallen in den entgegengesetzten Fehler der Unterausrüstung (Bias). Gleichzeitige Vermeidung von beiden erfordert das Erlernen einer perfekten Klassifizierer, und kurz zu wissen, es im Voraus gibt es keine einzige Technik, die immer am besten (kein freies Mittagessen). Domingos Siehe auch Varianz. Überformung. Klassifizierung Da dies eine populäre Marketing-Buzz-Phrase geworden ist, haben sich Definitionen vermehrt, aber im Allgemeinen bezieht sie sich auf die Fähigkeit, mit Sammlungen von Daten zu arbeiten, die vorher aufgrund ihres Volumens, ihrer Geschwindigkeit und ihrer Vielfalt (die drei Vs) unpraktisch gewesen waren. Ein wichtiger Treiber für diese neue Fähigkeit ist die leichtere Verteilung von Speicher und Verarbeitung in Netzwerken von kostengünstigen Rohstoff-Hardware unter Verwendung von Technologien wie Hadoop, anstatt größere, leistungsfähigere Einzelcomputer zu erfordern. Die Arbeit, die mit diesen großen Datenmengen geleistet wird, basiert oft auf datenwissenschaftlichen Fertigkeiten. Eine Verteilung der Ergebnisse unabhängiger Ereignisse mit zwei sich gegenseitig ausschließenden möglichen Ergebnissen, einer festen Anzahl von Versuchen und einer konstanten Erfolgswahrscheinlichkeit. Dies ist eine diskrete Wahrscheinlichkeitsverteilung, im Gegensatz zu kontinuierlich zum Beispiel, anstatt sie mit einer Linie zu graphisieren, würden Sie ein Histogramm verwenden, da die potenziellen Ergebnisse ein diskreter Satz von Werten sind. Wenn die Anzahl der durch eine Binomialverteilung repräsentierten Versuche steigt, werden die Histogrammbalken, wenn die Erfolgswahrscheinlichkeit konstant bleibt, dünner, und sie sieht mehr und mehr wie ein Graph der Normalverteilung aus. Siehe auch Wahrscheinlichkeitsverteilung. Diskrete Variable. Histogramm. Normalverteilung Chi (ausgesprochen wie pie, aber beginnend mit einem k) ist ein griechischer Buchstabe, und Chi-Quadrat ist eine statistische Methode, die verwendet wird, um zu testen, ob die Klassifizierung von Daten dem Zufall oder einem zugrundeliegenden Gesetz zugeschrieben werden kann. Webster Der Chi-Quadrat-Test ist eine Analyse-Technik verwendet, um zu schätzen, ob zwei Variablen in einer Kreuztabelle sind korreliert. Shin Eine Chi-Quadrat-Verteilung variiert von der Normalverteilung, basierend auf den Freiheitsgraden, die verwendet werden, um sie zu berechnen. Siehe auch Normalverteilung und Wikipedia auf dem Chi-Quadrat-Test und auf Chi-Quadrat-Verteilung. Die Identifikation, welcher von zwei oder mehr Kategorien ein Element fällt unter eine klassische Maschine Lernaufgabe. Entscheiden, ob eine E-Mail-Nachricht ist Spam oder nicht klassifiziert sie zwischen zwei Kategorien, und die Analyse von Daten über Filme könnte dazu führen, dass die Klassifizierung von ihnen unter mehreren Genres. Siehe auch betreutes Lernen. Clustering Jeder nicht beaufsichtigte Algorithmus für die Aufteilung von Dateninstanzen in Gruppen nicht eine vorbestimmte Gruppe von Gruppen, die diese Klassifizierung machen würde, sondern Gruppen, die durch die Ausführung des Algorithmus aufgrund der Ähnlichkeiten identifiziert wurden, die es unter den Instanzen gefunden. Die Mitte jedes Clusters ist durch den ausgezeichneten Namensschwerpunkt bekannt. Siehe auch Klassifizierung. überwachtes Lernen. Unüberwachtes Lernen. K-means clustering Eine Zahl oder ein algebraisches Symbol, das als Multiplikator einer variablen oder unbekannten Größe vorangestellt ist (zB x in x (yz) 6 in 6ab-Webstern Bei der grafischen Darstellung einer Gleichung wie y 3x 4 bestimmt der Koeffizient von x die Zeilen Englisch: www. tab. fzk. de/en/projekt/zusammenf...ng/ab117.htm Die Diskussionen der Statistik erwähnen spezifische Koeffizienten für spezifische Aufgaben wie den Korrelationskoeffizienten, den Cramers - Koeffizienten und den Gini - Koeffizienten ZB Englisch oder Mandarin), um sie in strukturierte Daten zu konvertieren, die Sie verwenden können, um die Programmlogik zu steuern Frühe Anstrengungen, die auf das Übersetzen einer Sprache in eine andere oder das Akzeptieren von kompletten Sätzen als Abfragen auf Datenbanken gerichtet sind Moderne Bemühungen analysieren oft Dokumente und andere Daten, Tweets), um potentiell wertvolle Informationen zu extrahieren Siehe auch GATE UIMA Ein Bereich, der um eine Schätzung angegeben ist, um die Fehlergrenze anzuzeigen, verbunden mit einer Wahrscheinlichkeit, dass ein Wert in diesen Bereich fällt. Das Feld der Statistik bietet spezifische mathematische Formeln, um Konfidenzintervalle zu berechnen. Eine Variable, deren Wert eine beliebige unendliche Anzahl von Werten sein kann, typischerweise innerhalb eines bestimmten Bereichs. Zum Beispiel, wenn Sie Alter oder Größe mit einer Dezimalzahl ausdrücken können, dann sind sie kontinuierliche Variablen. In einer graphischen Darstellung wird der Wert einer kontinuierlichen Variable üblicherweise als eine durch eine Funktion aufgezeichnete Linie ausgedrückt. Vergleich der diskreten Variablen Der Grad der relativen Korrespondenz, wie zwischen zwei Datensätzen. Webster Wenn der Umsatz steigt, wenn das Werbebudget steigt, korrelieren sie. Der Korrelationskoeffizient ist ein Maß dafür, wie eng die beiden Datensätze korrelieren. Ein Korrelationskoeffizient von 1 ist eine perfekte Korrelation. 9 ist eine starke Korrelation, und 2 ist eine schwache Korrelation. Dieser Wert kann auch negativ sein, wie wenn die Inzidenz einer Krankheit sinkt, wenn Impfungen steigen. Ein Korrelationskoeffizient von -1 ist eine perfekte negative Korrelation. Denken Sie jedoch immer daran, dass Korrelation nicht Verursachung impliziert. Siehe auch Koeffizient Ein Maß für die Beziehung zwischen zwei Variablen, deren Werte zugleich genau beobachtet werden, wobei der Mittelwert der beiden Variablen durch das Produkt ihrer Durchschnittswerte vermindert ist. Wenn die Varianz misst, wie eine einzelne Variable von ihrem Mittel abweicht, bestimmt die Kovarianz, wie zwei Variablen im Tandem von ihren Mitteln verschieden sind. Grus Siehe auch Varianz. Mittel Bei der Verwendung von Daten mit einem Algorithmus, der Name, der einem Satz von Techniken gegeben wird, die Daten in Trainingssets und Testsets aufteilen. Das Trainingsset wird dem Algorithmus zusammen mit den richtigen Antworten gegeben. Und wird der Satz verwendet, um Vorhersagen zu machen. Der Algorithmus wird dann gebeten, Vorhersagen für jedes Element in dem Testset vorzunehmen. Die Antworten, die es gibt, werden mit den korrekten Antworten verglichen, und eine Gesamtbewertung für wie gut der Algorithmus berechnet wurde. Segaran Siehe auch Maschinelles Lernen Data-Driven Documents. Eine JavaScript-Bibliothek, die das Erstellen von interaktiven Visualisierungen erleichtert, die in Webseiten eingebettet sind. D3 ist beliebt bei Daten-Wissenschaftler als eine Möglichkeit, die Ergebnisse ihrer Analyse zu präsentieren. Siehe auch AngularJS. JavaScript Ein Spezialist für Daten wrangling. Daten-Ingenieure sind diejenigen, die die chaotischen Daten zu nehmen. Und die Infrastruktur für eine echte, konkrete Analyse aufzubauen. Sie betreiben ETL-Software, heiraten Datensätze, bereichern und reinigen alle Daten, die Unternehmen seit Jahren gespeichert haben. Biewald Siehe auch Daten wrangling. (Eine Wikipedia-Suche nach Datentechnik leitet Informationstechniken um, ein älterer Begriff, der einen unternehmensorientierteren Arbeitsplatz mit größerer Systemarchitekturverantwortung und weniger Hands-on-Arbeit mit den Daten beschreibt.) Im Allgemeinen die Verwendung von Computern zur Analyse großer Datensätze Um nach Mustern zu suchen, die Menschen Entscheidungen treffen. Während dies klingt wie viel von dem, was Daten-Wissenschaft geht, ist die populäre Verwendung des Begriffs viel älter, zumindest aus den 1990er Jahren. Siehe auch Data Science Die Fähigkeit, Wissen und Erkenntnisse aus großen und komplexen Datensätzen zu extrahieren. Patil Data science Arbeit erfordert oft Kenntnisse der Statistik und Software-Engineering. Siehe auch Data Engineer. Maschinelles Lernen Eine bestimmte Anordnung von Dateneinheiten, wie beispielsweise einem Array oder einem Baum. Menschen, die Informatik studieren, lernen über unterschiedliche Datenstrukturen und ihre Eignung für verschiedene Aufgaben. Siehe auch Algorithmus Auch Daten munging. Die Umwandlung von Daten, oft durch den Einsatz von Skriptsprachen, erleichtert die Arbeit. Wenn Sie 900.000 Geburtsjahr-Werte des Formats yyyy-mm-dd und 100.000 des Formats mmddyyyy haben und Sie ein Perl-Skript schreiben, um das letztere zu konvertieren, um so aussehen wie das ehemalige, so dass Sie sie alle zusammen verwenden können, tun Sie Daten wrangling. Diskussionen der Datenwissenschaft oft beklagen den hohen Prozentsatz der Zeit, dass die Praktizierenden verbringen müssen Daten wrangling die Diskussionen dann empfehlen die Einstellung von Daten-Ingenieure zu diesem Thema. Siehe auch Perl. Python. Schale. Daten-Ingenieur Ein Entscheidungsbaum verwendet eine Baumstruktur, um eine Anzahl möglicher Entscheidungspfade und ein Ergebnis für jeden Pfad darzustellen. Wenn Sie jemals das Spiel Zwanzig Fragen gespielt haben, dann stellt sich heraus, dass Sie mit Entscheidungsbäumen vertraut sind. Grus Siehe auch random forest Typischerweise ein Multi-Level-Algorithmus, der allmählich Dinge auf höheren Ebenen der Abstraktion identifiziert. Zum Beispiel kann die erste Ebene bestimmte Linien identifizieren, dann identifiziert die nächste Ebene Kombinationen von Linien als Formen und dann identifiziert die nächste Ebene Kombinationen von Formen als spezifische Objekte. Wie Sie vielleicht aus diesem Beispiel zu erraten, ist tiefes Lernen für Bildklassifikation beliebt. Siehe auch neuronales Netzwerk Der Wert eines abhängigen Wertes hängt vom Wert der unabhängigen Variablen ab. Wenn Sie die Wirkung der verschiedenen Größen eines Werbebudgets auf den Gesamtumsatz messen, dann ist die Werbebudgetgröße die unabhängige Variable und der Gesamtumsatz ist die abhängige Variable. Auch Dimensionalitätsreduktion. Wir können eine Technik namens Hauptkomponentenanalyse verwenden, um eine oder mehrere Dimensionen zu extrahieren, die möglichst viel von der Variation der Daten erfassen. Dimensionality Reduction ist vor allem nützlich, wenn Ihr Datensatz hat eine große Anzahl von Dimensionen und Sie wollen eine kleine Teilmenge, die den größten Teil der Abweichung erfasst zu finden. Grus Lineare Algebra kann im Großen genommen beteiligt werden, ist die lineare Algebra über das Übersetzen von etwas, das sich in einem m-dimensionalen Raum befindet, in eine entsprechende Form in einem n-dimensionalen Raum. Shin Siehe auch lineare Algebra Eine Variable, deren Potentialwerte eine von einer bestimmten Anzahl von Werten sein müssen. Wenn jemand einen Film mit zwischen einem und fünf Sternen bewertet, wobei keine teilweisen Sterne erlaubt sind, ist die Bewertung eine diskrete Variable. In einem Diagramm wird die Verteilung der Werte für eine diskrete Variable üblicherweise als Histogramm ausgedrückt. Siehe auch stetige Variable. Histogramm Die Verwendung von mathematischen und statistischen Methoden im Bereich der Ökonomie zu überprüfen und zu entwickeln, wirtschaftliche Theorien Webster Die Maschine Lernen Ausdruck für ein Stück messbare Informationen über etwas. Wenn Sie das Alter, das jährliche Einkommen und das Gewicht eines Satzes von Leuten speichern, speichern Sie drei Eigenschaften über sie. In anderen Bereichen der IT-Welt, können die Menschen die Begriffe Eigenschaft, Attribut oder Feld statt Feature verwenden. Siehe auch Feature Engineering Um ein gutes Modell zu erhalten, erfordert jedoch oft mehr Aufwand und Iteration und einen Prozess namens Feature Engineering. Merkmale sind die Modelleingänge. Sie können grundlegende rohe Daten, die Sie gesammelt haben, wie Auftragsmenge, einfache abgeleitete Variablen, wie zB Auftragsdatum an einem Wochenende YesNo, sowie komplexere abstrakte Features, wie die Ähnlichkeit zwischen zwei Filmen. Thinking-up-Funktionen ist ebenso eine Kunst wie eine Wissenschaft und kann auf Domain-Wissen verlassen. Anderson Siehe auch Feature General Architecture for Text Engineering, ein Open-Source-, Java-basiertes Framework für natürliche Sprachverarbeitungsaufgaben. Das Framework ermöglicht es Ihnen, andere Werkzeuge, die entworfen, um es angeschlossen werden Pipeline. Das Projekt basiert auf der UKs University of Sheffield. Siehe auch Computerlinguistik. UIMA Gradient Boosting ist eine maschinelle Lernmethode für Regressions - und Klassifikationsprobleme, die ein Vorhersagemodell in Form eines Ensembles von schwachen Vorhersagemodellen, typischerweise Entscheidungsbäumen, erzeugt. Sie baut das Modell stufenweise wie andere Boosting-Methoden auf und verallgemeinert sie, indem sie die Optimierung einer beliebigen differenzierbaren Verlustfunktion ermöglicht. Wikipediagb Ein Optimierungsalgorithmus zum Finden der Eingabe einer Funktion, die den größten (oder kleinsten) möglichen Wert erzeugt. Ein Ansatz zur Maximierung einer Funktion besteht darin, einen zufälligen Startpunkt zu wählen, den Gradienten zu berechnen, einen kleinen Schritt in Richtung des Gradienten zu machen (d. h. die Richtung, die bewirkt, dass die Funktion am stärksten ansteigt) und mit dem neuen Startpunkt wiederholen. Ebenso können Sie versuchen, eine Funktion durch kleine Schritte in die entgegengesetzte Richtung zu minimieren. Grus Siehe auch backpropagation Eine Skriptsprache (keine Relation zu Java), die ursprünglich Mitte der 1990er Jahre für die Einbettung von Logik in Webseiten entworfen wurde, die sich später zu einer allgemeineren Entwicklungssprache entwickelte. JavaScript ist nach wie vor sehr beliebt für die Einbettung Logik in Web-Seiten, mit vielen Bibliotheken zur Verfügung, um die Bedienung und visuelle Darstellung dieser Seiten zu verbessern. Siehe auch AngularJS. D3 Ein Data Mining-Algorithmus zur Cluster-, Klassifizie - rung oder Gruppierung von N Objekten auf Basis ihrer Attribute oder Features in K Anzahl der Gruppen (sogenannte Cluster). Parsian Siehe auch: clustering Auch kNN. Ein Maschinelles Lernen Algorithmus, dass die Dinge auf der Grundlage ihrer Ähnlichkeit zu benachbarten Nachbarn zu klassifizieren. Sie stimmen die Algorithmen Ausführung durch die Auswahl, wie viele Nachbarn zu untersuchen (k) sowie einige Begriff der Distanz, um anzuzeigen, wie nahe die Nachbarn sind. Zum Beispiel könnte in einem sozialen Netzwerk, ein Freund Ihres Freundes könnte zweimal die Entfernung von Ihnen als Ihr Freund betrachtet werden. Ähnlichkeit wäre der Vergleich von Merkmalswerten in den Nachbarn, die verglichen werden. Siehe auch Klassifizierung. Merkmal In der Statistik sind latente Variablen (vom lateinischen: present partiple of lateo (lie hidden) im Gegensatz zu beobachtbaren Variablen) Variablen, die nicht direkt beobachtet werden, sondern eher durch ein mathematisches Modell aus anderen beobachteten Variablen ( Direkt gemessen). Mathematische Modelle, die darauf abzielen, beobachtete Variablen in Form von latenten Variablen zu erklären, werden als latent variable Modelle bezeichnet. Wikipedialv Lift vergleicht die Häufigkeit eines beobachteten Musters mit wie oft Sie erwarten, dass Muster nur zufällig zu sehen. Wenn der Aufzug nahe 1 ist, dann theres eine gute Wahrscheinlichkeit, dass das Muster, das Sie beobachteten, gerade durch Zufall auftritt. Je größer der Lift, desto wahrscheinlicher ist das Muster real. Zumel Ein Zweig der Mathematik, der sich mit Vektorräumen und Operationen wie Addition und Multiplikation beschäftigt. Lineare Algebra ist entworfen, um Systeme von linearen Gleichungen darzustellen. Lineare Gleichungen sind so ausgelegt, dass sie lineare Beziehungen darstellen, wobei eine Entität als eine Summe von Vielfachen von anderen Entitäten geschrieben wird. In der Abkürzung der linearen Algebra ist eine lineare Beziehung als lineare Operatormatrix dargestellt. Zheng Siehe auch Vektor. Vektorraum. Matrix. Koeffizient Eine Technik, die nach einer linearen Beziehung sucht (dh eine, bei der die Beziehung zwischen zwei variierenden Mengen, wie etwa Preis und Umsatz, mit einer Gleichung ausgedrückt werden kann, die Sie als gerade Linie in einem Diagramm darstellen können), indem man mit a beginnt Satz von Datenpunkten, die nicht unbedingt gut aufeinander abgestimmt sind. Dies geschieht durch Berechnung der Zeile der kleinsten Quadrate: diejenige, die auf einem x-y-Diagramm die kleinstmögliche Summe quadratischer Abstände zu den tatsächlichen Datenpunkt-y-Werten aufweist. Statistische Softwarepakete bieten hierfür automatisierte Möglichkeiten. Siehe auch Regression. Logistische Regression Wenn y 10 x. Dann log (y) x. Die Arbeit mit dem Protokoll einer oder mehrerer Modellvariablen anstelle der ursprünglichen Werte erleichtert die Modellierung von Beziehungen mit linearen Funktionen anstelle von nichtlinearen. Lineare Funktionen sind in der Datenanalyse typischerweise einfacher zu verwenden. (Das angezeigte log (y) x-Beispiel ist für die Log-Basis 10. Natürliche Logarithmen oder Log-Basis e, wobei e eine spezifische irrationale Zahl von etwas über 2.7 ist, sind etwas komplizierter, aber auch sehr nützlich für verwandte Aufgaben Variable. Lineare Regression Ein Modell ähnlich der linearen Regression, aber wo die potenziellen Ergebnisse sind eine bestimmte Gruppe von Kategorien anstatt kontinuierlich. Siehe kontinuierliche Variable. Regression. Lineare Regression Die Verwendung von datengetriebenen Algorithmen, die besser funktionieren, da sie mehr Daten haben, um mit diesen zusätzlichen Daten zu arbeiten, zu lernen (dh ihre Modelle zu verfeinern). Dies beinhaltet oft eine Cross-Validierung mit Trainings - und Testdatensätzen. Das grundlegende Ziel des maschinellen Lernens ist es, über die Beispiele im Trainingsset zu verallgemeinern. Domingos Das Studium der praktischen Anwendung des maschinellen Lernens bedeutet in der Regel, welche maschinellen Lernalgorithmen für welche Situationen am besten geeignet sind. Siehe auch Algorithmus. Cross-Validierung. Künstliche Intelligenz Ein Algorithmus für die Arbeit mit einer Reihe von Ereignissen (z. B. ein System, das insbesondere Zustände ist), um die Möglichkeit eines bestimmten Ereignisses vorherzusagen, auf dessen Grundlage andere Ereignisse eingetreten sind. Die Identifizierung von probabilistischen Beziehungen zwischen den verschiedenen Ereignissen bedeutet, dass Markov-Ketten und Bayes-Netzwerke oft in denselben Diskussionen auftauchen. Siehe auch Bayesschen Netz. Monte Carlo-Methode Eine kommerzielle Computersprache und Umgebung für die Visualisierung und Algorithmenentwicklung beliebt. (Plural: Matrizen) Ein älteres Websters-Wörterbuch mit einer stärkeren Betonung der typografischen Repräsentation gibt die mathematische Definition als eine Menge von Zahlen oder Ausdrücken an, die in Zeilen und Spalten zwischen Klammern oder Doppellinien-Webseiten angeordnet sind. Für die Zwecke der Manipulation einer Matrix mit Software, denken Sie daran, wie ein zweidimensionales Array. Diese mathematische Darstellung des zweidimensionalen Arrays macht es wie mit seinem eindimensionalen Äquivalent, einem Vektor, einfacher, die Vorteile von Softwarebibliotheken zu nutzen, die erweiterte mathematische Operationen auf die datenbasierten Bibliotheken anwenden, die die Verarbeitung auf mehrere Prozessoren zur Skalierbarkeit verteilen können. Siehe auch Vektor. Lineare Algebra Der Mittelwert, obwohl technisch das als arithmetisches Mittel bekannt ist. (Andere Mittel umfassen die geometrischen und harmonischen Mittel.) Siehe auch Median. Modus Mittlerer Absolutfehler Mittlerer Fehler Fehler Auch MSE. Der Mittelwert der Quadrate aller gefundenen Fehler beim Vergleich der vorhergesagten Werte mit den beobachteten Werten. Squaring sie macht die größeren Fehler zählen für mehr, so dass Mean Squared Error beliebter als Mean Absolute Error bei der Quantifizierung der Erfolg einer Reihe von Vorhersagen. Siehe auch Mean Absolute Error. Root Mean Squared Error Wenn Werte sortiert werden, der Wert in der Mitte oder der Durchschnitt der beiden in der Mitte, wenn es eine gerade Anzahl von Werten gibt. Siehe auch mean. Mode Der Wert, der am häufigsten in einer Datenprobe auftritt. Wie der Median, kann der Modus nicht direkt berechnet werden Stanton, obwohl seine leicht genug, mit ein wenig Scripting zu finden. Für Personen, die mit Statistik arbeiten, kann mode auch Datentyps bedeuten, ob ein Wert eine Ganzzahl, eine reelle Zahl oder ein Datum ist. Siehe auch mean. Median. Scripting Eine Spezifikation einer mathematischen (oder probabilistischen) Beziehung, die zwischen verschiedenen Variablen existiert. Grus Weil Modellierung kann so viele Dinge bedeuten, wird der Begriff statistische Modellierung oft verwendet, um genauer zu beschreiben, die Art der Modellierung, dass Datenwissenschaftler tun. Monte Carlo-Methode Im Allgemeinen ist die Verwendung von zufällig generierten Zahlen als Teil eines Algorithmus. Seine Verwendung mit Markov Ketten ist so beliebt, dass die Menschen in der Regel beziehen sich auf die Kombination mit dem Akronym MCMC. Siehe auch Markov-Kette Der mittlere (oder Durchschnitt) von Zeitreihendaten (gleichzeitige Beobachtung von Beobachtungen wie pro Stunde oder pro Tag) aus mehreren aufeinanderfolgenden Zeiträumen wird als gleitender Durchschnitt bezeichnet. Sie wird als Verschieben bezeichnet, weil der Durchschnitt kontinuierlich neu berechnet wird, wenn neue Zeitreihendaten verfügbar werden, und er schreitet fort, indem er den frühesten Wert fällt und die neueste addiert. Parsisch Siehe auch mean. Zeitreihendaten Die Analyse von Sequenzen von n Elementen (typischerweise Wörter in natürlicher Sprache), um nach Mustern zu suchen. Beispielsweise untersucht die Trigrammanalyse drei Wortphrasen in der Eingabe, um nach Mustern zu suchen, wie etwa die Wörterpaare, die am häufigsten in den drei Gruppen erscheinen. Der Wert von n kann etwas anderes als drei sein, je nach Ihren Bedürfnissen. Dies hilft, statistische Modelle von Dokumenten (zum Beispiel bei der automatischen Klassifizierung) zu erstellen und positive oder negative Begriffe zu finden, die mit einem Produktnamen verknüpft sind. Siehe auch Computerlinguistik. Klassifikation naive Bayes Klassifikator Eine Sammlung von Klassifikationsalgorithmen basierend auf Bayes Theorem. Es handelt sich nicht um einen einzigen Algorithmus, sondern um eine Familie von Algorithmen, die alle ein gemeinsames Prinzip haben, dass jedes Merkmal unabhängig von dem Wert eines anderen Merkmals ist. So zum Beispiel kann eine Frucht betrachtet werden, ein Apfel zu sein, wenn er rot, rund und ungefähr 3 im Durchmesser ist. Ein Naive-Bayes-Klassierer betrachtet jede dieser Merkmale (rot, rund, 3 im Durchmesser), um unabhängig zu der Wahrscheinlichkeit beizutragen, dass die Frucht ein Apfel ist, unabhängig von jeglichen Korrelationen zwischen den Merkmalen. Merkmale, jedoch, arent immer unabhängig, die oft als ein Mangel des Naive Bayes Algorithmus gesehen und dies ist, warum seine etikettiert naiv. Aylien Dieses Naivet macht es viel einfacher, Implementierungen dieser Algorithmen zu entwickeln, die so weit kommen. Siehe auch Bayes Theorem. Klassifikation Auch neuronales Netz oder künstliches neuronales Netzwerk, um es vom Gehirn zu unterscheiden, auf dem dieser Algorithmus modelliert wird. Eine robuste Funktion, die einen beliebigen Satz von Eingaben aufnimmt und zu einem beliebigen Satz von Ausgängen passt, die binär sind. In der Praxis werden Neuronale Netze in der Tiefenforschung eingesetzt, um Bilder auf Funktionen und vieles mehr abzustimmen. Was Neural Networks besonders macht, ist die Verwendung einer verborgenen Schicht gewichteter Funktionen namens Neuronen, mit denen Sie effektiv ein Netzwerk aufbauen können, das viele andere Funktionen abbildet. Ohne eine verborgene Schicht von Funktionen, Neuronale Netze wäre nur eine Reihe von einfachen gewichteten Funktionen. Kirk Siehe auch tiefes Lernen. Rückverbreitung. Perceptron Auch Gaußsche Verteilung. (Carl Friedrich Gauss war ein deutscher Mathematiker des frühen 19. Jahrhunderts.) Eine Wahrscheinlichkeitsverteilung, die beim Graphen eine symmetrische Glockenkurve mit dem Mittelwert in der Mitte ist. Der Standardabweichungswert wirkt sich auf die Höhe und Breite des Graphen aus. Siehe auch mean. Wahrscheinlichkeitsverteilung. Standardabweichung. Binomialverteilung. Standard-Normalverteilung Ein Datenbankverwaltungssystem, das eine von mehreren Alternativen zum relationalen, tabellenorientierten Modell verwendet, das von SQL-Datenbanken verwendet wird. Während dieser Begriff bedeutete ursprünglich nicht SQL, es ist gekommen, um etwas näher an nicht nur SQL bedeuten, weil die spezialisierte Art der NoSQL-Datenbank-Management-Systeme oft haben sie spielen spezifische Rollen in einem größeren System, das auch SQL und zusätzliche NoSQL-Systeme. Siehe auch SQL Wenn Ihr vorgeschlagenes Modell für einen Datensatz sagt, dass der Wert von x den Wert von y beeinflusst. Dann die Nullhypothesisthe Modell, das youre, das Ihr vorgeschlagenes Modell mit prüft, ob x wirklich y beeinflußt, sagt, daß die Beobachtungen alle auf Zufall basieren und daß es keine Wirkung gibt. Je kleiner der aus den Probendaten berechnete P-Wert ist, desto stärker ist der Beweis gegen die Nullhypothese. Shin Siehe auch P-Wert Wenn Sie so viel (oder so wenig) wie möglich von irgendetwas bekommen möchten, und die Art, wie Sie es bekommen, ist, indem Sie die Werte anderer Größen ändern, haben Sie ein Optimierungsproblem. Um ein Optimierungsproblem zu lösen, müssen Sie Ihre Entscheidungsvariablen, Einschränkungen und die Dinge kombinieren, die Sie zusammen in eine Zielfunktion maximieren möchten. Das Ziel ist die Sache, die Sie maximieren oder minimieren möchten, und Sie verwenden die Zielfunktion, um das optimale Ergebnis zu finden. Milton Siehe auch Gradientenabsenkung Extreme Werte, die Fehler bei der Messung und Aufzeichnung sein könnten, oder können genaue Berichte von seltenen Ereignissen sein. Downey Siehe auch Overfitting Ein Modell der Trainingsdaten, das durch die Berücksichtigung von zu vielen Datenquellen und Ausreißern zu kompliziert und nicht so sinnvoll ist, wie es sein könnte, Muster in Testdaten zu finden. Siehe auch Ausreisser. Kreuz-Validierung Auch p-Wert. Die Wahrscheinlichkeit, unter der Annahme keiner Wirkung oder keiner Differenz (der Nullhypothese), ein Resultat zu erhalten, das gleich oder größer ist als das, was tatsächlich beobachtet wurde. Goodman Sein ein Maß von, wie überrascht Sie sein sollten, wenn es keinen tatsächlichen Unterschied zwischen den Gruppen gibt, aber Sie erhielten Daten, die dort vorschlagen. Ein größerer Unterschied, oder ein gesichert durch mehr Daten, deutet mehr Überraschung und einen kleineren p-Wert. Der p-Wert ist ein Maß der Überraschung, nicht ein Maß für die Größe der Wirkung. Reinhart Ein niedrigerer p-Wert bedeutet, dass Ihre Ergebnisse statistisch signifikanter sind. Siehe auch Nullhypothese Ein Algorithmus, der die Wichtigkeit von etwas bestimmt, typischerweise, um es in einer Liste von Suchergebnissen zu ordnen. PageRank arbeitet durch die Zählung der Anzahl und Qualität der Links zu einer Seite zu bestimmen, eine grobe Schätzung, wie wichtig die Website ist. Die zugrunde liegende Annahme ist, dass wichtigere Websites wahrscheinlich mehr Links von anderen Websites erhalten werden. Googlearchive PageRank ist nicht für die Seiten, die es rangiert, sondern für seinen Erfinder, Google-Mitbegründer und CEO Larry Page benannt. Eine Python-Bibliothek für Datenmanipulation beliebt bei Daten-Wissenschaftler. Siehe auch Python Fast das einfachste neuronale Netzwerk ist das Perzeptron, das ein einzelnes Neuron mit n binären Eingängen approximiert. Er berechnet eine gewichtete Summe seiner Ein - und Ausgänge, wenn die gewichtete Summe null oder größer ist. Grus Siehe auch neuronales Netzwerk Eine ältere Skriptsprache mit Wurzeln in Pre-Linux-UNIX-Systemen. Perl ist seit jeher beliebt für die Textverarbeitung, insbesondere für Datenbereinigungs - und Erweiterungsaufgaben. Siehe auch Scripting. Daten wrangling Pivot-Tabellen schnell zusammenfassen lange Listen von Daten, ohne dass Sie eine einzige Formel schreiben oder kopieren Sie eine einzelne Zelle. Aber das wichtigste Merkmal der Pivot-Tabellen ist, dass Sie sie dynamisch anordnen können. Angenommen, Sie erstellen eine Pivot-Tabellenzusammenfassung mit Rohzählungsdaten. Mit dem Ziehen einer Maus können Sie die Pivot-Tabelle einfach neu anordnen, so dass sie die Daten basierend auf Geschlecht oder Altersgruppen oder geographischen Standort zusammenfasst. Der Prozess der Umstellung Ihrer Tabelle wird als Verschieben Ihrer Daten bekannt: youre drehen die gleichen Informationen herum, um es aus verschiedenen Blickwinkeln zu untersuchen. Macdonald Eine Verteilung von unabhängigen Ereignissen, in der Regel über einen Zeitraum von Zeit oder Raum, um die Wahrscheinlichkeit eines Ereignisses vorherzusagen. Wie die Binomialverteilung ist dies eine diskrete Verteilung. Benannt für den französischen Mathematiker Simon Denis Poisson des frühen 19. Jahrhunderts. Siehe auch spatiotemporale Daten. Diskrete Variable. Binomialverteilung Die Analyse der Daten, um zukünftige Ereignisse vorherzusagen, typischerweise zur Unterstützung der Unternehmensplanung. Dies beinhaltet prädiktive Modellierung und andere Techniken. Das maschinelle Lernen kann als ein Satz von Algorithmen betrachtet werden, die dazu beitragen, prädiktive Analytik zu implementieren. Der mehr geschäftsorientierte Spin der prädiktiven Analytik macht ihn zu einem beliebten Schlagwort in der Marketing-Literatur. Siehe auch Vorhersagemodellierung. Maschinelles lernen. SPSS-Hauptkomponentenanalyse Dieser Algorithmus betrachtet einfach die Richtung mit der größten Varianz und bestimmt dann die erste Hauptkomponente. Dies ist sehr ähnlich, wie Regression arbeitet, dass es bestimmt die beste Richtung, um Daten zu. Kirk Siehe auch Regression In der Bayesschen Schlussfolgerung gehen wir davon aus, dass die unbekannte Menge, die geschätzt werden soll, viele plausible Werte aufweist, die durch eine vorherige Verteilung modelliert werden. Die Bayessche Folgerung verwendet dann Daten (die als unverändert betrachtet werden), um eine engere hintere Verteilung für die unbekannte Größe zu bilden. Zumel Siehe auch Bayes Theorem Eine Wahrscheinlichkeitsverteilung für eine diskrete Zufallsvariable ist eine Auflistung aller möglichen deutlichen Ergebnisse und ihrer Wahrscheinlichkeit des Auftretens. Da alle möglichen Ergebnisse aufgelistet sind, muss die Summe der Wahrscheinlichkeiten 1,0 addieren. Levine Siehe auch diskrete Variable Eine seit 1994 verfügbare Programmiersprache, die bei Menschen mit Datenwissenschaften beliebt ist. Python ist für Benutzerfreundlichkeit bei Anfängern und große Macht, wenn von fortgeschrittenen Benutzern, vor allem bei der Nutzung von spezialisierten Bibliotheken wie diejenigen, die für das maschinelle Lernen und Grafik-Generierung. Siehe auch Scripting. Pandas Wenn Sie einen Satz von sortierten Werten in Gruppen teilen, die jeweils die gleiche Anzahl von Werten haben (z. B. wenn Sie die Werte in zwei Gruppen am Median teilen), wird jede Gruppe als Quantil bezeichnet. Wenn es vier Gruppen gibt, nennen wir sie Quartile, was ein gängiger Weg ist, Werte für Diskussions - und Analysezwecke aufzuteilen, wenn es fünf sind, nennen wir Quintile und so weiter. Siehe auch median Eine Open-Source-Programmiersprache und - umgebung für statistische Berechnungen und Graphgenerierung für Linux, Windows und Mac. Ein Algorithmus, der für die Regression oder Klassifizierung verwendet wird, die eine Sammlung von Strukturdatenstrukturen verwendet. Um ein neues Objekt aus einem Eingabevektor zu klassifizieren, setzen Sie den Eingabevektor auf jeden der Bäume in der Gesamtstruktur. Each tree gives a classification, and we say the tree votes for that class. The forest chooses the classification having the most votes (over all the trees in the forest). breiman The term random forest is actually trademarked by its authors. See also classification. vector. decision trees . the more general problem of fitting any kind of model to any kind of data. This use of the term regression is a historical accident it is only indirectly related to the original meaning of the word. downey See also linear regression. logistic regression. principal component analysis A class of machine learning algorithms in which the process is not given specific goals to meet but, as it makes decisions, is instead given indications of whether its doing well or not. For example, an algorithm for learning to play a video game knows that if its score just went up, it must have done something right. See also supervised learning. unsupervised learning Root Mean Squared Error Also, RMSE . The square root of the Mean Squared Error. This is more popular than Mean Squared Error because taking the square root of a figure built from the squares of the observation value errors gives a number thats easier to understand in the units used to measure the original observations. See also Mean Absolute Error. Mean Squared Error. A scripting language that first appeared in 1996. Ruby is popular in the data science community, but not as popular as Python, which has more specialized libraries available for data science tasks. See also scripting. Python Imagine a graph showing, for each month since smartphones originally became available, how many people in the US bought their first one. The line would rise slowly at first, when only the early adopters got them, then quickly as these phones became more popular, and then level off again once nearly everyone had one. This graphs line would form a stretched-out S shape. The S curve applies to many other phenomena and is often mentioned when someone predicts that a rising value will eventually level off. A commercial statistical software suite that includes a programming language also known as SAS. Designating or of a quantity that has magnitude but no direction in space, as volume or temperature n. a scalar quantity: distinguished from vector websters See also vector Generally, the use of a computer language where your program, or script, can be run directly with no need to first compile it to binary code as with with languages such as Java and C. Scripting languages often have simpler syntax than compiled languages, so the process of writing, running, and tweaking scripts can go faster. See also Python. Perl. Ruby. shell As prices vary from day to day, you might expect to see patterns. If the price is high on Monday, you might expect it to be high for a few more days and if its low, you might expect it to stay low. A pattern like this is called serial correlation, because each value is correlated with the next one in the series. To compute serial correlation, we can shift the time series by an interval called a lag, and then compute the correlation of the shifted series with the original. Autocorrelation is another name for serial correlation, used more often when the lag is not 1. downey See also correlation When you use a computers operating system from the command line, youre using its shell. Along with scripting languages such as Perl and Python, Linux-based shell tools (which are either included with or easily available for Mac and Windows machines) such as grep, diff, split, comm, head, and tail are popular for data wrangling. A series of shell commands stored in a file that lets you execute the series by entering the files name is known as a shell script. See also data wrangling. scripting. Perl. Python Time series data that also includes geographic identifiers such as latitude-longitude pairs. See also time series data A commercial statistical software package, or according to the product home page, predictive analytics software. spss The product has always been popular in the social sciences. The company, founded in 1968, was acquired by IBM in 2009. See also predictive analytics The ISO standard query language for relational databases. Variations of this extremely popular language are often available for data storage systems that arent strictly relational watch for the phrase SQL-like. The square root of the variance, and a common way to indicate just how different a particular measurement is from the mean. An observation more than three standard deviations away from the mean can be considered quite rare, in most applications. zumel Statistical software packages offer automated ways to calculate the standard deviation. See also variance standard normal distribution A normal distribution with a mean of 0 and a standard deviation of 1. When graphed, its a bell-shaped curve centered around the y axis, where x 0. See also normal distribution. mean. standard deviation Also, standard score . normal score . z-score . Transforms a raw score into units of standard deviation above or below the mean. This translates the scores so they can be evaluated in reference to the standard normal distribution. boslaugh Translating two different test sets to use standardized scores makes them easier to compare. See also standard deviation. mean. standard normal distribution A commercial statistical software package, not to be confused with strata. See also strata, stratified sampling strata, stratified sampling Divide the population units into homogeneous groups (strata) and draw a simple random sample from each group. gonick Strata also refers to an OReilly conference on big data, data science, and related technologies. See also Stata A type of machine learning algorithm in which a system is taught to classify input into specific, known classes. The classic example is sorting email into spam versus ham. See also unsupervised learning. reinforcement learning. machine learning support vector machine Also, SVM . Imagine that you want to write a function that draws a line on a two-dimensional x - y graph that separates two different kinds of pointsthat is, it classifies them into two categoriesbut you cant, because on that graph theyre too mixed together. Now imagine that the points are in three dimensions, and you can classify them by writing a function that describes a plane that can be positioned at any angle and position in those three dimensions, giving you more opportunities to find a working mathematical classifier. This plane that is one dimension less than the space around it, such as a two-dimensional plane in a three-dimensional space or a one-dimensional line on a two-dimensional space, is known as a hyperplane. A support vector machine is a supervised learning classification tool that seeks a dividing hyperplane for any number of dimensions. (Keep in mind that dimensions dont have to be x . y . and z position coordinates, but any features you choose to drive the categorization.) SVMs have also been used for regression tasks as well as categorization tasks. See also supervised learning. feature Also, students t distribution . A variation on normal distribution that accounts for the fact that youre only using a sampling of all the possible values instead of all of them. Invented by Guiness Brewery statistician William Gossett (publishing under the pseudonym student) in the early 20th century for his quality assurance work there. See also normal distribution A commercial data visualization package often used in data science projects. time series data Strictly speaking, a time series is a sequence of measurements of some quantity taken at different times, often but not necessarily at equally spaced intervals. boslaugh So, time series data will have measurements of observations (for example, air pressure or stock prices) accompanied by date-time stamps. See also spatiotemporal data. moving average The Unstructured Information Management Architecture was developed at IBM as a framework to analyze unstructured information, especially natural language. OASIS UIMA is a specification that standardizes this framework and Apache UIMA is an open-source implementation of it. The framework lets you pipeline other tools designed to be plugged into it. See also computational linguistics. GATE A class of machine learning algorithms designed to identify groupings of data without knowing in advance what the groups will be. See also supervised learning. reinforcement learning. clustering . How much a list of numbers varies from the mean (average) value. It is frequently used in statistics to measure how large the differences are in a set of numbers. It is calculated by averaging the squared difference of every number from the mean. segaran Any statistical package will offer an automated way to calculate this. See also mean. bias. standard deviation Websters first mathematical definition is a mathematical expression denoting a combination of magnitude and direction, which you may remember from geometry class, but their third definition is closer to how data scientists use the term: an ordered set of real numbers, each denoting a distance on a coordinate axis websters. These numbers may represent a series of details about a single person, movie, product, or whatever entity is being modeled. This mathematical representation of the set of values makes it easier to take advantage of software libraries that apply advanced mathematical operations to the data. See also matrix. linear algebra An open source set of command line and graphical user interface data analysis tools developed at the University of Waikato in New Zealand. References Sarah Boslaugh, Statistics in a Nutshell . 2nd Edition (Sebastopol: OReilly Media, 2012). David M. Bourg and Glenn Seeman AI for Game Developers (Sebastopol: OReilly Media, 2004). Leo Breiman and Adele Cutler, Random Forests. accessed 2015-08-22. Allen B. Downey Think Stats . 2nd Edition (Sebastopol: OReilly Media, 2014). Larry Gonick and Woolcott Smith, The Cartoon Guide to Statistics (New York: HarperCollins, 1993) S. N. Goodman, Toward evidence-based medical statistics. 1: The P value fallacy . Annals of Internal Medicine, 130:9951004, 1999. (quoted in Reinhart ) Mahmoud Parsian, Data Algorithms . (Sebastopol: OReilly Media, 2015). 82. Stanton, J. M. (2012). Introduction to Data Science . Third Edition. iTunes Open Source eBook. Available: itunes. appleusbookintroduction-to-data-scienceid529088127mt11 Victoria Neufeldt, Editor in Chief, Websters New World College Dictionary . Third Edition (New York: Macmillan, 1997). Nina Zumel and John Mount, Practical Data Science with R (Shelter Island: Manning Publications, 2014).Eva Goldwater Biostatistics Consulting Center University of Massachusetts School of Public Health updated February 2007 At A Glance We used Excel to do some basic data analysis tasks to see whether it is a reasonable alternative to using a statistical package for the same tasks. We concluded that Excel is a poor choice for statistical analysis beyond textbook examples, the simplest descriptive statistics, or for more than a very few columns. The problems we encountered that led to this conclusion are in four general areas : Missing values are handled inconsistently, and sometimes incorrectly. Data organization differs according to analysis, forcing you to reorganize your data in many ways if you want to do many different analyses. Many analyses can only be done on one column at a time, making it inconvenient to do the same analysis on many columns. Output is poorly organized, sometimes inadequately labeled, and there is no record of how an analysis was accomplished. Excel is convenient for data entry, and for quickly manipulating rows and columns prior to statistical analysis. However when you are ready to do the statistical analysis, we recommend the use of a statistical package such as SAS, SPSS, Stata, Systat or Minitab. Introduction Excel is probably the most commonly used spreadsheet for PCs. Newly purchased computers often arrive with Excel already loaded. It is easily used to do a variety of calculations, includes a collection of statistical functions, and a Data Analysis ToolPak. As a result, if you suddenly find you need to do some statistical analysis, you may turn to it as the obvious choice. We decided to do some testing to see how well Excel would serve as a Data Analysis application. To present the results, we will use a small example. The data for this example is fictitious. It was chosen to have two categorical and two continuous variables, so that we could test a variety of basic statistical techniques. Since almost all real data sets have at least a few missing data points, and since the ability to deal with missing data correctly is one of the features that we take for granted in a statistical analysis package, we introduced two empty cells in the data: Each row of the spreadsheet represents a subject. The first subject received Treatment 1, and had Outcome 1. X and Y are the values of two measurements on each subject. We were unable to get a measurement for Y on the second subject, or on X for the last subject, so these cells are blank. The subjects are entered in the order that the data became available, so the data is not ordered in any particular way. We used this data to do some simple analyses and compared the results with a standard statistical package. The comparison considered the accuracy of the results as well as the ease with which the interface could be used for bigger data sets - i. e. more columns. We used SPSS as the standard, though any of the statistical packages OIT supports would do equally well for this purpose. In this article when we say quota statistical package, quot we mean SPSS, SAS, STATA, SYSTAT, or Minitab. Most of Excels statistical procedures are part of the Data Analysis tool pack, which is in the Tools menu. It includes a variety of choices including simple descriptive statistics, t-tests, correlations, 1 or 2-way analysis of variance, regression, etc. If you do not have a Data Analysis item on the Tools menu, you need to install the Data Analysis ToolPak. Search in Help for quotData Analysis Toolsquot for instructions on loading the ToolPak. Two other Excel features are useful for certain analyses, but the Data Analysis tool pack is the only one that provides reasonably complete tests of statistical significance. Pivot Table in the Data menu can be used to generate summary tables of means, standard deviations, counts, etc. Also, you could use functions to generate some statistical measures, such as a correlation coefficient. Functions generate a single number, so using functions you will likely have to combine bits and pieces to get what you want. Even so, you may not be able to generate all the parts you need for a complete analysis. Unless otherwise stated, all statistical tests using Excel were done with the Data Analysis ToolPak. In order to check a variety of statistical tests, we chose the following tasks: Get means and standard deviations of X and Y for the entire group, and for each treatment group. Get the correlation between X and Y. Do a two sample t-test to test whether the two treatment groups differ on X and Y. Do a paired t-test to test whether X and Y are statistically different from each other. Compare the number of subjects with each outcome by treatment group, using a chi-squared test. All of these tasks are routine for a data set of this nature, and all of them could be easily done using any of the aobve listed statistical packages. General Issues Enable the Analysis ToolPak The Data Analysis ToolPak is not installed with the standard Excel setup. Look in the Tools menu. If you do not have a Data Analysis item, you will need to install the Data Analysis tools. Search Help for quotData Analysis Toolsquot for instructions. Missing Values A blank cell is the only way for Excel to deal with missing data. If you have any other missing value codes, you will need to change them to blanks. Data Arrangement Different analyses require the data to be arranged in various ways. If you plan on a variety of different tests, there may not be a single arrangement that will work. You will probably need to rearrange the data several ways to get everything you need. Dialog Boxes Choose ToolsData Analysis, and select the kind of analysis you want to do. The typical dialog box will have the following items: Input Range: Type the upper left and lower right corner cells. z. B. A1:B100. You can only choose adjacent rows and columns. Unless there is a checkbox for grouping data by rows or columns (and there usually is not), all the data is considered as one glop. Labels - There is sometimes a box you can check off to indicate that the first row of your sheet contains labels. If you have labels in the first row, check this box, and your output MAY be labeled with your label. Then again, it may not. Output location - New Sheet is the default. Or, type in the cell address of the upper left corner of where you want to place the output in the current sheet. New Worksheet is another option, which I have not tried. Ramifications of this choice are discussed below. Other items, depending on the analysis. Output location The output from each analysis can go to a new sheet within your current Excel file (this is the default), or you can place it within the current sheet by specifying the upper left corner cell where you want it placed. Either way is a bit of a nuisance. If each output is in a new sheet, you end up with lots of sheets, each with a small bit of output. If you place them in the current sheet, you need to place them appropriately leave room for adding comments and labels changes you need to make to format one output properly may affect another output adversely. Example: Output from Descriptives has a column of labels such as Standard Deviation, Standard Error, etc. You will want to make this column wide in order to be able to read the labels. But if a simple Frequency output is right underneath, then the column displaying the values being counted, which may just contain small integers, will also be wide. Results of Analyses Descriptive Statistics The quickest way to get means and standard deviations for a entire group is using Descriptives in the Data Analysis tools. You can choose several adjacent columns for the Input Range (in this case the X and Y columns), and each column is analyzed separately. The labels in the first row are used to label the output, and the empty cells are ignored. If you have more, non-adjacent columns you need to analyze, you will have to repeat the process for each group of contiguous columns. The procedure is straightforward, can manage many columns reasonably efficiently, and empty cells are treated properly. To get the means and standard deviations of X and Y for each treatment group requires the use of Pivot Tables (unless you want to rearrange the data sheet to separate the two groups). After selecting the (contiguous) data range, in the Pivot Table Wizards Layout option, drag Treatment to the Row variable area, and X to the Data area. Double click on ldquoCount of Xrdquo in the Data area, and change it to Average. Drag X into the Data box again, and this time change Count to StdDev. Finally, drag X in one more time, leaving it as Count of X. This will give us the Average, standard deviation and number of observations in each treatment group for X. Do the same for Y, so we will get the average, standard deviation and number of observations for Y also. This will put a total of six items in the Data box (three for X and three for Y). As you can see, if you want to get a variety of descriptive statistics for several variables, the process will get tedious. A statistical package lets you choose as many variables as you wish for descriptive statistics, whether or not they are contiguous. You can get the descriptive statistics for all the subjects together, or broken down by a categorical variable such as treatment. You can select the statistics you want to see once, and it will apply to all variables chosen. Correlations Using the Data Analysis tools, the dialog for correlations is much like the one for descriptives - you can choose several contiguous columns, and get an output matrix of all pairs of correlations. Empty cells are ignored appropriately. The output does NOT include the number of pairs of data points used to compute each correlation (which can vary, depending on where you have missing data), and does not indicate whether any of the correlations are statistically significant. If you want correlations on non-contiguous columns, you would either have to include the intervening columns, or copy the desired columns to a contiguous location. A statistical package would permit you to choose non-contiguous columns for your correlations. The output would tell you how many pairs of data points were used to compute each correlation, and which correlations are statistically significant. Two-Sample T-test This test can be used to check whether the two treatment groups differ on the values of either X or Y. In order to do the test you need to enter a cell range for each group. Since the data were not entered by treatment group, we first need to sort the rows by treatment. Be sure to take all the other columns along with treatment, so that the data for each subject remains intact . After the data is sorted, you can enter the range of cells containing the X measurements for each treatment. Do not include the row with the labels, because the second group does not have a label row. Therefore your output will not be labeled to indicate that this output is for X. If you want the output labeled, you have to copy the cells corresponding to the second group to a separate column, and enter a row with a label for the second group. If you also want to do the t-test for the Y measurements, youll need to repeat the process. The empty cells are ignored, and other than the problems with labeling the output, the results are correct. A statistical package would do this task without any need to sort the data or copy it to another column, and the output would always be properly labeled to the extent that you provide labels for your variables and treatment groups. It would also allow you to choose more than one variable at a time for the t-test (e. g. X and Y). Paired t-test The paired t-test is a method for testing whether the difference between two measurements on the same subject is significantly different from 0. In this example, we wish to test the difference between X and Y measured on the same subject. The important feature of this test is that it compares the measurements within each subject. If you scan the X and Y columns separately, they do not look obviously different. But if you look at each X-Y pair, you will notice that in every case, X is greater than Y. The paired t-test should be sensitive to this difference. In the two cases where either X or Y is missing, it is not possible to compare the two measures on a subject. Hence, only 8 rows are usable for the paired t-test. When you run the paired t-test on this data, you get a t-statistic of 0.09, with a 2-tail probability of 0.93. The test does not find any significant difference between X and Y. Looking at the output more carefully, we notice that it says there are 9 observations. As noted above, there should only be 8. It appears that Excel has failed to exclude the observations that did not have both X and Y measurements. To get the correct results copy X and Y to two new columns and remove the data in the cells that have no value for the other measure. Now re-run the paired t-test. This time the t-statistic is 6.14817 with a 2-tail probability of 0.000468. The conclusion is completely different Of course, this is an extreme example. But the point is that Excel does not calculate the paired t-test correctly when some observations have one of the measurements but not the other. Although it is possible to get the correct result, you would have no reason to suspect the results you get unless you are sufficiently alert to notice that the number of observations is wrong. There is nothing in online help that would warn you about this issue. Interestingly, there is also a TTEST function, which gives the correct results for this example. Apparently the functions and the Data Analysis tools are not consistent in how they deal with missing cells. Nevertheless, I cannot recommend the use of functions in preference to the Data Analysis tools, because the result of using a function is a single number - in this case, the 2-tail probability of the t-statistic. The function does not give you the t-statistic itself, the degrees of freedom, or any number of other items that you would want to see if you were doing a statistical test. A statistical packages will correctly exclude the cases with one of the measurements missing, and will provide all the supporting statistics you need to interpret the output. Crosstabulation and Chi-Squared Test of Independence Our final task is to count the two outcomes in each treatment group, and use a chi-square test of independence to test for a relationship between treatment and outcome. In order to count the outcomes by treatment group, you need to use Pivot Tables. In the Pivot Table Wizards Layout option, drag Treatment to Row, Outcome to Column and also to Data. The Data area should say quotCount of Outcomequot ndash if not, double-click on it and select quotCountquot. If you want percents, double-click quotCount of Outcomequot, and click Options in the ldquoShow Data Asrdquo box which appears, select quot of rowquot. If you want both counts and percents, you can drag the same variable into the Data area twice, and use it once for counts and once for percents. Getting the chi-square test is not so simple, however. It is only available as a function, and the input needed for the function is the observed counts in each combination of treatment and outcome (which you have in your pivot table), and the expected counts in each combination. Expected counts What are they How do you get them If you have sufficient statistical background to know how to calculate the expected counts, and can do Excel calculations using relative and absolute cell addresses, you should be able to navigate through this. If not, youre out of luck. Assuming that you surmounted the problem of expected counts, you can use the Chitest function to get the probability of observing a chi-square value bigger than the one for this table. Again, since we are using functions, you do not get many other necessary pieces of the calculation, notably the value of the chi-square statistic or its degrees of freedom. No statistical package would require you to provide the expected values before computing a chi-square test of indepencence. Further, the results would always include the chi-square statistic and its degrees of freedom, as well as its probability. Often you will get some additional statistics as well. Additional Analyses The remaining analyses were not done on this data set, but some comments about them are included for completeness. Simple Frequencies You can use Pivot Tables to get simple frequencies. (see Crosstabulations for more about how to get Pivot Tables.) Using Pivot Tables, each column is considered a separate variable, and labels in row 1 will appear on the output. You can only do one variable at a time. Another possibility is to use the Frequencies function. The main advantage of this method is that once you have defined the frequencies function for one column, you can use CopyPaste to get it for other columns. First, you will need to enter a column with the values you want counted (bins). If you intend to do the frequencies for many columns, be sure to enter values for the column with the most categories. z. B. if 3 columns have values of 1 or 2, and the fourth has values of 1,2,3,4, you will need to enter the bin values as 1,2,3,4. Now select enough empty cells in one column to store the results - 4 in this example, even if the current column only has 2 values. Next choose InsertFunctionStatisticalFrequencies on the menu. Fill in the input range for the first column you want to count using relative addresses (e. g. A1:A100). Fill in the Bin Range using the absolute addresses of the locations where you entered the values to be counted (e. g. M1:M4). Click Finish. Note the box above the column headings of the sheet, where the formula is displayed. It start with quot FREQUENCIES(quot. Place the cursor to the left of the sign in the formula, and press Ctrl-Shift-Enter. The frequency counts now appear in the cells you selected. To get the frequency counts of other columns, select the cells with the frequencies in them, and choose EditCopy on the menu. If the next column you want to count is one column to the right of the previous one, select the cell to the right of the first frequency cell, and choose EditPaste (ctrl-V). Continue moving to the right and pasting for each column you want to count. Each time you move one column to the right of the original frequency cells, the column to be counted is shifted right from the first column you counted. If you want percents as well, yoursquoll have to use the Sum function to compute the sum of the frequencies, and define the formula to get the percent for one cell. Select the cell to store the first percent, and type the formula into the formula box at the top of the sheet - e. g. N1100N5 - where N1 is the cell with the frequency for the first category, and N5 is the cell with the sum of the frequencies. Use CopyPaste to get the formula for the remaining cells of the first column. Once you have the percents for one column, you can CopyPaste them to the other columns. Yoursquoll need to be careful about the use of relative and absolute addresses In the example above, we used N5 for the denominator, so when we copy the formula down to the next frequency on the same column, it will still look for the sum in row 5 but when we copy the formula right to another column, it will shift to the frequencies in the next column. Finally, you can use Histogram on the Data Analysis menu. You can only do one variable at a time. As with the Frequencies function, you must enter a column with quotbinquot boundaries. To count the number of occurrences of 1 and 2, you need to enter 0,1,2 in three adjacent cells, and give the range of these three cells as the Bins on the dialog box. The output is not labeled with any labels you may have in row 1, nor even with the column letter. If you do frequencies on lots of variables, you will have difficulty knowing which frequency belongs to which column of data. Linear Regression Since regression is one of the more frequently used statistical analyses, we tried it out even though we did not do a regression analysis for this example. The Regression procedure in the Data Analysis tools lets you choose one column as the dependent variable, and a set of contiguous columns for the independents. However, it does not tolerate any empty cells anywhere in the input ranges, and you are limited to 16 independent variables. Therefore, if you have any empty cells, you will need to copy all the columns involved in the regression to new columns, and delete any rows that contain any empty cells. Large models, with more than 16 predictors, cannot be done at all. Analysis of Variance In general, the Excels ANOVA features are limited to a few special cases rarely found outside textbooks, and require lots of data re-arrangements. One-way ANOVA Data must be arranged in separate and adjacent columns (or rows) for each group. Clearly, this is not conducive to doing 1-ways on more than one grouping. If you have labels in row 1, the output will use the labels. Two-Factor ANOVA Without Replication This only does the case with one observation per cell (i. e. no Within Cell error term). The input range is a rectangular arrangement of cells, with rows representing levels of one factor, columns the levels of the other factor, and the cell contents the one value in that cell. Two-Factor ANOVA with Replicates This does a two-way ANOVA with equal cell sizes . Input must be a rectangular region with columns representing the levels of one factor, and rows representing replicates within levels of the other factor. The input range MUST also include an additional row at the top, and column on the left, with labels indicating the factors. However, these labels are not used to label the resulting ANOVA table. Click Help on the ANOVA dialog for a picture of what the input range must look like. Requesting Many Analyses If you had a variety of different statistical procedures that you wanted to perform on your data, you would almost certainly find yourself doing a lot of sorting, rearranging, copying and pasting of your data. This is because each procedure requires that the data be arranged in a particular way, often different from the way another procedure wants the data arranged. In our small test, we had to sort the rows in order to do the t-test, and copy some cells in order to get labels for the output. We had to clear the contents of some cells in order to get the correct paired t-test, but did not want those cells cleared for some other test. And we were only doing five tasks. It does not get better when you try to do more. There is no single arrangement of the data that would allow you to do many different analyses without making many different copies of the data. The need to manipulate the data in many ways greatly increases the chance of introducing errors. Using a statistical program, the data would normally be arranged with the rows representing the subjects, and the columns representing variables (as they are in our sample data). With this arrangement you can do any of the analyses discussed here, and many others as well, without having to sort or rearrange your data in any way. Only much more complex analyses, beyond the capabilities of Excel and the scope of this article would require data rearrangement. Working with Many Columns What if your data had not 4, but 40 columns, with a mix of categorical and continuous measures How easily do the above procedures scale to a larger problem At best, some of the statistical procedures can accept multiple contiguous columns for input, and interpret each column as a different measure. The descriptives and correlations procedures are of this type, so you can request descriptive statistics or correlations for a large number of continuous variables, as long as they are entered in adjacent columns. If they are not adjacent, you need to rearrange columns or use copy and paste to make them adjacent. Many procedures, however, can only be applied to one column at a time. T-tests (either independent or paired), simple frequency counts, the chi-square test of independence, and many other procedures are in this class. This would become a serious drawback if you had more than a handful of columns, even if you use cut and paste or macros to reduce the work. In addition to having to repeat the request many times, you have to decide where to store the results of each, and make sure it is properly labeled so you can easily locate and identify each output. Finally, Excel does not give you a log or other record to track what you have done. This can be a serious drawback if you want to be able to repeat the same (or similar) analysis in the future, or even if youve simply forgotten what youve already done. Using a statistical package, you can request a test for as many variables as you need at once. Each one will be properly labeled and arranged in the output, so there is no confusion as to whats what. You can also expect to get a log, and often a set of commands as well, which can be used to document your work or to repeat an analysis without having to go through all the steps again. Although Excel is a fine spreadsheet, it is not a statistical data analysis package. In all fairness, it was never intended to be one. Keep in mind that the Data Analysis ToolPak is an quotadd-inquot - an extra feature that enables you to do a few quick calculations. So it should not be surprising that that is just what it is good for - a few quick calculations. If you attempt to use it for more extensive analyses, you will encounter difficulties due to any or all of the following limitations: Potential problems with analyses involving missing data. These can be insidious, in that the unwary user is unlikely to realize that anything is wrong. Lack of flexibility in analyses that can be done due to its expectations regarding the arrangement of data. This results in the need to cutpastesort and otherwise rearrange the data sheet in various ways, increasing the likelyhood of errors. Output scattered in many different worksheets, or all over one worksheet, which you must take responsibility for arranging in a sensible way. Output may be incomplete or may not be properly labeled, increasing possibility of misidentifying output. Need to repeat requests for the some analyses multiple times in order to run it for multiple variables, or to request multiple options. Need to do some things by defining your own functionsformulae, with its attendant risk of errors. No record of what you did to generate your results, making it difficult to document your analysis, or to repeat it at a later time, should that be necessary. If you have more than about 10 or 12 columns, andor want to do anything beyond descriptive statistics and perhaps correlations, you should be using a statistical package. There are several suitable ones available by site license through OIT, or you can use them in any of the OIT PC labs. If you have Excel on your own PC, and dont want to pay for a statistical program, by all means use Excel to enter the data (with rows representing the subjects, and columns for the variables). All the mentioned statistical packages can read Excel files, so you can do the (time-consuming) data entry at home, and go to the labs to do the analysis. A much more extensive discussion of the pitfalls of using Excel, with many additional links, is available at burns-stat Click on Tutorials, then Spreadsheet Addiction. For assistance or more information about statistical software, contact the Biostatistics Consulting Center. Telephone 545-2949

Comments

Popular Posts