Techniques statistiques d'analyse de données

March 2

Techniques statistiques d'analyse de données


Statistiques est la branche des mathématiques qui traite de l'organisation des données pour fournir des résumés utiles. De nombreuses techniques statistiques sont utilisées pour analyser les données, mais apprendre quelques-uns des base et la plupart des approches largement utilisées permettront de produire significative l'analyse des données. Ces techniques se divisent en deux catégories générales, descriptives et déductives. Ils peuvent servir à plusieurs fins: pour résumer les données d'une manière simple, de l'organiser de sorte qu'il est plus facile de comprendre et d'utiliser les données pour tester les théories sur une population plus large.

Statistiques descriptives: Tendency Central

Les statistiques peuvent être utilisés pour compresser une grande quantité de données vers le bas à quelques chiffres importants. Les deux aspects les plus importants de cette approche sont la mesure de la tendance centrale et l'écart type. Tous les trois mesures de tendance centrale donnent une indication de l'endroit où le milieu des données se trouve. La moyenne, ou moyenne, se trouve en additionnant toutes les valeurs dans un ensemble de données et en divisant par le nombre de valeurs. Ainsi, la moyenne de l'ensemble de données (3,1,2,3,6) est 3 parce que (3 + 1 + 2 + 3 + 6) / 5 = 3. Le mode est le numéro qui apparaît le plus fréquemment. En utilisant les mêmes données exemple donné, 3 est le mode car il apparaît deux fois et tous les autres numéros apparaissent une seule fois. La médiane est le nombre qui se trouve au milieu de l'ensemble de données lorsque les numéros sont classés du plus petit au plus grand. Dans l'exemple des données antérieures fixé, la médiane est 3 parce que 3 est le nombre du milieu (1,2,3,3,6).

Statistiques descriptives: Standard Deviation

L'écart type est une valeur unique qui indique la propagation d'un ensemble de données. Un ensemble de données dans laquelle tous les chiffres sont proches les uns des autres dans la valeur a un petit écart-type, et un ensemble de données qui est très étendue a un grand écart-type. L'écart-type pour un ensemble de données est calculée en trouvant d'abord la moyenne de l'ensemble, puis de trouver la différence entre chaque numéro dans l'ensemble et que moyenne. Ces différences sont ensuite au carré, leur moyenne se trouve à la racine carrée de cette moyenne est l'écart type. Si un ensemble de données est répartie uniformément autour de son milieu, il est normal, et presque toutes les données se trouvent au sein de la valeur moyenne de plus ou moins trois écarts-types.

Statistiques descriptives: régression linéaire

Dans l'analyse des données, les statisticiens veulent souvent voir si une connexion, ou de corrélation, existe entre des paires de deux variables, telles que la vitesse d'une voiture est entraînée et son kilométrage de gaz. Pour le savoir, ils utilisent une analyse de régression. La forme la plus simple de l'analyse de régression est de faire un graphique des données, avec une variable sur l'axe horizontal et l'autre sur l'axe vertical. Si l'intrigue semble suivre un schéma, qui est habituellement une ligne droite, une corrélation est probable. Une calculatrice statistique et certains logiciels de tableur peuvent trouver l'équation de la meilleure ligne droite qui passe par une série de données. Une fois que l'équation est connue, on peut prédire la valeur d'une variable à une valeur de l'autre variable. La calculatrice peut également déterminer le coefficient de corrélation pour un ensemble de données, en abrégé "R." R est une mesure de la façon dont les paires de données sont conformes à la meilleure ligne droite en forme, et il vous dit à peu près la force de la relation qui existe entre eux. Une valeur de R 1 indique un ajustement de la ligne droite parfaite.

Estimations: Hypothesis Testing

Lorsque les données sont un échantillon d'une population plus importante, vous pouvez l'utiliser pour tester une théorie, ou une hypothèse, sur la véritable valeur moyenne de cette population. Pour ce faire, utilisez le "test z." Pour trouver la valeur de az pour les données, d'abord calculer la différence entre l'échantillon des données signifient et la moyenne de la population hypothétique. Puis diviser cette différence par les données d'échantillon écart type divisé par la racine carrée du nombre de points de données dans l'échantillon. Comparez cette valeur z calculée à une valeur de z critique, que vous regardez à partir d'une table standard de valeurs, en fonction du degré de confiance que vous voulez dans votre résultat. Si votre valeur z calculée est inférieure à la valeur critique z de la table, puis accepter que votre hypothèse sur la moyenne de la population est vrai.