Introduction à Kernel estimation de la densité

October 5

Kernel estimation de la densité est une méthode statistique pour représenter une gamme de données. Relatif à histogrammes, Kernel estimation de la densité offre un moyen pour estimer la distribution d'une variable dans la population. Le procédé est relativement complexe, mais les résultats d'une interprétation visuelle de la densité de probabilité d'une variable, en d'autres termes, la fréquence avec laquelle une variable apparaît dans une population.

Les usages

Kernel estimation de la densité estime la forme d'une fonction de densité. Une fonction de densité indique la fréquence à laquelle une variable apparaît dans un échantillon aléatoire d'une population. L'estimation de la densité du noyau est considérée comme une méthode non paramétrique. Dans les statistiques, il existe des méthodes paramétriques et non paramétriques. méthodes paramétriques font plus d'hypothèses que les non-paramétriques. Aucune hypothèse sur la distribution, des moyens, ou les écarts-types sont nécessaires dans les statistiques non paramétriques. Par exemple, si vous vouliez savoir si le dixième essai dans une salle de classe aurait un score plus élevé que le premier neuf, dans le raisonnement paramétrique vous devez connaître la moyenne et l'écart-type pour obtenir une réponse. Dans le raisonnement non-paramétrique, sachant simplement le nombre de test est suffisant pour connaître le dernier test a une chance d'être au-dessus des scores précédents de 10 pour cent.

Noyau

L'estimation de la densité du noyau a deux composantes essentielles: le noyau et la bande passante. Le noyau est la fonction de densité. Il existe six types communs de fonctions de densité dans les statistiques non paramétriques: normal, uniforme, triangulaire, Epanechnikov, quartique, triweight et cosinus. Chacune de ces fonctions est utilisée pour estimer la fréquence d'une variable aléatoire dans une population.

Bande passante

Le second composant, la largeur de bande, permet de lisser les données résultant de la fonction de densité du noyau. La bande passante, donc, a impacte fortement la représentation visuelle des données. Une ligne dentelée peut devenir progressivement lissée jusqu'à ce que les données ont été ainsi paraphrasé qu'il est plus utile. Dans la formule d'estimation de la masse volumique du noyau, la bande passante est représentée par la lettre h. Il doit être positif et se traduire par une distribution qui résume à un.

Avantages

Kernel estimation de la densité a des avantages à d'autres méthodes d'estimation non-paramétrique, en particulier histogrammes. Les histogrammes représentent la répartition d'une variable dans les bacs le long d'une plage horizontale. bacs empilés représentent une plus grande densité de la variable dans le secteur des données. Parce que les histogrammes symbolisent les données par le biais de bacs, la variable est compartimentée et différentes distributions sont déchiquetées et discret, de déformer la distribution de fluide d'une variable qui existe réellement dans une population. Kernel estimation de la densité représente mieux cette fluidité avec la ligne lisse, dont la finesse est déterminée par la largeur de bande choisie dans la formule de la densité du noyau.