Comment utiliser le facteur d'inflation Variation dans les Grandes Tailles des échantillons

March 21

Comment utiliser le facteur d'inflation Variation dans les Grandes Tailles des échantillons


Le facteur variance de l'inflation est une mesure de la colinéarité dans la régression multiple. La régression multiple est une technique statistique pour l'examen de la relation entre une variable dépendante quantitative et plus d'une variable indépendante. Colinéarité se produit lorsque les variables indépendantes sont fortement liées les unes aux autres. Par exemple, si nous étions intéressés à la relation entre les diverses dimensions de corps (telles que la longueur de la jambe, le bras de longueur, la largeur des épaules, etc.) et le poids corporel, il est probable qu'il y aurait colinéarité entre les variables indépendantes. Taille de l'échantillon ne sont pas pertinents pour le calcul des facteurs de variance de l'inflation. Il y a une VIF pour chaque variable indépendante.

Instructions

1 Calculer les facteurs variance de l'inflation pour la régression. Dans SAS, vous pouvez le faire avec l'option VIF sur la déclaration de modèle dans PROC REG. Dans R, vous pouvez le faire avec la fonction de vif dans le paquet de voiture, qui est disponible à partir de CRAN. Si votre paquet de statistiques ne calcule pas VIF, il peut être calculé comme 1 / (1 - R (k) ^ 2), où R (k) ^ 2 est le R ^ 2 la valeur de la régression de la variable indépendante kième sur la d'autres variables indépendantes.

2 Évaluer le degré de colinéarité. VIF pour la variable k est une mesure de la quantité de la variance du coefficient de cette variable dans la régression initiale est gonflé. VIFs sur 4 sont peut-être problématique; VIFs plus de 10 sont plus vraiment problématique.

3 Trouver la source de la colinéarité, si elle existe. Une façon de le faire est de regarder les corrélations de la variable problématique avec les autres variables indépendantes et de voir qui est le plus élevé.

4 Décider quoi faire au sujet de la colinéarité. Les options comprennent la suppression des variables, en utilisant les moindres carrés partiels régression ou en utilisant la régression ridge. Le choix dépendra des circonstances. Si une variable est pas la clé de votre enquête, la suppression, il peut être bon. Si les variables ont pas de signification substantielle forte, alors les moindres carrés partiels est un bon choix. Si toutes les variables sont importantes, alors la régression ridge est un bon choix.