Les inconvénients de la régression linéaire

April 10

La régression linéaire est une méthode statistique pour l'examen de la relation entre une variable dépendante et une ou plusieurs variables indépendantes. La variable dépendante doit être continu (ie, en mesure de prendre une valeur quelconque) ou au moins près de continue. Les variables indépendantes peuvent être de tout type. Bien que la régression ne peut pas montrer le lien de causalité par lui-même, la variable dépendante est généralement affectée par les variables indépendantes.

Ne regarde que les relations linéaires

De par sa nature, la régression linéaire ne regarde que les relations linéaires entre les variables dépendantes et indépendantes. Autrement dit, il suppose qu'il existe une relation linéaire entre eux. Parfois, cela est incorrect. Par exemple, la relation entre le revenu et l'âge est courbe, à savoir, le revenu a tendance à augmenter dans les premières parties de l'âge adulte, aplatir à l'âge adulte et le déclin plus tard après que les gens prennent leur retraite. Vous pouvez dire si ce problème en regardant des représentations graphiques des relations.

On dirait seulement à la moyenne de la variable dépendante

La régression linéaire examine la relation entre la moyenne de la variable dépendante et les variables indépendantes. Par exemple, si vous regardez la relation entre le poids de naissance des nourrissons et des caractéristiques maternelles telles que l'âge, la régression linéaire se penchera sur le poids moyen des bébés nés de mères d'âges différents. Cependant, parfois vous avez besoin de regarder les extrêmes de la variable dépendante, par exemple, les bébés sont à risque lorsque leurs poids sont faibles, de sorte que vous voulez regarder les extrêmes dans cet exemple.

Tout comme la moyenne est pas une description complète d'une seule variable, la régression linéaire n'est pas une description complète des relations entre les variables. Vous pouvez faire face à ce problème en utilisant la régression quantile.

Sensible à Outliers

Outliers sont des données qui sont surprenants. Outliers peuvent être univariée (basé sur une variable) ou multivariée. Si vous êtes à la recherche à l'âge et le revenu, les valeurs aberrantes univariée seraient des choses comme une personne qui est âgée de 118 ans, ou celui qui a fait 12 millions $ l'an dernier. Une valeur aberrante multivariée serait un 18 ans qui a fait 100 000 $. Dans ce cas, ni l'âge, ni le revenu est très extrême, mais très peu de gens de 18 ans font que beaucoup d'argent.

Outliers peuvent avoir d'énormes effets sur la régression. Vous pouvez régler ce problème en demandant des statistiques d'influence de votre logiciel statistique.

Les données doivent être indépendants

La régression linéaire suppose que les données sont indépendantes. Cela signifie que les scores d'un sujet (comme une personne) n'a rien à voir avec ceux d'un autre. Ce qui est souvent, mais pas toujours, sensible. Deux cas communs où il n'a pas de sens sont le regroupement dans l'espace et le temps.

Un exemple classique de regroupement dans l'espace est les résultats des tests d'étudiants, quand vous avez des étudiants de diverses catégories, classes, les écoles et les districts scolaires. Les élèves de la même classe ont tendance à être semblable à bien des égards, à savoir, ils viennent souvent des mêmes quartiers, ils ont les mêmes enseignants, etc. Ainsi, ils ne sont pas indépendants.

Des exemples de regroupement dans le temps sont des études où vous mesurez les mêmes sujets à plusieurs reprises. Par exemple, dans une étude de l'alimentation et du poids, vous pourriez mesurer chaque personne plusieurs fois. Ces données ne sont pas indépendants parce que ce qu'une personne pèse une fois est lié à ce qu'il ou elle pèse sur d'autres occasions. Une façon de traiter ce problème est avec des modèles multi-niveaux.