Qu'est-ce que R2 de régression linéaire?

December 9

Qu'est-ce que R2 de régression linéaire?


Les statisticiens et les scientifiques ont souvent une exigence pour étudier la relation entre deux variables, communément appelées x et y. Le but de tester toutes les deux des variables est généralement de voir s'il y a un lien entre eux, connu comme une corrélation dans la science. Par exemple, un scientifique pourrait vouloir savoir si les heures d'exposition au soleil peuvent être liés à des taux de cancer de la peau. Pour décrire mathématiquement la force d'une corrélation entre les deux variables, ces chercheurs utilisent souvent R2.

Régression linéaire

Les statisticiens utilisent la technique de régression linéaire pour trouver la ligne droite qui correspond le mieux à une série de x et y paires de données. Ils le font à travers une série de calculs qui dérivent l'équation de la meilleure ligne. Cette description mathématique de la ligne est une équation linéaire et ont la forme générale y = mx + b, où x et y sont les deux variables des paires de données, m est la pente de la droite et b est l'ordonnée à l'origine.

Coefficient de corrélation

Les calculs qui trouvent la meilleure ligne droite va produire une équation linéaire pour adapter à tout ensemble de données, même si ces données ne sont pas en fait très linéaire. Afin d'avoir une indication de la façon dont les données correspondent en fait une ligne droite, les statisticiens calculent également un nombre connu comme le coefficient de corrélation. Ceci est donné le symbole R ou R et est une mesure de la façon dont étroitement alignées les paires de données sont la meilleure ligne droite à travers eux.

Importance de la R

R peut avoir une valeur comprise entre -1 et 1. Une valeur négative de R signifie simplement que la meilleure ligne droite ajustement inclinaisons vers le bas se déplaçant de gauche à droite, plutôt que vers le haut. Le plus proche R est soit à la des deux extrêmes, meilleur est l'ajustement des points de données à la ligne, soit -1 ou 1 étant un ajustement parfait et une valeur R de zéro signifiant qu'il n'y a pas en forme et les points sont totalement aléatoire. Si les points de données sont bien alignés sur la ligne droite, il est dit être une certaine corrélation entre eux, d'où le coefficient de corrélation pour le nom R.

R2

Certains statisticiens préfèrent travailler avec la valeur de R2, qui est simplement le coefficient de corrélation au carré, ou multiplié par lui-même, et est connu comme le coefficient de détermination. R2 est très semblable à R et décrit également la corrélation entre ces deux variables, mais il est également légèrement différente. Il mesure le pour cent de variation de la variable y qui peut être attribuée à la variation de la variable x. Une valeur R2 de 0,9, par exemple, signifie que 90 pour cent de la variation des données y est due à une variation dans les directions x données. Cela ne signifie pas nécessairement que x affecte vraiment y, mais il semble être le faire.