On sait déjà que la droite de régression permet de prédire la valeur de la variable dépendante (Yc) pour des valeurs données de la variable indépendante (X)
On sait également que la qualité de la prédiction dépendra
du degré
de dispersion des points autour de la droite de régression
Ainsi, par exemple, les estimations s'appuyant sur la relation illustrée
par le diagramme de gauche seront probablement plus fiables que celles
obtenues à partir de la relation illustrée par le diagramme de droite
Le coefficient de détermination et le
coefficient de corrélation
sont des mesures standardisées du taux de dispersion
Pour réaliser des inférences statistiques à partir des
données d'une analyse de
régression (faite à partir de données échantillonnales), une
autre mesure servira à
quantifier le taux de dispersion des données autour de la droite de régression
On définit l'erreur type de l'estimation par la formule

(attention, le dénominateur est: n-2)
Exemple
Pour l'exemple donné ci-dessus, on peut construire le tableau de calcul suivant
| X | Y | Yc | (Y-Yc) | (Y-Yc)2 |
| 3 | 100 | 93,29 | 6,71 | 45,02 |
| 4 | 112 | 121,48 | -9,48 | 89,87 |
| 5 | 150 | 149,68 | 0,32 | 0,10 |
| 7 | 210 | 206,08 | 3,92 | 15,37 |
| 2 | 60 | 65,09 | -5,09 | 25,91 |
| 3 | 85 | 93,29 | -8,29 | 68,72 |
| 2 | 77 | 65,09 | 11,91 | 141,85 |
| 26 | 794 | 794,00 | 0,00 | 386,84 |
D'où l'on peut calculer
Il existe également une formule simplifiée

qui, appliquée à notre exemple, donne

(la différence étant due aux erreurs d'arrondissement)
On note le rapport suivant entre r2 et syx