Comment l’écart type est-il mesuré ? Paramètres statistiques

  • 17.10.2019

La racine carrée de la variance est appelée écart type par rapport à la moyenne, qui est calculée comme suit :

Une transformation algébrique élémentaire de la formule de l'écart type la conduit à la forme suivante :

Cette formule s'avère souvent plus pratique dans la pratique du calcul.

L'écart type, tout comme l'écart linéaire moyen, montre dans quelle mesure les valeurs spécifiques moyennes d'une caractéristique s'écartent de leur valeur moyenne. L'écart type est toujours supérieur à l'écart linéaire moyen. Il existe entre eux la relation suivante :

Connaissant ce rapport, vous pouvez utiliser les indicateurs connus pour déterminer l'inconnu, par exemple, mais (JE calculer a et vice versa. L'écart type mesure l'ampleur absolue de la variabilité d'une caractéristique et est exprimé dans les mêmes unités de mesure que les valeurs de la caractéristique (roubles, tonnes, années, etc.). C'est une mesure absolue de variation.

Pour signes alternatifs, par exemple, la présence ou l'absence d'études supérieures, d'assurance, les formules de dispersion et d'écart type sont les suivantes :

Montrons le calcul de l'écart type à partir des données d'une série discrète caractérisant la répartition des étudiants dans l'une des facultés universitaires par âge (tableau 6.2).

Tableau 6.2.

Les résultats des calculs auxiliaires sont donnés dans les colonnes 2 à 5 du tableau. 6.2.

L'âge moyen d'un étudiant, en années, est déterminé par la formule de la moyenne arithmétique pondérée (colonne 2) :

Les carrés des écarts de l'âge individuel de l'élève par rapport à la moyenne sont contenus dans les colonnes 3 et 4, et les produits des carrés des écarts et des fréquences correspondantes sont contenus dans la colonne 5.

Nous trouvons la variance de l’âge des étudiants, en années, à l’aide de la formule (6.2) :

Alors o = l/3,43 1,85 *oda, c'est-à-dire Chaque valeur spécifique de l’âge d’un élève s’écarte de la moyenne de 1,85 ans.

Le coefficient de variation

En valeur absolue, l'écart type dépend non seulement du degré de variation de la caractéristique, mais aussi des niveaux absolus des options et de la moyenne. Il est donc impossible de comparer directement les écarts types de séries de variations avec différents niveaux moyens. Pour pouvoir faire une telle comparaison, il faut trouver la part de l'écart moyen (linéaire ou quadratique) dans la moyenne arithmétique, exprimée en pourcentage, c'est-à-dire calculer mesures relatives de variation.

Coefficient de variation linéaire calculé par la formule

Le coefficient de variation déterminé par la formule suivante :

Dans les coefficients de variation, non seulement l'incomparabilité associée aux différentes unités de mesure de la caractéristique étudiée est éliminée, mais également l'incomparabilité résultant des différences dans la valeur des moyennes arithmétiques. De plus, les indicateurs de variation caractérisent l'homogénéité de la population. La population est considérée comme homogène si le coefficient de variation ne dépasse pas 33 %.

D'après le tableau. 6.2 et les résultats de calcul obtenus ci-dessus, nous déterminons le coefficient de variation, %, selon la formule (6.3) :

Si le coefficient de variation dépasse 33 %, cela indique l'hétérogénéité de la population étudiée. La valeur obtenue dans notre cas indique que la population d'étudiants par âge est de composition homogène. Ainsi, une fonction importante de la généralisation des indicateurs de variation est d’évaluer la fiabilité des moyennes. Le moins c1, a2 et V, plus l'ensemble des phénomènes résultant est homogène et plus la moyenne obtenue est fiable. Selon la « règle des trois sigma » considérée par la statistique mathématique, dans les séries normalement distribuées ou proches de celles-ci, des écarts par rapport à la moyenne arithmétique n'excédant pas ± 3 se produisent dans 997 cas sur 1000. Ainsi, sachant X et a, vous pouvez avoir une première idée générale de la série de variations. Si, par exemple, le salaire moyen d'un employé d'une entreprise est de 25 000 roubles et que a est égal à 100 roubles, alors avec une probabilité proche de la certitude, on peut dire que les salaires des employés de l'entreprise fluctuent dans la fourchette (25 000 ± ± 3 x 100 ) soit de 24 700 à 25 300 roubles.

Défini comme une caractéristique généralisante de l’ampleur de la variation d’un trait dans l’ensemble. Il est égal à la racine carrée de l'écart carré moyen des valeurs individuelles de l'attribut par rapport à la moyenne arithmétique, c'est-à-dire La racine de et peut être trouvée comme ceci :

1. Pour la ligne principale :

2. Pour la série de variations :

La transformation de la formule de l'écart type l'amène à une forme plus pratique pour les calculs pratiques :

Écart-type détermine dans quelle mesure en moyenne des options spécifiques s'écartent de leur valeur moyenne, et constitue également une mesure absolue de la variabilité d'une caractéristique et est exprimée dans les mêmes unités que les options, et est donc bien interprétée.

Exemples de recherche de l'écart type : ,

Pour les caractéristiques alternatives, la formule de l'écart type ressemble à ceci :

où p est la proportion d'unités de la population qui possèdent une certaine caractéristique ;

q est la proportion d'unités qui ne possèdent pas cette caractéristique.

Le concept d'écart linéaire moyen

Déviation linéaire moyenne est défini comme la moyenne arithmétique des valeurs absolues des écarts des options individuelles par rapport à .

1. Pour la ligne principale :

2. Pour la série de variations :

où la somme n est somme des fréquences des séries de variations.

Un exemple de recherche de l'écart linéaire moyen :

L'avantage de l'écart absolu moyen comme mesure de dispersion sur la plage de variation est évident, puisque cette mesure repose sur la prise en compte de tous les écarts possibles. Mais cet indicateur présente des inconvénients importants. Le rejet arbitraire des signes algébriques d'écarts peut conduire au fait que les propriétés mathématiques de cet indicateur sont loin d'être élémentaires. Cela rend très difficile l’utilisation de l’écart absolu moyen lors de la résolution de problèmes impliquant des calculs probabilistes.

Par conséquent, l'écart linéaire moyen en tant que mesure de la variation d'une caractéristique est rarement utilisé dans la pratique statistique, notamment lorsqu'il est économiquement logique de résumer des indicateurs sans prendre en compte les signes. Avec son aide, par exemple, le chiffre d'affaires du commerce extérieur, la composition des travailleurs, le rythme de production, etc. sont analysés.

Carré moyen

Carré moyen appliqué, par exemple, pour calculer la taille moyenne des côtés de n sections carrées, les diamètres moyens des troncs, des canalisations, etc. Il est divisé en deux types.

Carré moyen simple. Si, lors du remplacement des valeurs individuelles d'une caractéristique par une valeur moyenne, il est nécessaire de conserver inchangée la somme des carrés des valeurs d'origine, alors la moyenne sera une valeur moyenne quadratique.

Il s'agit de la racine carrée du quotient de la somme des carrés des valeurs d'attribut individuelles divisées par leur nombre :

Le carré moyen pondéré est calculé à l'aide de la formule :

où f est le signe du poids.

Cube moyen

Le cube moyen s'applique, par exemple, lors de la détermination de la longueur moyenne d'un côté et de cubes. Il est divisé en deux types.
Cube simple moyen :

Lors du calcul des valeurs moyennes et de la dispersion dans les séries de distribution d'intervalles, les vraies valeurs de l'attribut sont remplacées par les valeurs centrales des intervalles, qui diffèrent de la moyenne arithmétique des valeurs incluses dans l'intervalle. Cela conduit à une erreur systématique lors du calcul de la variance. V.F. Sheppard a déterminé que erreur dans le calcul de l'écart, provoqué par l'utilisation de données groupées, est égal à 1/12 du carré de l'intervalle dans le sens ascendant et descendant de la variance.

Amendement Sheppard doit être utilisé si la distribution est proche de la normale, se rapporte à une caractéristique avec une nature de variation continue et est basée sur une quantité significative de données initiales (n > 500). Cependant, étant donné que dans certains cas les deux erreurs, agissant dans des directions différentes, se compensent mutuellement, il est parfois possible de refuser d'introduire des corrections.

Plus la variance et l’écart type sont petits, plus la population est homogène et plus la moyenne sera typique.
Dans la pratique des statistiques, il est souvent nécessaire de comparer les variations de diverses caractéristiques. Par exemple, il est d’un grand intérêt de comparer les variations de l’âge des travailleurs et de leurs qualifications, de l’ancienneté et des salaires, des coûts et bénéfices, de l’ancienneté et de la productivité du travail, etc. Pour de telles comparaisons, les indicateurs de variabilité absolue des caractéristiques ne conviennent pas : il est impossible de comparer la variabilité de l'expérience professionnelle, exprimée en années, avec la variation des salaires, exprimée en roubles.

Pour effectuer de telles comparaisons, ainsi que des comparaisons de la variabilité d'une même caractéristique dans plusieurs populations avec des moyennes arithmétiques différentes, un indicateur relatif de variation est utilisé - le coefficient de variation.

Moyennes structurelles

Pour caractériser la tendance centrale des distributions statistiques, il est souvent rationnel d'utiliser, avec la moyenne arithmétique, une certaine valeur de la caractéristique X, qui, en raison de certaines caractéristiques de sa localisation dans la série de distribution, peut caractériser son niveau.

Ceci est particulièrement important lorsque, dans une série de distribution, les valeurs extrêmes d'une caractéristique ont des limites peu claires. À cet égard, une détermination précise de la moyenne arithmétique est généralement impossible, voire très difficile. Dans de tels cas, le niveau moyen peut être déterminé en prenant, par exemple, la valeur de la caractéristique située au milieu de la série de fréquences ou qui apparaît le plus souvent dans la série actuelle.

Ces valeurs dépendent uniquement de la nature des fréquences, c'est-à-dire de la structure de la distribution. Ils sont typiques en termes d'emplacement dans une série de fréquences, c'est pourquoi ces valeurs sont considérées comme des caractéristiques du centre de distribution et ont donc reçu la définition de moyennes structurelles. Ils sont utilisés pour étudier la structure interne et la structure de la série de distribution des valeurs d'attribut. Ces indicateurs comprennent :

Écart-type

La caractéristique la plus parfaite de la variation est l’écart carré moyen, appelé standard (ou écart type). Écart-type() est égal à la racine carrée de l'écart carré moyen des valeurs individuelles de l'attribut par rapport à la moyenne arithmétique :

L’écart type est simple :

L'écart type pondéré est appliqué aux données groupées :

Le rapport suivant s'établit entre les écarts carrés moyens et linéaires moyens dans des conditions de distribution normales : ~ 1,25.

L'écart type, étant la principale mesure absolue de variation, est utilisé pour déterminer les valeurs ordonnées d'une courbe de distribution normale, dans les calculs liés à l'organisation de l'observation des échantillons et à l'établissement de l'exactitude des caractéristiques de l'échantillon, ainsi que pour évaluer la limites de variation d’une caractéristique dans une population homogène.

18. Variance, ses types, écart type.

Variance d'une variable aléatoire- une mesure de la propagation d'une variable aléatoire donnée, c'est-à-dire son écart par rapport à l'espérance mathématique. En statistiques, la notation ou est souvent utilisée. La racine carrée de la variance est généralement appelée écart-type, écart-type ou tartinade standard.

Écart total (σ 2) mesure la variation d'un trait dans son ensemble sous l'influence de tous les facteurs qui ont provoqué cette variation. Parallèlement, grâce à la méthode de regroupement, il est possible d'identifier et de mesurer la variation due à la caractéristique de regroupement et la variation survenant sous l'influence de facteurs non pris en compte.

Variation intergroupe (σ 2 m.gr) caractérise la variation systématique, c'est-à-dire les différences dans la valeur du trait étudié qui surviennent sous l'influence du trait - le facteur qui constitue la base du groupe.

Écart-type(synonymes : écart-type, écart-type, écart carré; termes connexes: écart-type, tartinade standard) - en théorie des probabilités et en statistique, l'indicateur le plus courant de la dispersion des valeurs d'une variable aléatoire par rapport à son espérance mathématique. Avec des tableaux limités d’échantillons de valeurs, au lieu de l’espérance mathématique, la moyenne arithmétique de l’ensemble d’échantillons est utilisée.

L'écart type est mesuré en unités de mesure de la variable aléatoire elle-même et est utilisé lors du calcul de l'erreur type de la moyenne arithmétique, lors de la construction d'intervalles de confiance, lors du test statistique d'hypothèses, lors de la mesure de la relation linéaire entre les variables aléatoires. Défini comme la racine carrée de la variance d'une variable aléatoire.

Écart-type:

Écart-type(estimation de l'écart type d'une variable aléatoire X par rapport à son espérance mathématique basée sur une estimation impartiale de sa variance) :

où est la dispersion ; - jeème élément de la sélection ; - taille de l'échantillon; - moyenne arithmétique de l'échantillon :

Il convient de noter que les deux estimations sont biaisées. Dans le cas général, il est impossible de construire une estimation impartiale. Dans ce cas, l’estimation basée sur l’estimation de la variance sans biais est cohérente.

19. Essence, portée et procédure de détermination du mode et de la médiane.

En plus des moyennes de puissance en statistique, pour la caractérisation relative de la valeur d'une caractéristique variable et de la structure interne des séries de distribution, des moyennes structurelles sont utilisées, qui sont principalement représentées par mode et médiane.

Mode- C'est la variante la plus courante de la série. La mode est utilisée, par exemple, pour déterminer la taille des vêtements et des chaussures les plus demandés par les clients. Le mode pour une série discrète est la variante avec la fréquence la plus élevée. Lors du calcul du mode pour une série de variations d'intervalle, il est extrêmement important de déterminer d'abord l'intervalle modal (par fréquence maximale), puis - la valeur de la valeur modale de l'attribut à l'aide de la formule :

§ - sens de la mode

§ - limite inférieure de l'intervalle modal

§ - valeur d'intervalle

§ - fréquence d'intervalle modale

§ - fréquence de l'intervalle précédant le modal

§ - fréquence de l'intervalle suivant le modal

Médiane - cette valeur de l'attribut ĸᴏᴛᴏᴩᴏᴇ réside dans la base de la série classée et divise cette série en deux parties égales en nombre.

Pour déterminer la médiane dans une série discrète si des fréquences sont disponibles, calculez d'abord la demi-somme des fréquences , puis déterminez quelle valeur de la variante lui correspond. (Si la série triée contient un nombre impair de caractéristiques, alors le nombre médian est calculé à l'aide de la formule :

M e = (n (nombre de fonctionnalités au total) + 1)/2,

dans le cas d'un nombre pair d'entités, la médiane sera égale à la moyenne des deux entités du milieu de la ligne).

Lors du calcul de la médiane pour séries de variations d'intervalles Tout d’abord, déterminez l’intervalle médian dans lequel se trouve la médiane, puis déterminez la valeur de la médiane à l’aide de la formule :

§ - la médiane requise

§ - limite inférieure de l'intervalle qui contient la médiane

§ - valeur d'intervalle

§ - somme des fréquences ou nombre de termes de la série

§ - la somme des fréquences cumulées des intervalles précédant la médiane

§ - fréquence de l'intervalle médian

Exemple. Trouvez le mode et la médiane.

Solution: Dans cet exemple, l'intervalle modal se situe dans la tranche d'âge des 25-30 ans, puisque cet intervalle a la fréquence la plus élevée (1054).

Calculons l'ampleur du mode :

Cela signifie que l'âge modal des étudiants est de 27 ans.

Calculons la médiane. L'intervalle médian se situe dans la tranche d'âge des 25-30 ans, car à l'intérieur de cet intervalle il existe une option͵ qui divise la population en deux parties égales (Σf i /2 = 3462/2 = 1731). Ensuite, nous substituons les données numériques nécessaires dans la formule et obtenons la valeur médiane :

Cela signifie que la moitié des étudiants ont moins de 27,4 ans et l’autre moitié plus de 27,4 ans.

En plus du mode et de la médiane, des indicateurs tels que les quartiles sont utilisés, divisant la série classée en 4 parties égales, les déciles - 10 parties et les percentiles - en 100 parties.

20. Le concept d'observation d'échantillons et sa portée.

Observation sélective s’applique lorsque le recours à la surveillance continue physiquement impossible en raison d'une grande quantité de données ou pas économiquement réalisable. L'impossibilité physique se produit, par exemple, lors de l'étude des flux de passagers, des prix du marché et des budgets familiaux. L'inopportunité économique se produit lors de l'évaluation de la qualité des biens associés à leur destruction, par exemple lors de la dégustation, des tests de résistance des briques, etc.

Les unités statistiques sélectionnées pour l'observation sont échantillon de population ou échantillon, et tout leur tableau - population générale(GS). Où nombre d'unités dans l'échantillon dénoter n, et dans tout le GS - N. Attitude n/N habituellement appelé taille relative ou partage d'échantillon.

La qualité des résultats d’observation des échantillons dépend de représentativité de l'échantillon, c'est-à-dire sur sa représentativité au sein du GS. Pour garantir la représentativité de l'échantillon, il est extrêmement important de respecter principe de sélection aléatoire des unités, qui suppose que l’inclusion d’une unité HS dans l’échantillon ne peut être influencée par aucun facteur autre que le hasard.

Existe 4 façons de sélection aléatoireà déguster :

  1. En fait aléatoire sélection ou « méthode du loto », lorsque des valeurs statistiques se voient attribuer des numéros de série, enregistrés sur certains objets (par exemple des tonneaux), qui sont ensuite mélangés dans un récipient (par exemple dans un sac) et sélectionnés au hasard. En pratique, cette méthode est réalisée à l'aide d'un générateur de nombres aléatoires ou de tables mathématiques de nombres aléatoires.
  2. Mécanique sélection selon laquelle chacun ( N/n)-ième valeur de la population générale. Par exemple, s'il contient 100 000 valeurs et que vous devez en sélectionner 1 000, alors tous les 100 000/1 000 = 100e valeur seront inclus dans l'échantillon. De plus, s'ils ne sont pas classés, alors le premier est choisi au hasard parmi les cent premiers, et les nombres des autres seront cent plus élevés. Par exemple, si la première unité était le n° 19, alors la suivante devrait être le n° 119, puis le n° 219, puis le n° 319, etc. Si les unités de population sont classées, alors le n° 50 est sélectionné en premier, puis le n° 150, puis le n° 250, et ainsi de suite.
  3. La sélection des valeurs à partir d'un tableau de données hétérogène est effectuée stratifié(stratifiée), lorsque la population est d'abord divisée en groupes homogènes auxquels est appliquée une sélection aléatoire ou mécanique.
  4. Une méthode d'échantillonnage spéciale est en série sélection, dans laquelle ils sélectionnent de manière aléatoire ou mécanique non pas des valeurs individuelles, mais leur série (séquences d'un certain nombre à un certain nombre d'affilée), au sein de laquelle une observation continue est effectuée.

La qualité des observations des échantillons dépend également de échantillon type: répété ou irremplaçable.À re-sélection Les valeurs statistiques ou leurs séries incluses dans l'échantillon sont restituées à la population générale après utilisation, ayant une chance d'être incluses dans un nouvel échantillon. De plus, toutes les valeurs de la population générale ont la même probabilité d'inclusion dans l'échantillon. Sélection répétée signifie que les valeurs statistiques ou leurs séries incluses dans l'échantillon ne reviennent pas à la population générale après utilisation, et donc pour les valeurs restantes de cette dernière la probabilité d'être incluse dans l'échantillon suivant augmente.

L'échantillonnage non répétitif donne des résultats plus précis et est donc utilisé plus souvent. Mais il y a des situations où elle ne peut pas être appliquée (étude des flux de passagers, demande des consommateurs, etc.) et alors une sélection répétée est effectuée.

21. Erreur d'échantillonnage d'observation maximale, erreur d'échantillonnage moyenne, procédure de calcul.

Examinons en détail les méthodes énumérées ci-dessus pour constituer un échantillon de population et les erreurs de représentativité qui en découlent. Correctement aléatoire l'échantillonnage est basé sur la sélection aléatoire d'unités dans la population, sans aucun élément systématique. Techniquement, la véritable sélection aléatoire s'effectue par tirage au sort (par exemple, loteries) ou à l'aide d'un tableau de nombres aléatoires.

La sélection aléatoire appropriée « sous sa forme pure » est rarement utilisée dans la pratique de l'observation sélective, mais elle est la première parmi d'autres types de sélection ; elle met en œuvre les principes de base de l'observation sélective. Considérons quelques questions sur la théorie de la méthode d'échantillonnage et la formule d'erreur pour un échantillon aléatoire simple.

Biais d'échantillonnage- ϶ᴛᴏ la différence entre la valeur du paramètre dans la population générale et sa valeur calculée à partir des résultats d'observation d'un échantillon. Il est important de noter que pour la caractéristique quantitative moyenne, l'erreur d'échantillonnage est déterminée par

L'indicateur est généralement appelé erreur d'échantillonnage maximale. La moyenne de l'échantillon est une variable aléatoire qui peut prendre différentes valeurs en fonction des unités incluses dans l'échantillon. Par conséquent, les erreurs d’échantillonnage sont également des variables aléatoires et peuvent prendre différentes valeurs. Pour cette raison, la moyenne des erreurs possibles est déterminée - erreur d'échantillonnage moyenne, qui dépend de :

· taille de l'échantillon : plus le nombre est grand, plus l'erreur moyenne est faible ;

· le degré de changement de la caractéristique étudiée : plus la variation de la caractéristique et, par conséquent, la dispersion est faible, plus l'erreur d'échantillonnage moyenne est faible.

À resélection aléatoire l'erreur moyenne est calculée. En pratique, la variance générale n'est pas connue avec précision, mais en théorie des probabilités, il a été prouvé que . Puisque la valeur d’un n suffisamment grand est proche de 1, nous pouvons supposer que . Ensuite, l'erreur d'échantillonnage moyenne doit être calculée : . Mais dans le cas d'un petit échantillon (avec n<30) коэффициент крайне важно учитывать, и среднюю ошибку малой выборки рассчитывать по формуле .

À échantillonnage aléatoire non répétitif les formules données sont ajustées par la valeur . L’erreur d’échantillonnage non répétitive moyenne est alors : Et . Parce que est toujours inférieur à , alors le multiplicateur () est toujours inférieur à 1. Cela signifie que l'erreur moyenne avec une sélection répétée est toujours inférieure à celle avec une sélection répétée. Échantillonnage mécanique est utilisé lorsque la population générale est classée d'une manière ou d'une autre (par exemple, listes d'électeurs par ordre alphabétique, numéros de téléphone, numéros de maison et d'appartement). La sélection des unités est effectuée à un certain intervalle, qui est égal à la valeur inverse du pourcentage d'échantillonnage. Ainsi, avec un échantillon de 2 %, chaque 50 unités = 1/0,02 est sélectionnée, avec un échantillon de 5 %, chaque 1/0,05 = 20 unités de la population générale.

Le point de référence est choisi de différentes manières : aléatoirement, à partir du milieu de l'intervalle, avec un changement du point de référence. L'essentiel est d'éviter les erreurs systématiques. Par exemple, avec un échantillon de 5 %, si la première unité est la 13, alors les suivantes sont 33, 53, 73, etc.

En termes de précision, la sélection mécanique est proche de l’échantillonnage aléatoire réel. Pour cette raison, pour déterminer l’erreur moyenne de l’échantillonnage mécanique, des formules de sélection aléatoire appropriées sont utilisées.

À sélection typique la population enquêtée est préalablement divisée en groupes homogènes et similaires. Par exemple, lorsqu'on enquête sur les entreprises, il s'agit d'industries, de sous-secteurs ; lorsqu'on étudie la population, il s'agit de régions, de tranches sociales ou d'âge. Ensuite, une sélection indépendante dans chaque groupe est effectuée mécaniquement ou de manière purement aléatoire.

L'échantillonnage typique produit des résultats plus précis que les autres méthodes. Le typage de la population générale garantit que chaque groupe typologique est représenté dans l'échantillon, ce qui permet d'éliminer l'influence de la variance intergroupe sur l'erreur d'échantillonnage moyenne. Par conséquent, lors de la recherche de l'erreur d'un échantillon typique selon la règle d'ajout de variances (), il est extrêmement important de prendre en compte uniquement la moyenne des variances de groupe. Puis l'erreur d'échantillonnage moyenne : avec échantillonnage répété, avec échantillonnage non répétitif , Où – la moyenne des variances intra-groupe dans l'échantillon.

Sélection en série (ou en nid) utilisé lorsque la population est divisée en séries ou en groupes avant le début de l’enquête par sondage. Ces séries comprennent des emballages de produits finis, des groupes d'étudiants et des brigades. Les séries à examiner sont sélectionnées mécaniquement ou de manière purement aléatoire et, au sein de la série, un examen continu des unités est effectué. Pour cette raison, l'erreur d'échantillonnage moyenne dépend uniquement de la variance intergroupe (entre séries), qui est calculée à l'aide de la formule : où r est le nombre de séries sélectionnées ; – moyenne de la i-ième série. L'erreur moyenne de l'échantillonnage en série est calculée : avec échantillonnage répété, avec échantillonnage non répétitif , où R est le nombre total de séries. Combiné la sélection est une combinaison des méthodes de sélection considérées.

L’erreur d’échantillonnage moyenne pour toute méthode d’échantillonnage dépend principalement de la taille absolue de l’échantillon et, dans une moindre mesure, du pourcentage de l’échantillon. Supposons que 225 observations soient réalisées dans le premier cas à partir d'une population de 4 500 unités et dans le second à partir d'une population de 225 000 unités. Les variances dans les deux cas sont égales à 25. Alors dans le premier cas, avec une sélection de 5 %, l'erreur d'échantillonnage sera : Dans le deuxième cas, avec une sélection de 0,1%, il sera égal à :

Cependant, lorsque le pourcentage d’échantillonnage était réduit de 50 fois, l’erreur d’échantillonnage augmentait légèrement puisque la taille de l’échantillon ne changeait pas. Supposons que la taille de l'échantillon soit augmentée à 625 observations. Dans ce cas, l’erreur d’échantillonnage est : Augmenter l'échantillon de 2,8 fois avec la même taille de population réduit la taille de l'erreur d'échantillonnage de plus de 1,6 fois.

22.Méthodes et méthodes de constitution d'un échantillon de population.

En statistique, diverses méthodes de constitution d'échantillons de populations sont utilisées, qui sont déterminées par les objectifs de l'étude et dépendent des spécificités de l'objet d'étude.

La principale condition pour mener une enquête par sondage est d'éviter l'apparition d'erreurs systématiques résultant de la violation du principe d'égalité des chances pour chaque unité de la population générale d'être incluse dans l'échantillon. La prévention des erreurs systématiques est obtenue grâce à l'utilisation de méthodes scientifiquement fondées pour constituer un échantillon de population.

Il existe les méthodes suivantes pour sélectionner des unités dans la population générale : 1) sélection individuelle - des unités individuelles sont sélectionnées pour l'échantillon ; 2) sélection de groupe - l'échantillon comprend des groupes ou des séries d'unités qualitativement homogènes étudiés ; 3) la sélection combinée est une combinaison de sélection individuelle et de groupe. Les méthodes de sélection sont déterminées par les règles de constitution d'un échantillon de population.

L'échantillon doit être :

  • en fait aléatoire consiste dans le fait que la population échantillon est formée à la suite d'une sélection aléatoire (involontaire) d'unités individuelles dans la population générale. Dans ce cas, le nombre d'unités sélectionnées dans l'échantillon de population est généralement déterminé sur la base de la proportion d'échantillon acceptée. La proportion d'échantillon est le rapport entre le nombre d'unités dans la population échantillon n et le nombre d'unités dans la population générale N, ᴛ.ᴇ.
  • mécanique consiste dans le fait que la sélection des unités de la population échantillon se fait à partir de la population générale, divisée en intervalles égaux (groupes). Dans ce cas, la taille de l’intervalle dans la population est égale à l’inverse de la part de l’échantillon. Ainsi, avec un échantillon de 2 %, une unité sur 50 est sélectionnée (1 : 0,02), avec un échantillon de 5 %, une unité sur 20 (1 : 0,05), etc. Cependant, conformément à la proportion acceptée de sélection, la population générale est pour ainsi dire mécaniquement divisée en groupes égaux. Dans chaque groupe, une seule unité est sélectionnée pour l'échantillon.
  • typique - dans lequel la population générale est d'abord divisée en groupes typiques homogènes. Ensuite, à partir de chaque groupe typique, un échantillon purement aléatoire ou mécanique est utilisé pour sélectionner individuellement des unités dans la population échantillon. Une caractéristique importante d'un échantillon typique est qu'il donne des résultats plus précis par rapport à d'autres méthodes de sélection d'unités dans la population échantillonnée ;
  • en série- dans laquelle la population générale est divisée en groupes de taille égale - séries. Les séries sont sélectionnées dans la population échantillon. Au sein de la série, une observation continue des unités incluses dans la série est effectuée ;
  • combiné- l'échantillonnage doit être en deux étapes. Dans ce cas, la population est d'abord divisée en groupes. Ensuite, des groupes sont sélectionnés et, au sein de ces derniers, des unités individuelles sont sélectionnées.

En statistiques, on distingue les méthodes suivantes pour sélectionner des unités dans un échantillon de population :

  • en une seule étapeéchantillonnage - chaque unité sélectionnée est immédiatement soumise à une étude selon un critère donné (échantillonnage aléatoire et en série approprié) ;
  • à plusieurs étageséchantillonnage - une sélection est effectuée parmi la population générale des groupes individuels et des unités individuelles sont sélectionnées parmi les groupes (échantillonnage typique avec une méthode mécanique de sélection d'unités dans l'échantillon de population).

De plus, il y a:

  • re-sélection- selon le schéma de la balle renvoyée. Dans ce cas, chaque unité ou série incluse dans l'échantillon est restituée à la population générale et a donc une chance d'être à nouveau incluse dans l'échantillon ;
  • répéter la sélection- selon le schéma de la balle non restituée. Il donne des résultats plus précis avec la même taille d’échantillon.

23. Détermination de la taille de l'échantillon extrêmement importante (à l'aide de la table t de Student).

L'un des principes scientifiques de la théorie de l'échantillonnage est de garantir qu'un nombre suffisant d'unités sont sélectionnées. Théoriquement, l'extrême importance du respect de ce principe est présentée dans les preuves des théorèmes limites en théorie des probabilités, qui permettent d'établir quel volume d'unités doit être sélectionné dans la population pour qu'il soit suffisant et assure la représentativité de l'échantillon.

Une diminution de l'erreur type d'échantillonnage, et donc une augmentation de la précision de l'estimation, est toujours associée à une augmentation de la taille de l'échantillon ; donc, déjà au stade de l'organisation d'une observation d'échantillon, il est nécessaire de décider quelle est la taille de la population échantillon doit être effectué afin de garantir l'exactitude requise des résultats d'observation. Le calcul du volume d'échantillon extrêmement important est construit à l'aide de formules dérivées des formules des erreurs d'échantillonnage maximales (A), correspondant à un type et à une méthode de sélection particuliers. Ainsi, pour une taille d’échantillon répétée aléatoire (n), nous avons :

L'essence de cette formule est qu'avec un échantillonnage aléatoire répété de nombres extrêmement importants, la taille de l'échantillon est directement proportionnelle au carré du coefficient de confiance. (t2) et la variance de la caractéristique variationnelle (?2) et est inversement proportionnelle au carré de l'erreur d'échantillonnage maximale (?2). En particulier, si l'erreur maximale est multipliée par deux, la taille de l'échantillon requise doit être réduite d'un facteur quatre. Parmi les trois paramètres, deux (t et ?) sont fixés par le chercheur. Dans le même temps, le chercheur, sur la base de l'objectif

et les problèmes d'une enquête par sondage doivent résoudre la question : dans quelle combinaison quantitative est-il préférable d'inclure ces paramètres pour garantir l'option optimale ? Dans un cas, il peut être plus satisfait de la fiabilité des résultats obtenus (t) que de la mesure de l'exactitude (?), dans un autre - vice versa. Il est plus difficile de résoudre le problème de la valeur de l'erreur d'échantillonnage maximale, puisque le chercheur ne dispose pas de cet indicateur au stade de la conception de l'observation de l'échantillon ; par conséquent, dans la pratique, il est d'usage de fixer la valeur de l'erreur d'échantillonnage maximale. , généralement à moins de 10 % du niveau moyen attendu de l'attribut . L'établissement de la moyenne estimée peut être abordé de différentes manières : en utilisant les données d'enquêtes précédentes similaires, ou en utilisant les données de la base de sondage et en réalisant un petit échantillon pilote.

La chose la plus difficile à établir lors de la conception d'une observation d'échantillon est le troisième paramètre de la formule (5.2) - la variance de l'échantillon de population. Dans ce cas, il est extrêmement important d'utiliser toutes les informations dont dispose le chercheur, obtenues lors d'enquêtes similaires et pilotes précédentes.

La question de la détermination de la taille extrêmement importante de l'échantillon devient plus compliquée si l'enquête par sondage implique l'étude de plusieurs caractéristiques des unités d'échantillonnage. Dans ce cas, les niveaux moyens de chacune des caractéristiques et leur variation, en règle générale, sont différents, et à cet égard, décider quelle variance de laquelle des caractéristiques privilégier n'est possible qu'en tenant compte du but et des objectifs de l’enquête.

Lors de la conception d'un échantillon d'observation, une valeur prédéterminée de l'erreur d'échantillonnage tolérée est supposée conformément aux objectifs d'une étude particulière et à la probabilité de conclusions basées sur les résultats de l'observation.

En général, la formule de l'erreur maximale de la moyenne de l'échantillon permet de déterminer :

‣‣‣ l'ampleur des écarts possibles des indicateurs de la population générale par rapport aux indicateurs de la population échantillonnée ;

‣‣‣ la taille de l'échantillon requise pour garantir la précision requise, à laquelle les limites d'erreur possible ne dépassent pas une certaine valeur spécifiée ;

‣‣‣ la probabilité que l'erreur dans l'échantillon ait une limite spécifiée.

Répartition des étudiants en théorie des probabilités, il s'agit d'une famille à un paramètre de distributions absolument continues.

24. Série dynamique (intervalle, moment), série dynamique de clôture.

Série Dynamique- ce sont les valeurs des indicateurs statistiques qui sont présentées dans un certain ordre chronologique.

Chaque série chronologique contient deux composants :

1) indicateurs de périodes(années, trimestres, mois, jours ou dates) ;

2) indicateurs caractérisant l'objet étudié pour des périodes ou des dates correspondantes, appelées niveaux de série.

Les niveaux des séries sont exprimés en valeurs absolues et moyennes ou relatives. Compte tenu de la dépendance à la nature des indicateurs, des séries dynamiques de valeurs absolues, relatives et moyennes sont construites. Des séries dynamiques de valeurs relatives et moyennes sont construites sur la base de séries dérivées de valeurs absolues. Il existe des séries de dynamiques d’intervalles et de moments.

Série d'intervalles dynamiques contient les valeurs des indicateurs pour certaines périodes de temps. Dans une série d'intervalles, les niveaux peuvent être additionnés pour obtenir le volume du phénomène sur une période plus longue, ou les totaux dits accumulés.

Série de moments dynamiques reflète les valeurs des indicateurs à un moment donné (date et heure). Dans les séries de moments, le chercheur ne peut s'intéresser qu'à la différence de phénomènes qui reflète l'évolution du niveau de la série entre certaines dates, puisque la somme des niveaux n'a ici aucun contenu réel. Les totaux cumulatifs ne sont pas calculés ici.

La condition la plus importante pour la construction correcte des séries chronologiques est comparabilité des niveaux de séries appartenant à des époques différentes. Les niveaux doivent être présentés en quantités homogènes et il doit y avoir une couverture égale et complète des différentes parties du phénomène.

Afin d'éviter toute distorsion de la dynamique réelle, dans la recherche statistique, des calculs préliminaires sont effectués (clôture de la série dynamique), qui précèdent l'analyse statistique de la série chronologique. Sous clôturer la série de dynamiques Il est généralement admis d'entendre la combinaison en une seule série de deux ou plusieurs séries dont les niveaux sont calculés selon des méthodologies différentes ou ne correspondent pas aux frontières territoriales, etc. Clôturer la série dynamique peut également impliquer de ramener les niveaux absolus de la série dynamique à une base commune, ce qui neutralise le caractère incomparable des niveaux de la série dynamique.

25. Le concept de comparabilité des séries dynamiques, des coefficients, de la croissance et des taux de croissance.

Série Dynamique- il s'agit d'une série d'indicateurs statistiques caractérisant l'évolution des phénomènes naturels et sociaux dans le temps. Les collections statistiques publiées par le Comité national des statistiques de Russie contiennent un grand nombre de séries dynamiques sous forme de tableaux. Les séries dynamiques permettent d'identifier des schémas d'évolution des phénomènes étudiés.

Les séries Dynamics contiennent deux types d’indicateurs. Indicateurs de temps(années, trimestres, mois, etc.) ou à des moments précis (au début de l'année, au début de chaque mois, etc.). Indicateurs de niveau de ligne. Les indicateurs des niveaux de dynamique des séries peuvent être exprimés en valeurs absolues (production de produits en tonnes ou en roubles), en valeurs relatives (part de la population urbaine en %) et en valeurs moyennes (salaire moyen des travailleurs de l'industrie par an , etc.). Sous forme de tableau, une série chronologique contient deux colonnes ou deux lignes.

La construction correcte de séries chronologiques nécessite le respect d'un certain nombre d'exigences :

  1. tous les indicateurs d'un certain nombre de dynamiques doivent être scientifiquement justifiés et fiables ;
  2. les indicateurs d'une série de dynamiques doivent être comparables dans le temps, ᴛ.ᴇ. doivent être calculés pour les mêmes périodes ou aux mêmes dates ;
  3. les indicateurs de plusieurs dynamiques doivent être comparables sur l'ensemble du territoire ;
  4. les indicateurs d'une série de dynamiques doivent être comparables dans leur contenu, ᴛ.ᴇ. calculé selon une méthodologie unique, de la même manière ;
  5. les indicateurs d’un certain nombre de dynamiques doivent être comparables dans l’ensemble des exploitations agricoles prises en compte. Tous les indicateurs d'une série de dynamiques doivent être donnés dans les mêmes unités de mesure.

Les indicateurs statistiques peuvent caractériser soit les résultats du processus étudié sur une période de temps, soit l'état du phénomène étudié à un moment donné, ᴛ.ᴇ. les indicateurs peuvent être à intervalles (périodiques) et momentanés. En conséquence, initialement, les séries dynamiques sont soit des intervalles, soit des moments. Les séries de dynamiques de moments, à leur tour, comportent des intervalles de temps égaux et inégaux.

La série dynamique originale peut être transformée en une série de valeurs moyennes et une série de valeurs relatives (chaîne et base). De telles séries chronologiques sont appelées séries chronologiques dérivées.

La méthodologie de calcul du niveau moyen dans la série dynamique est différente selon le type de série dynamique. À l'aide d'exemples, nous examinerons les types de séries dynamiques et les formules de calcul du niveau moyen.

Augmentations absolues (Δy) montrent de combien d'unités le niveau suivant de la série a changé par rapport au précédent (gr. 3. - augmentations absolues en chaîne) ou par rapport au niveau initial (gr. 4. - augmentations absolues de base). Les formules de calcul peuvent s'écrire comme suit :

Lorsque les valeurs absolues de la série diminuent, il y aura respectivement une « diminution » ou une « diminution ».

Les indicateurs de croissance absolue indiquent que, par exemple, en 1998. la production du produit "A" a augmenté par rapport à 1997. de 4 mille tonnes, et par rapport à 1994 ᴦ. - de 34 mille tonnes ; pour les autres années, voir tableau. 11,5 grammes.
Publié sur réf.rf
3 et 4.

Taux de croissance montre combien de fois le niveau de la série a changé par rapport au précédent (gr. 5 - coefficients de chaîne de croissance ou de déclin) ou par rapport au niveau initial (gr. 6 - coefficients de base de croissance ou de déclin). Les formules de calcul peuvent s'écrire comme suit :

Taux de croissance montrer quel pourcentage le niveau suivant de la série est par rapport au précédent (colonne 7 - taux de croissance en chaîne) ou par rapport au niveau initial (gr. 8 - taux de croissance de base). Les formules de calcul peuvent s'écrire comme suit :

Ainsi, par exemple, en 1997. volume de production du produit « A » par rapport à 1996 ᴦ. s'élevait à 105,5% (

Taux de croissance montrez de quel pourcentage le niveau de la période de référence a augmenté par rapport à la précédente (colonne 9 - taux de croissance en chaîne) ou par rapport au niveau initial (colonne 10 - taux de croissance de base). Les formules de calcul peuvent s'écrire comme suit :

T pr = T r - 100 % ou T pr = croissance absolue / niveau de la période précédente * 100 %

Ainsi, par exemple, en 1996. par rapport à 1995 ᴦ. Le produit « A » a été produit davantage à hauteur de 3,8 % (103,8 % - 100 %) ou (8 : 210) x 100 %, et par rapport à 1994 ᴦ. - de 9% (109% - 100%).

Si les niveaux absolus de la série diminuent, alors le taux sera inférieur à 100 % et, par conséquent, il y aura un taux de diminution (le taux d'augmentation avec un signe moins).

Valeur absolue d'augmentation de 1%(gr.
Publié sur réf.rf
11) montre combien d'unités doivent être produites au cours d'une période donnée pour que le niveau de la période précédente augmente de 1 %. Dans notre exemple, en 1995 ᴦ. il fallait produire 2,0 mille tonnes, et en 1998 ᴦ. - 2,3 mille tonnes, ᴛ.ᴇ. beaucoup plus grand.

La valeur absolue de 1 % de croissance peut être déterminée de deux manières :

§ le niveau de la période précédente divisé par 100 ;

§ les augmentations absolues de la chaîne sont divisées par les taux de croissance de la chaîne correspondants.

Valeur absolue d'augmentation de 1% =

En dynamique, notamment sur une longue période, une analyse conjointe du taux de croissance avec le contenu de chaque pourcentage d'augmentation ou de diminution est importante.

A noter que la méthodologie envisagée pour analyser les séries chronologiques est applicable aussi bien pour les séries chronologiques dont les niveaux sont exprimés en valeurs absolues (t, milliers de roubles, nombre d'employés, etc.), que pour les séries chronologiques dont les niveaux sont exprimés en indicateurs relatifs (% de défauts, % teneur en cendres du charbon, etc.) ou en valeurs moyennes (rendement moyen en c/ha, salaire moyen, etc.).

Parallèlement aux indicateurs analytiques considérés, calculés pour chaque année par rapport au niveau précédent ou initial, lors de l'analyse des séries dynamiques, il est extrêmement important de calculer les indicateurs analytiques moyens de la période : le niveau moyen de la série, la moyenne annuelle absolue augmentation (diminution) et le taux de croissance annuel moyen et le taux de croissance.

Les méthodes de calcul du niveau moyen d'une série de dynamiques ont été discutées ci-dessus. Dans la série de dynamique d'intervalle que nous considérons, le niveau moyen de la série est calculé à l'aide de la formule de moyenne arithmétique simple :

Volume de production annuel moyen du produit pour 1994-1998. s'élevait à 218,4 milliers de tonnes.

La croissance absolue annuelle moyenne est également calculée à l'aide de la formule de la moyenne arithmétique

Écart type - concept et types. Classement et caractéristiques de la catégorie « Écart carré moyen » 2017, 2018.

L'un des principaux outils d'analyse statistique est le calcul de l'écart type. Cet indicateur permet d'estimer l'écart type pour un échantillon ou pour une population. Apprenons à utiliser la formule d'écart type dans Excel.

Déterminons immédiatement quel est l’écart type et à quoi ressemble sa formule. Cette quantité est la racine carrée de la moyenne arithmétique des carrés de la différence entre toutes les quantités de la série et leur moyenne arithmétique. Il existe un nom identique pour cet indicateur - écart type. Les deux noms sont complètement équivalents.

Mais bien sûr, dans Excel, l'utilisateur n'a pas à calculer cela, puisque le programme fait tout pour lui. Apprenons à calculer l'écart type dans Excel.

Calcul dans Excel

Vous pouvez calculer la valeur spécifiée dans Excel à l'aide de deux fonctions spéciales STDEV.V(sur la base de l’échantillon de population) et STDEV.G(basé sur la population générale). Le principe de leur fonctionnement est absolument le même, mais ils peuvent être appelés de trois manières, dont nous parlerons ci-dessous.

Méthode 1 : Assistant de fonction


Méthode 2 : onglet Formules


Méthode 3 : Saisie manuelle de la formule

Il existe également un moyen pour que vous n'ayez pas du tout besoin d'appeler la fenêtre des arguments. Pour ce faire, vous devez saisir la formule manuellement.


Comme vous pouvez le constater, le mécanisme de calcul de l’écart type dans Excel est très simple. L'utilisateur n'a qu'à saisir les chiffres de la population ou les références aux cellules qui les contiennent. Tous les calculs sont effectués par le programme lui-même. Il est beaucoup plus difficile de comprendre ce qu'est l'indicateur calculé et comment les résultats du calcul peuvent être appliqués dans la pratique. Mais comprendre cela relève déjà plus du domaine des statistiques que d’apprendre à travailler avec des logiciels.

Des mathématiciens et statisticiens avisés ont mis au point un indicateur plus fiable, bien que dans un but légèrement différent - écart linéaire moyen. Cet indicateur caractérise la mesure de dispersion des valeurs d'un ensemble de données autour de leur valeur moyenne.

Afin d'afficher la mesure de la dispersion des données, vous devez d'abord décider par rapport à quoi cette dispersion sera calculée - il s'agit généralement de la valeur moyenne. Ensuite, vous devez calculer dans quelle mesure les valeurs de l'ensemble de données analysées se situent par rapport à la moyenne. Il est clair que chaque valeur correspond à une certaine valeur d'écart, mais nous nous intéressons à l'évaluation globale, couvrant l'ensemble de la population. Par conséquent, l’écart moyen est calculé à l’aide de la formule de moyenne arithmétique habituelle. Mais! Mais pour calculer la moyenne des écarts, il faut d’abord les additionner. Et si on additionne des nombres positifs et négatifs, ils s’annuleront et leur somme tendra vers zéro. Pour éviter cela, tous les écarts sont pris modulo, c'est-à-dire que tous les nombres négatifs deviennent positifs. L’écart moyen montrera désormais une mesure généralisée de la répartition des valeurs. En conséquence, l'écart linéaire moyen sera calculé à l'aide de la formule :

un– écart linéaire moyen,

X– l'indicateur analysé, avec un tiret au dessus – la valeur moyenne de l'indicateur,

n– nombre de valeurs dans l'ensemble de données analysées,

J'espère que l'opérateur de sommation ne fait peur à personne.

L'écart linéaire moyen calculé à l'aide de la formule spécifiée reflète l'écart absolu moyen par rapport à la valeur moyenne pour une population donnée.

Sur l'image, la ligne rouge représente la valeur moyenne. Les écarts de chaque observation par rapport à la moyenne sont indiqués par de petites flèches. Ils sont repris modulo et résumés. Ensuite, tout est divisé par le nombre de valeurs.

Pour compléter le tableau, il faut donner un exemple. Disons qu'il existe une entreprise qui produit des boutures pour pelles. Chaque coupe doit mesurer 1,5 mètre de long, mais plus important encore, elles doivent toutes être identiques ou au moins plus ou moins 5 cm. Cependant, les travailleurs imprudents couperont 1,2 m ou 1,8 m. Les résidents d'été sont mécontents. Le directeur de l'entreprise a décidé de procéder à une analyse statistique de la longueur des coupes. J'ai sélectionné 10 pièces et mesuré leur longueur, trouvé la moyenne et calculé l'écart linéaire moyen. La moyenne s'est avérée être exactement ce qui était nécessaire - 1,5 m. Mais l'écart linéaire moyen était de 0,16 m. Il s'avère donc que chaque coupe est plus longue ou plus courte que nécessaire en moyenne de 16 cm. Il y a de quoi parler avec le ouvriers . En fait, je n'ai vu aucune utilisation réelle de cet indicateur, j'ai donc moi-même trouvé un exemple. Cependant, il existe un tel indicateur dans les statistiques.

Dispersion

Comme l’écart linéaire moyen, la variance reflète également l’étendue de la dispersion des données autour de la valeur moyenne.

La formule de calcul de la variance ressemble à ceci :

(pour les séries de variation (variance pondérée))

(pour les données non groupées (variance simple))

Où : σ 2 – dispersion, XI– nous analysons l'indicateur sq (valeur du signe), – la valeur moyenne de l'indicateur, f i – le nombre de valeurs dans l'ensemble de données analysé.

La dispersion est le carré moyen des écarts.

Tout d'abord, la valeur moyenne est calculée, puis la différence entre chaque valeur originale et moyenne est prise, mise au carré, multipliée par la fréquence de la valeur d'attribut correspondante, ajoutée puis divisée par le nombre de valeurs dans la population.

Cependant, sous sa forme pure, comme la moyenne arithmétique ou l'indice, la dispersion n'est pas utilisée. Il s’agit plutôt d’un indicateur auxiliaire et intermédiaire utilisé pour d’autres types d’analyses statistiques.

Une manière simplifiée de calculer la variance

Écart-type

Pour utiliser la variance pour l'analyse des données, la racine carrée de la variance est prise. Il s'avère que ce qu'on appelle écart-type.

À propos, l'écart type est également appelé sigma - de la lettre grecque qui le désigne.

L'écart type caractérise évidemment également la mesure de la dispersion des données, mais désormais (contrairement à la variance), il peut être comparé aux données d'origine. En règle générale, les mesures quadratiques moyennes dans les statistiques donnent des résultats plus précis que les mesures linéaires. Par conséquent, l’écart type est une mesure plus précise de la dispersion des données que l’écart moyen linéaire.