Probabilité de confiance et confiance. Intervalle de confiance

  • 30.09.2019

L'intervalle de confiance nous vient du domaine des statistiques. Il s'agit d'une certaine plage qui sert à estimer un paramètre inconnu avec un degré élevé de fiabilité. La façon la plus simple d’expliquer cela est de prendre un exemple.

Supposons que vous deviez étudier une variable aléatoire, par exemple la vitesse de réponse du serveur à une demande client. Chaque fois qu'un utilisateur saisit l'adresse d'un site spécifique, le serveur répond à des vitesses différentes. Ainsi, le temps de réponse étudié est aléatoire. Ainsi, l'intervalle de confiance nous permet de déterminer les limites de ce paramètre, et nous pouvons alors dire qu'avec une probabilité de 95 %, le serveur sera dans la plage que nous avons calculée.

Ou vous devez savoir combien de personnes connaissent la marque de l’entreprise. Lors du calcul de l'intervalle de confiance, on pourra par exemple dire qu'avec une probabilité de 95 % la part des consommateurs qui en sont conscients se situe entre 27 % et 34 %.

La valeur de la probabilité de confiance est étroitement liée à ce terme. Il représente la probabilité que le paramètre souhaité soit inclus dans l'intervalle de confiance. L’étendue de notre plage souhaitée dépend de cette valeur. Plus la valeur est grande, plus l’intervalle de confiance devient étroit, et vice versa. Généralement, il est réglé sur 90 %, 95 % ou 99 %. La valeur 95 % est la plus populaire.

Cet indicateur est également influencé par la dispersion des observations et sa définition repose sur l’hypothèse selon laquelle la caractéristique étudiée obéit, également connue sous le nom de loi de Gauss. Selon lui, la normale est une distribution de toutes les probabilités d'une variable aléatoire continue qui peut être décrite par une densité de probabilité. Si l’hypothèse d’une distribution normale est incorrecte, alors l’estimation peut être incorrecte.

Voyons d’abord comment calculer l’intervalle de confiance pour. Il existe ici deux cas possibles. La dispersion (le degré de propagation d'une variable aléatoire) peut être connue ou non. Si cela est connu, alors notre intervalle de confiance est calculé à l'aide de la formule suivante :

xsr - t*σ / (sqrt(n))<= α <= хср + t*σ / (sqrt(n)), где

α - signe,

t - paramètre de la table de distribution de Laplace,

σ est la racine carrée de la variance.

Si la variance est inconnue, elle peut alors être calculée si nous connaissons toutes les valeurs de la caractéristique souhaitée. La formule suivante est utilisée pour cela :

σ2 = х2ср - (хср)2, où

х2ср - valeur moyenne des carrés de la caractéristique étudiée,

(хср)2 est le carré de cette caractéristique.

La formule par laquelle l'intervalle de confiance est calculé dans ce cas change légèrement :

xsr - t*s / (sqrt(n))<= α <= хср + t*s / (sqrt(n)), где

xsr - moyenne de l'échantillon,

α - signe,

t est un paramètre trouvé à l'aide de la table de distribution de Student t = t(ɣ;n-1),

sqrt(n) - racine carrée de la taille totale de l'échantillon,

s est la racine carrée de la variance.

Considérez cet exemple. Supposons que, sur la base des résultats de 7 mesures, la caractéristique étudiée soit déterminée égale à 30 et la variance de l'échantillon égale à 36. Il est nécessaire de trouver, avec une probabilité de 99 %, un intervalle de confiance qui contient la vraie valeur du paramètre mesuré.

Tout d'abord, déterminons à quoi t est égal : t = t (0,99 ; 7-1) = 3,71. En utilisant la formule ci-dessus, nous obtenons :

xsr - t*s / (sqrt(n))<= α <= хср + t*s / (sqrt(n))

30 - 3,71*36 / (carré(7))<= α <= 30 + 3.71*36 / (sqrt(7))

21.587 <= α <= 38.413

L'intervalle de confiance pour la variance est calculé à la fois dans le cas d'une moyenne connue et lorsqu'il n'y a pas de données sur l'espérance mathématique, et seule la valeur de l'estimation ponctuelle non biaisée de la variance est connue. Nous ne donnerons pas ici de formules pour le calculer, car elles sont assez complexes et, si vous le souhaitez, peuvent toujours être trouvées sur Internet.

Notons seulement qu'il est pratique de déterminer l'intervalle de confiance à l'aide d'Excel ou d'un service réseau, ainsi appelé.

Souvent, l’évaluateur doit analyser le marché immobilier du segment dans lequel se situe le bien évalué. Si le marché est développé, il peut être difficile d'analyser l'ensemble des objets présentés, c'est pourquoi un échantillon d'objets est utilisé pour l'analyse. Cet échantillon ne s'avère pas toujours homogène, il faut parfois le débarrasser des points extrêmes - offres de marché trop élevées ou trop basses. A cet effet, il est utilisé Intervalle de confiance. Le but de cette étude est de mener une analyse comparative de deux méthodes de calcul de l'intervalle de confiance et de sélectionner l'option de calcul optimale lorsque vous travaillez avec différents échantillons dans le système estimatica.pro.

L'intervalle de confiance est un intervalle de valeurs d'attribut calculé sur la base d'un échantillon qui, avec une probabilité connue, contient le paramètre estimé de la population générale.

L'intérêt du calcul d'un intervalle de confiance est de construire un tel intervalle sur la base de données d'échantillon afin qu'il puisse être déclaré avec une probabilité donnée que la valeur du paramètre estimé se trouve dans cet intervalle. En d'autres termes, l'intervalle de confiance contient la valeur inconnue de la valeur estimée avec une certaine probabilité. Plus l’intervalle est large, plus l’imprécision est grande.

Il existe différentes méthodes pour déterminer l'intervalle de confiance. Dans cet article, nous examinerons 2 méthodes :

  • à travers la médiane et l'écart type ;
  • grâce à la valeur critique des statistiques t (coefficient de Student).

Étapes d'analyse comparative des différentes méthodes de calcul de l'IC :

1. constituer un échantillon de données ;

2. nous le traitons à l'aide de méthodes statistiques : nous calculons la valeur moyenne, la médiane, la variance, etc. ;

3. calculer l'intervalle de confiance de deux manières ;

4. analyser les échantillons nettoyés et les intervalles de confiance qui en résultent.

Étape 1. Échantillonnage des données

L'échantillon a été constitué à l'aide du système estimatica.pro. L'échantillon comprenait 91 offres de vente d'appartements d'une pièce dans la 3ème zone de prix avec un agencement de type « Khrouchtchev ».

Tableau 1. Échantillon initial

Prix ​​1 m², unité

Fig. 1. Échantillon initial



Étape 2. Traitement de l'échantillon initial

Le traitement d'un échantillon à l'aide de méthodes statistiques nécessite de calculer les valeurs suivantes :

1. Moyenne arithmétique

2. La médiane est un nombre caractérisant l'échantillon : exactement la moitié des éléments de l'échantillon sont supérieurs à la médiane, l'autre moitié est inférieure à la médiane

(pour un échantillon avec un nombre impair de valeurs)

3. Plage - la différence entre les valeurs maximales et minimales de l'échantillon

4. Variance - utilisé pour estimer plus précisément la variation des données

5. L'écart type de l'échantillon (ci-après - SD) est l'indicateur le plus courant de la dispersion des valeurs d'ajustement autour de la moyenne arithmétique.

6. Coefficient de variation - reflète le degré de dispersion des valeurs d'ajustement

7. coefficient d'oscillation - reflète la fluctuation relative des valeurs de prix extrêmes dans l'échantillon autour de la moyenne

Tableau 2. Indicateurs statistiques de l'échantillon d'origine

Le coefficient de variation, qui caractérise l'homogénéité des données, est de 12,29 %, mais le coefficient d'oscillation est trop élevé. Ainsi, on peut dire que l’échantillon d’origine n’est pas homogène, passons donc au calcul de l’intervalle de confiance.

Étape 3. Calcul de l'intervalle de confiance

Méthode 1. Calcul utilisant la médiane et l’écart type.

L'intervalle de confiance est déterminé comme suit : valeur minimale - l'écart type est soustrait de la médiane ; valeur maximale - l'écart type est ajouté à la médiane.

Ainsi, l'intervalle de confiance (47 179 CU ; 60 689 CU)

Riz. 2. Valeurs comprises dans l'intervalle de confiance 1.



Méthode 2. Construction d'un intervalle de confiance en utilisant la valeur critique des statistiques t (coefficient de Student)

S.V. Gribovsky dans son livre « Méthodes mathématiques pour estimer la valeur de la propriété » décrit une méthode de calcul de l'intervalle de confiance à l'aide du coefficient de Student. Lors du calcul selon cette méthode, l'estimateur doit lui-même fixer le niveau de signification ∝, qui détermine la probabilité avec laquelle l'intervalle de confiance sera construit. Généralement, des niveaux de signification de 0,1 sont utilisés ; 0,05 et 0,01. Elles correspondent à des probabilités de confiance de 0,9 ; 0,95 et 0,99. Avec cette méthode, les vraies valeurs de l'espérance mathématique et de la variance sont supposées pratiquement inconnues (ce qui est presque toujours vrai lors de la résolution de problèmes d'estimation pratiques).

Formule d'intervalle de confiance :

n - taille de l'échantillon ;

La valeur critique des statistiques t (distribution de Student) avec un niveau de signification ∝, le nombre de degrés de liberté n-1, qui est déterminé à partir de tableaux statistiques spéciaux ou à l'aide de MS Excel (→"Statistique"→ STUDIST) ;

∝ - niveau de signification, prenons ∝=0,01.

Riz. 2. Valeurs comprises dans l'intervalle de confiance 2.

Étape 4. Analyse des différentes méthodes de calcul de l'intervalle de confiance

Deux méthodes de calcul de l'intervalle de confiance - via la médiane et le coefficient de Student - ont conduit à des valeurs différentes des intervalles. En conséquence, nous avons obtenu deux échantillons nettoyés différents.

Tableau 3. Statistiques pour trois échantillons.

Indice

Échantillon initial

1 possibilité

Option 2

Valeur moyenne

Dispersion

Coef. variantes

Coef. oscillations

Nombre d'objets retirés, pcs.

Sur la base des calculs effectués, nous pouvons dire que les valeurs de l'intervalle de confiance obtenues par différentes méthodes se croisent, vous pouvez donc utiliser n'importe laquelle des méthodes de calcul à la discrétion de l'évaluateur.

Cependant, nous pensons que lorsqu'on travaille dans le système estimatica.pro, il est conseillé de choisir une méthode de calcul de l'intervalle de confiance en fonction du degré de développement du marché :

  • si le marché est sous-développé, utilisez la méthode de calcul utilisant la médiane et l'écart type, car le nombre d'objets retirés dans ce cas est faible ;
  • si le marché est développé, appliquer le calcul via la valeur critique de la statistique t (coefficient de Student), car il est possible de constituer un large échantillon initial.

Lors de la préparation de l'article, les éléments suivants ont été utilisés :

1. Gribovsky S.V., Sivets S.A., Levykina I.A. Méthodes mathématiques pour évaluer la valeur d'une propriété. Moscou, 2014

2. Données système estimatica.pro

Dans lequel, avec une probabilité ou une autre, se trouve le paramètre général. Les probabilités reconnues comme suffisantes pour un jugement sûr sur les paramètres généraux basés sur des exemples d'indicateurs sont appelées confiant.

Le concept de probabilités de confiance découle du principe selon lequel les événements improbables sont considérés comme pratiquement impossibles et les événements dont la probabilité est proche de un sont considérés comme presque certains. Généralement, les probabilités P 1 = 0,95, P 2 = 0,99, P 3 = 0,999 sont utilisées comme probabilités de confiance. Certaines valeurs de probabilité correspondent niveaux de signification, par quoi nous entendons la différence α = 1-Р. Une probabilité de 0,95 correspond à un niveau de signification de α 1 = 0,05 (5 %), une probabilité de 0,99 - α 2 = 0,01 (1 %), une probabilité de 0,999 - α 3 = 0,001 (0,1 %).

Cela signifie que lors de l'évaluation de paramètres généraux à l'aide d'échantillons d'indicateurs, il existe un risque de se tromper dans le premier cas une fois tous les 20 tests, c'est-à-dire dans 5 % des cas ; dans le second - 1 fois pour 100 tests, c'est-à-dire dans 1% des cas ; dans le troisième - 1 fois pour 1000 tests, c'est-à-dire dans 0,1% des cas. Ainsi, le niveau de signification désigne la probabilité d'obtenir un écart aléatoire par rapport aux résultats établis avec une certaine probabilité. Les probabilités acceptées comme confiance déterminent l'intervalle de confiance entre elles. Ils peuvent être utilisés pour fonder une évaluation d’une valeur particulière et des limites dans lesquelles elle peut se situer selon différentes probabilités.

Pour diverses probabilités, les intervalles de confiance seront les suivants :

P 1 = intervalle de 0,95 - 1,96σ à + 1,96σ (Fig. 5)

P 2 = 0,99 intervalle - 2,58σ à + 2,58σ

P 3 = 0,999 intervalle - 3,03σ à + 3,03σ

Les valeurs suivantes d'écarts normalisés correspondent aux probabilités de confiance :

La probabilité P 1 = 0,95 correspond à t 1 = 1,96σ

La probabilité P 2 = 0,99 correspond à t 2 = 2,58σ

La probabilité P 3 = 0,999 correspond à t 3 = 3,03σ

Le choix de l'un ou l'autre seuil de confiance repose sur l'importance de l'événement. Le niveau de signification dans ce cas est la probabilité qu'il est décidé de négliger dans une étude ou un phénomène donné.

Erreur moyenne (m), ou erreur de représentativité.

En règle générale, les caractéristiques de l'échantillon ne coïncident pas en valeur absolue avec les paramètres généraux correspondants. L'ampleur de l'écart d'un indicateur d'échantillon par rapport à son paramètre général est appelée erreur statistique ou erreur de représentativité. Les erreurs statistiques ne sont inhérentes qu'aux caractéristiques de l'échantillon ; elles surviennent lors du processus de sélection d'une option parmi la population générale.


L'erreur moyenne est calculée à l'aide de la formule :

où σ est l'écart type,

n - nombre de mesures (taille de l'échantillon).

Exprimé dans les mêmes unités que .

L'ampleur de l'erreur moyenne est inversement proportionnelle à la taille de la population échantillonnée. Plus la taille de l'échantillon est grande, plus l'erreur moyenne est petite et, par conséquent, plus l'écart entre les valeurs des caractéristiques de l'échantillon et de la population générale est faible.

L'erreur d'échantillonnage moyenne peut être utilisée pour estimer la moyenne générale selon la loi de la distribution normale. Ainsi, 68,3 % de toutes les moyennes arithmétiques de l'échantillon se situent à ±1, 95,5 % de toutes les moyennes d'échantillon se situent à ±2 et 99,7 % de toutes les moyennes d'échantillon se situent à ±3.

Intervalle de confiance. Probabilité de confiance.

APPLICATION DE LA THÉORIE DES PROBABILITÉS AUX STATISTIQUES.

Concepts de base.

Les statistiques mathématiques sont une branche des mathématiques qui étudie les méthodes de traitement et d'analyse des données expérimentales obtenues à la suite d'observations d'événements et de phénomènes aléatoires massifs.

Les observations faites sur des objets peuvent couvrir tous les membres de la population étudiée sans exception et peuvent se limiter à des enquêtes portant uniquement sur une certaine partie des membres de cette population. La première observation est dite continue ou complète, la seconde partielle ou sélectif .

Naturellement, l'information la plus complète est fournie par l'observation continue, mais on n'y a pas toujours recours. Premièrement, l’observation continue demande beaucoup de travail et, deuxièmement, elle est souvent pratiquement impossible, voire peu pratique. C’est pourquoi, dans la grande majorité des cas, ils recourent à des recherches sélectives.

Une population à partir de laquelle certains de ses membres sont sélectionnés d'une manière ou d'une autre pour une étude conjointe est appelée population générale , et une partie de la population générale sélectionnée d'une manière ou d'une autre est un échantillon de population ou échantillon .

Le volume de la population est théoriquement illimité, mais en pratique il est toujours limité.

La taille de l’échantillon peut être grande ou petite, mais elle ne peut pas être inférieure à deux.

La sélection dans l'échantillon peut être effectuée de manière aléatoire (par tirage au sort ou loterie). Ou planifié, selon la tâche et l'organisation de l'enquête. Pour que l'échantillon soit représentatif, il est nécessaire de prêter attention à la plage de variation de la caractéristique et de coordonner la taille de l'échantillon avec celle-ci.

2. Détermination de la fonction de distribution inconnue.

Nous avons donc fait une sélection. Divisons la plage des valeurs observées en intervalles , , …. la même longueur. Pour estimer le nombre d'intervalles requis, vous pouvez utiliser les formules suivantes :

Ensuite, laissez je suis - nombre de valeurs observées incluses dans jeème intervalle. En divisant je suis par nombre total d'observations n, on obtient la fréquence correspondant je-Oh intervalle : , et . Créons le tableau suivant :

Numéro d'intervalle Intervalle je suis
m1
m2
... ... ... ...
k mk

qui est appelée statistiquement proche . Empirique (ou statistique ) fonction de distribution une variable aléatoire est la fréquence d'un événement telle que la quantité résultant de l'expérience prendra une valeur inférieure à X:

En pratique, il suffit de retrouver les valeurs de la fonction de répartition statistique F*(x) aux points , qui sont les limites des intervalles de la série statistique :

(5.2)

Il convient de noter qu'à et à . En traçant les points et en les reliant avec une courbe lisse, nous obtenons un graphique approximatif de la fonction de distribution empirique (Fig. 5.1). En utilisant la loi des grands nombres de Bernoulli, nous pouvons prouver qu'avec un nombre suffisamment grand de tests avec une probabilité proche de l'unité, la fonction de distribution empirique diffère aussi peu qu'on le souhaite de la fonction de distribution d'une variable aléatoire qui nous est inconnue.

Souvent, au lieu de tracer la fonction de distribution empirique, on procède comme suit. Les intervalles sont portés sur l'axe des abscisses, ,…. . A chaque intervalle, un rectangle est construit dont l'aire est égale à la fréquence correspondant à cet intervalle. Hauteur Salut de ce rectangle est égal à , où est la longueur de chacun des intervalles. Il est clair que la somme des aires de tous les rectangles construits est égale à un.

Considérons une fonction constante dans l'intervalle et égale à . Le graphique de cette fonction s'appelle histogramme . Il s'agit d'une ligne en escalier (Fig. 5.2). En utilisant la loi des grands nombres de Bernoulli, il peut être prouvé que pour les petits et les grands nombres, avec une certitude pratique, aussi peu que souhaité diffère de la densité de distribution d'une variable aléatoire continue.

Ainsi, en pratique, le type de fonction de distribution inconnue d'une variable aléatoire est déterminé.

3. Détermination des paramètres de distribution inconnus.

Ainsi, nous avons obtenu un histogramme qui donne de la clarté. La clarté des résultats présentés nous permet de tirer diverses conclusions et jugements sur l'objet étudié.

Cependant, ils ne s'arrêtent généralement pas là, mais vont plus loin, en analysant les données pour tester certaines hypothèses concernant les mécanismes possibles des processus ou phénomènes étudiés.

Bien que les données de chaque enquête soient relativement petites, nous aimerions que les résultats de l’analyse décrivent suffisamment l’ensemble réel ou imaginable (c’est-à-dire la population).

Pour ce faire, certaines hypothèses sont faites sur la façon dont les indicateurs calculés sur la base de données expérimentales (échantillon) se rapportent aux paramètres de la population générale.

La solution à ce problème constitue une partie importante de toute analyse de données expérimentales et est étroitement liée à l'utilisation d'un certain nombre de distributions théoriques discutées ci-dessus.

L'utilisation généralisée de la distribution normale dans les inférences statistiques a une justification à la fois empirique et théorique.

Premièrement, la pratique montre que dans de nombreux cas, la distribution normale est effectivement une représentation assez précise des données expérimentales.

Deuxièmement, il a été théoriquement montré que les valeurs moyennes des intervalles de l'histogramme sont distribuées selon une loi proche de la normale.

Cependant, il faut bien comprendre que la distribution normale n’est qu’un outil purement mathématique et qu’il n’est pas du tout nécessaire que les données expérimentales réelles soient décrites avec précision par la distribution normale. Bien que dans de nombreux cas, à une petite erreur près, on puisse dire que les données sont normalement distribuées.

Un certain nombre d'indicateurs, tels que la moyenne, la variance, etc., caractérisent l'échantillon et sont appelés statistiques. Les mêmes indicateurs, mais relatifs à la population dans son ensemble, sont appelés paramètres. Ainsi, on peut dire que les statistiques servent à estimer des paramètres.

La moyenne générale est la moyenne arithmétique des valeurs volume de la population générale :

La moyenne de l'échantillon est la moyenne arithmétique du volume de l'échantillon :

(5.4)

si la sélection est sous forme de tableau.

La moyenne de l'échantillon est considérée comme une estimation de la moyenne générale.

La variance générale est la moyenne arithmétique des écarts carrés des valeurs de population à partir de leur valeur moyenne :

L'écart type général est la racine carrée de la variance générale : .

La variance de l'échantillon est la moyenne arithmétique des carrés de l'écart des valeurs de l'échantillon par rapport à leur moyenne :

L'écart type de l'échantillon est défini comme suit :

Pour mieux coller aux résultats expérimentaux, la notion de variance empirique (ou corrigée) est introduite :

Pour estimer l'écart type général, utilisez l'écart type corrigé ou la norme empirique :

(5.5)

Dans le cas où toutes les valeurs d'échantillon sont différentes, c'est-à-dire , , les formules pour et prennent la forme :

(5.6)

Intervalle de confiance. Probabilité de confiance.

Les différentes statistiques obtenues à la suite des calculs sont des estimations ponctuelles des paramètres correspondants de la population.

Si nous extrayons un certain nombre d'échantillons de la population générale et trouvons les statistiques qui nous intéressent pour chacun d'eux, alors les valeurs calculées représenteront des variables aléatoires qui ont une certaine répartition autour du paramètre estimé.

Mais, en règle générale, à la suite de l'expérience, le chercheur dispose d'un échantillon. Il est donc très intéressant d’obtenir une estimation d’intervalle, c’est-à-dire un certain intervalle dans lequel, comme on peut le supposer, se situe la vraie valeur du paramètre.

Les probabilités reconnues comme suffisantes pour des jugements sûrs sur les paramètres de la population basés sur des statistiques sont appelées confiance.

Par exemple, considérons comment estimer le paramètre .

Intervalle

Les estimations ponctuelles considérées des paramètres de distribution fournissent une estimation sous la forme d'un nombre le plus proche de la valeur du paramètre inconnu. De telles estimations ne sont utilisées que pour un grand nombre de mesures. Plus la taille de l’échantillon est petite, plus il est facile de se tromper lors du choix d’un paramètre. Pour la pratique, il est important non seulement d'obtenir une estimation ponctuelle, mais également de déterminer l'intervalle, appelé confiant, entre les limites desquelles avec un probabilité crédible

où q est le niveau de signification ; x n, x b - les limites inférieure et supérieure de l'intervalle, la vraie valeur du paramètre estimé est trouvée.

En général, les intervalles de confiance peuvent être construits sur la base de Les inégalités de Chebyshev. Pour toute loi de distribution d'une variable aléatoire avec des moments des deux premiers ordres, la limite supérieure de la probabilité que la variable aléatoire x du centre de distribution X c tombe dans l'intervalle tS x est décrite par l'inégalité de Chebyshev

où S x est l'estimation de l'écart type de la distribution ; t est un nombre positif.

Pour trouver un intervalle de confiance, vous n'avez pas besoin de connaître la loi de distribution des résultats d'observation, mais vous devez connaître l'estimation de l'écart type. Les intervalles obtenus à l'aide de l'inégalité de Chebyshev s'avèrent trop larges pour la pratique. Ainsi, une probabilité de confiance de 0,9 pour de nombreuses lois de distribution correspond à un intervalle de confiance de 1,6S X . L'inégalité de Chebyshev donne dans ce cas 3,16S X. Pour cette raison, il ne s’est pas répandu.

Dans la pratique métrologique, ils sont principalement utilisés estimations quantiles Intervalle de confiance. Sous Quantile de pourcentage 100P x p s'entend comme l'abscisse d'une telle ligne verticale, à gauche de laquelle l'aire sous la courbe de densité de répartition est égale à P%. Autrement dit, quantile- c'est la valeur d'une variable aléatoire (erreur) avec une probabilité de confiance P donnée. Par exemple, la médiane de la distribution est le quantile 50% x 0,5.

En pratique, les quantiles 25 et 75 % sont généralement appelés les plis, ou quantiles de la distribution. Entre eux se trouvent 50 % de toutes les valeurs possibles de la variable aléatoire, et les 50 % restants se trouvent en dehors d'eux. L'intervalle de valeurs d'une variable aléatoire x entre x 0 05 et x 0 95 couvre 90 % de toutes ses valeurs possibles et s'appelle intervalle interquantile avec une probabilité de 90 %. Sa longueur est d 0,9 = x 0,95 - x 0,05.

Sur la base de cette approche, le concept est introduit valeurs d'erreur quantile, ceux. valeurs d'erreur avec une probabilité de confiance donnée P - les limites de l'intervalle d'incertitude ± D D = ± (x p - x 1-p)/2 = ± d p /2. Sur sa longueur, P% des valeurs de la variable aléatoire (erreur) se produisent, et q = (1- P)% de leur nombre total restent en dehors de cet intervalle.

Pour obtenir une estimation d'intervalle d'une variable aléatoire normalement distribuée, il faut :

Déterminer l'estimation ponctuelle du MO x̅ et l'écart type S x de la variable aléatoire à l'aide des formules (6.8) et (6.11), respectivement ;

Trouvez les limites supérieures de x in et inférieures de x n conformément aux équations

obtenu en tenant compte de (6.1). Les valeurs de x n et x b sont déterminées à partir de tableaux de valeurs de la fonction de distribution intégrale F(t) ou de la fonction de Laplace Ф(1).

L'intervalle de confiance résultant satisfait à la condition

où n est le nombre de valeurs mesurées ; z p est l'argument de la fonction de Laplace Ф(1), correspondant à la probabilité Р/2. Dans ce cas, z p est appelé facteur quantile. La moitié de la longueur de l'intervalle de confiance est appelée la limite de confiance de l'erreur du résultat de mesure.

Exemple 6.1. 50 mesures de résistance constante ont été effectuées. Déterminez l'intervalle de confiance pour la valeur MO de résistance constante si la loi de distribution est normale avec les paramètres m x = R = 590 Ohm, S x = 90 Ohm avec une probabilité de confiance de P = 0,9.

Puisque l'hypothèse sur la normalité de la loi de distribution ne contredit pas les données expérimentales, l'intervalle de confiance est déterminé par la formule

D’où Ф(z р) = 0,45. D'après le tableau donné en annexe 1, nous constatons que z p = 1,65. L’intervalle de confiance s’écrira donc sous la forme

Ou 590 - 21< R < 590 + 21. Окончательно 509 Ом < R < 611 Ом.

Si la loi de distribution d'une variable aléatoire diffère de la normale, il est nécessaire de construire son modèle mathématique et de déterminer l'intervalle de confiance à l'aide de celui-ci.

La méthode considérée pour trouver les intervalles de confiance est valable pour un nombre suffisamment grand d'observations n, lorsque s = S x. Il ne faut pas oublier que l'estimation calculée de l'écart type S x n'est qu'une approximation de la vraie valeur de s. La détermination d'un intervalle de confiance pour une probabilité donnée s'avère d'autant moins fiable que le nombre d'observations est faible. Il est impossible d'utiliser des formules de distribution normale avec un petit nombre d'observations s'il n'est pas possible de déterminer théoriquement l'écart type sur la base d'expériences préliminaires avec un nombre suffisamment grand d'observations.

Calcul des intervalles de confiance pour le cas où la distribution des résultats d'observation est normale, mais leur variance est inconnue, c'est-à-dire avec un petit nombre d'observations n, il est possible d'effectuer en utilisant la distribution de Student S(t,k). Il décrit la densité de distribution du rapport (Fraction d'étudiant) :

où Q est la vraie valeur de la grandeur mesurée. Quantités x̅, S x. et S x ̅ sont calculés sur la base de données expérimentales et représentent des estimations ponctuelles de MO, l'écart type des résultats de mesure et l'écart type de la valeur moyenne arithmétique.

La probabilité que la fraction de Student, à la suite des observations effectuées, prenne une certaine valeur dans l'intervalle (- t p ; + t p)

où k est le nombre de degrés de liberté égal à (n - 1). Les valeurs de t p (appelées dans ce cas Coefficients d'étudiant), calculés à l'aide des deux dernières formules pour différentes valeurs de probabilité de confiance et de nombre de mesures, sont tabulés (voir tableau en annexe 1). Par conséquent, en utilisant la distribution de Student, vous pouvez trouver la probabilité que l'écart de la moyenne arithmétique par rapport à la valeur réelle de la valeur mesurée ne dépasse pas

Dans les cas où la distribution des erreurs aléatoires n'est pas normale, la distribution de Student est souvent utilisée avec une approximation dont le degré reste inconnu. La distribution de Student est utilisée pour un certain nombre de mesures n< 30, поскольку уже при n = 20, ...,30 оно переходит в нормальное и вместо уравнения (6.14) можно использовать уравнение (6.13). Результат измерения записывается в виде: ; P = Р d, où Р d est une valeur de probabilité de confiance spécifique. Le facteur t pour un grand nombre de mesures n est égal au facteur quantile z p. Pour n petit, il est égal au coefficient de Student.

Le résultat de mesure résultant n'est pas un nombre spécifique, mais représente un intervalle dans lequel, avec une certaine probabilité P d, se trouve la vraie valeur de la valeur mesurée. Mettre en évidence le milieu de l'intervalle x n'implique pas du tout que la vraie valeur en soit plus proche que des autres points de l'intervalle. Cela peut être n'importe où dans l'intervalle, et avec une probabilité 1 - Р d même en dehors de celui-ci.

Exemple 6.2. La détermination des pertes magnétiques spécifiques pour divers échantillons d'un lot d'acier électrique de nuance 2212 a donné les résultats suivants : 1,21 ; 1,17 ; 1,18 ; 1,13 ; 1,19 ; 1,14 ; 1,20 et 1,18 W/kg. En supposant qu'il n'y a pas d'erreur systématique et que l'erreur aléatoire est normalement distribuée, il est nécessaire de déterminer l'intervalle de confiance à des valeurs de probabilité de confiance de 0,9 et 0,95. Pour résoudre le problème, utilisez la formule de Laplace et la distribution de Student.

À l'aide des formules (6.8) dans (6.11), nous trouvons des estimations de la valeur moyenne arithmétique et de l'écart type des résultats de mesure. Ils sont respectivement égaux à 1,18 et 0,0278 W/kg. En supposant que l’estimation MSD est égale à l’écart lui-même, on trouve :

A partir de là, en utilisant les valeurs de la fonction de Laplace données dans le tableau de l'annexe 1, on détermine que zp= 1,65. Pour P = 0,95, coefficient z p = 1,96. Les intervalles de confiance correspondant à P = 0,9 et 0,95 sont 1,18 ± 0,016 et 1,18 ± 0,019 W/kg.

D'après le tableau en annexe 1, on constate que t 0,9 = 1,9 et t 0,95 = 2,37. Les intervalles de confiance sont donc respectivement de 1,18 ± 0,019 et 1,18 ± 0,023 W/kg.