最小二乗法 (OLS) を使用すると、ランダム誤差を含む多くの測定結果を使用して、さまざまな量を推定できます。
多国籍企業の特徴
この方法の主な考え方は、誤差の二乗和を問題解決の精度の基準として考慮し、それを最小限に抑えるよう努めることです。 この方法を使用する場合、数値的アプローチと分析的アプローチの両方を使用できます。
特に、数値的な実装として、最小二乗法には、未知の確率変数のできるだけ多くの測定値を取得することが含まれます。 さらに、計算が多ければ多いほど、解の精度は高くなります。 この一連の計算 (初期データ) に基づいて、別の一連の推定解が取得され、その中から最適な解が選択されます。 一連の解がパラメータ化されている場合、最小二乗法はパラメータの最適値を見つけることに帰着します。
初期データ (測定値) のセットと予想される解のセットに対する LSM の実装への分析的アプローチとして、特定のデータ (関数) が決定されます。これは、確認を必要とする特定の仮説として得られる式で表すことができます。 この場合、最小二乗法は、元のデータの二乗誤差のセットでこの関数の最小値を見つけることになります。
誤差そのものではなく、誤差の二乗であることに注意してください。 なぜ? 実際のところ、正確な値からの測定値の偏差はプラスにもマイナスにもなることがよくあります。 平均を求める場合、正と負の値をキャンセルすると複数の測定値をサンプリングする能力が低下するため、単純な合計は推定の品質について誤った結論につながる可能性があります。 そして結果として、評価の正確性も高まります。
これを防ぐために、偏差の 2 乗が合計されます。 さらに、測定値と最終推定値の次元を一致させるために、誤差の二乗和を抽出します。
MNC のいくつかのアプリケーション
MNCはさまざまな分野で広く使用されています。 たとえば、確率理論や数学的統計では、この方法は、確率変数の値の範囲の幅を決定する標準偏差などの確率変数の特性を決定するために使用されます。
最小二乗法
このトピックの最後のレッスンでは、最も有名なアプリケーションについて学びます。 FNP、科学や実践活動のさまざまな分野で最も広く応用されています。 これには、物理学、化学、生物学、経済学、社会学、心理学などが考えられます。 運命の意志で、私はしばしば経済に対処しなければならないので、今日はあなたのために、と呼ばれる素晴らしい国への旅行を手配します。 計量経済学=) ...欲しくないわけがない?! そこはとても良いことです。あとは決心をするだけです。 ...しかし、おそらくあなたが間違いなく望んでいることは、問題の解決方法を学ぶことです。 最小二乗法。 そして、特に勤勉な読者は、問題を正確に解決できるだけでなく、非常に早く解決できるようになります ;-) まず最初に 問題の一般的な説明+ 付随する例:
ある分野において、定量的な表現を持つ指標を研究するとします。 同時に、指標が指標に依存すると考える十分な理由があります。 この仮定は、科学的な仮説である場合もあれば、基本的な常識に基づいている場合もあります。 ただし、科学のことは脇に置いて、もっと食欲をそそる分野、つまり食料品店を探索してみましょう。 で表しましょう:
– 食料品店の小売り面積、平方メートル、
– 食料品店の年間売上高、100万ルーブル。
店舗面積が大きければ大きいほど、ほとんどの場合、売上高も大きくなるのは明らかです。
観察/実験/計算/タンバリンダンスを実行した後、自由に使える数値データがあると仮定します。
食料品店の場合、すべてが明らかだと思います。 - これは 1 番目の店舗の面積、 - その年間売上高、 - 2 番目の店舗の面積、 - 年間売上高など。 ちなみに、機密資料にアクセスする必要はまったくありません。取引高のかなり正確な評価は、次の方法で取得できます。 数学的統計。 ただし、気を散らさないようにしましょう。商業スパイコースはすでに支払い済みです =)
表形式のデータは、ポイントの形式で記述し、使い慣れた形式で表現することもできます。 デカルト座標系 .
重要な質問に答えてみましょう。 定性調査には何点必要ですか?
大きければ大きいほどいい。 最小許容セットは 5 ~ 6 点で構成されます。 また、データ量が少ない場合には、「異常な」結果をサンプルに含めることができません。 したがって、たとえば、小規模なエリート店は「その同僚」よりも桁違いに多くの収入を得ている可能性があり、それによって、見つける必要がある一般的なパターンが歪められてしまうのです。
非常に簡単に言うと、関数を選択する必要があります。 スケジュールポイントのできるだけ近くを通過する 。 この関数は呼び出されます 近似する
(近似値 - 近似値)または 理論関数
。 一般的に言えば、ここでは明らかな「候補」がすぐに現れます。それは、グラフがすべての点を通過する高次多項式です。 しかし、このオプションは複雑であり、単純に間違っていることがよくあります。 (グラフは常に「ループ」し、主要な傾向をほとんど反映していないため).
したがって、求められる関数は非常に単純であると同時に、依存関係を適切に反映している必要があります。 ご想像のとおり、このような関数を見つけるためのメソッドの 1 つは、 最小二乗法。 まず、その本質を一般的に見てみましょう。 実験データを近似する関数をいくつか考えます。
この近似の精度を評価するにはどうすればよいでしょうか? 実験値と関数値の差(偏差)も計算してみましょう。 (私たちは絵を勉強します)。 最初に思い浮かぶのは、その合計がどれくらい大きいかを見積もることですが、問題はその差がマイナスになる可能性があることです。 (例えば、 )
そして、そのような合計の結果としての偏差は互いに打ち消し合います。 したがって、近似の精度の推定値として、次の合計が求められます。 モジュール偏差:
または折りたたまれた状態: (知らない人がいる場合に備えて:
は合計アイコンであり、
– 補助「カウンター」変数。1 から 1 までの値を取ります。
)
.
実験点を異なる関数で近似することにより、異なる値が得られます。明らかに、この合計が小さいほど、その関数はより正確です。
そのようなメソッドが存在し、それは呼ばれます 最小弾性法。 しかし、実際にはそれははるかに普及しています 最小二乗法、可能性のある負の値はモジュールによってではなく、偏差を二乗することによって排除されます。
、その後、偏差の二乗和が次のような関数を選択することを目的としています。
できるだけ小さいものでした。 実際、これがメソッドの名前の由来です。
ここで、別の重要な点に戻ります。上で述べたように、選択された関数は非常に単純である必要がありますが、そのような関数も多数あります。 線形 , 双曲線 , 指数関数的 , 対数 , 二次関数 等 そしてもちろん、ここではすぐに「活動領域を縮小」したいと思います。 研究にはどのクラスの関数を選択すればよいですか? 原始的だが効果的なテクニック:
– 最も簡単な方法は点を描くことです 図面上でその位置を分析します。 直線で走る傾向がある場合は、次の点を探す必要があります。 直線の方程式
最適な値と 。 言い換えれば、タスクは、偏差の二乗和が最小になるような SUCH 係数を見つけることです。
たとえば、点が次のような位置にある場合、 誇張の場合、線形関数の近似が不十分であることは明らかです。 この場合、双曲線方程式の最も「有利な」係数を探します。 – 平方和が最小になるもの
.
どちらの場合も、次のことについて話していることに注意してください。 2 つの変数の関数、その引数は 検索された依存関係パラメーター:
そして基本的に、標準的な問題を解決する必要があります。 2 変数の最小関数.
例を思い出してください。「店舗」ポイントは直線上に配置される傾向があり、次のことを信じる十分な理由があるとします。 線形依存性小売スペースからの売上高。 偏差の二乗和が次のようになるような係数「a」と「be」を見つけてみましょう。 一番小さかったです。 すべてはいつも通りです - まずは 1階偏導関数。 によると 直線性の法則合計アイコンのすぐ下で区別できます。
この情報をエッセイや定期レポートに使用したい場合は、このような詳細な計算がいくつかの場所に記載されている情報源リストのリンクを参照してください。
標準システムを作成しましょう。
各式を「2」で減らし、さらに合計を「分解」します。
注記
: 合計アイコンを超えて「a」と「be」が取り出せる理由を独自に分析します。 ちなみに、正式にはこれは合計で行うことができます
システムを「応用」形式で書き直してみましょう。
その後、問題を解決するためのアルゴリズムが現れ始めます。
点の座標はわかっていますか? 私たちは知っています。 金額 見つけられるでしょうか? 簡単に。 最も単純なものを作りましょう 2 つの未知数における 2 つの線形方程式系(「a」と「be」)。 たとえば、次のようなシステムを解決します。 クレーマー法、その結果として静止点が得られます。 チェック中 極値の十分条件、この時点で関数が
正確に届く 最小。 このチェックには追加の計算が含まれるため、舞台裏に残しておきます。 (必要に応じて、不足しているフレームを表示できます)ここ
)
。 最終的な結論は次のとおりです。
関数 一番いい方法 (少なくとも他の線形関数と比較して)実験ポイントを近づける
。 大まかに言えば、そのグラフはこれらの点のできるだけ近くを通過します。 伝統的に 計量経済学結果の近似関数も呼ばれます 一対の線形回帰式
.
検討中の問題は実用上非常に重要です。 この例の状況では、式 取引高を予測できます (「イグレック」)店舗は何らかの値の販売面積を持っています (「x」の何らかの意味)。 はい、結果として得られる予測は単なる予測ですが、多くの場合、非常に正確であることが判明します。
難しいことはなく、すべての計算が 7 年生から 8 年生の学校のカリキュラムのレベルにあるため、「実数」の問題を 1 つだけ分析します。 95% のケースでは、一次関数だけを見つけるように求められますが、記事の最後で、最適な双曲線、指数関数、およびその他の関数の方程式を見つけることはそれほど難しくないことを示します。
実際、残っているのは、約束された特典を配布することだけです。そうすれば、そのような例題を正確に解決できるだけでなく、迅速に解決する方法を学ぶことができます。 私たちはこの規格を注意深く研究しています。
タスク
2 つの指標間の関係を研究した結果、次の数値のペアが得られました。
最小二乗法を使用して、経験的な値に最もよく近似する一次関数を見つけます。 (経験者)データ。 実験点を構築するための図面と、デカルト直交座標系の近似関数のグラフを作成します。 。 経験値と理論値の間の偏差の二乗和を求めます。 機能が改善されるかどうかを確認する (最小二乗法の観点から)実験ポイントを近づけます。
「x」の意味は自然なものであり、これには特有の意味のある意味があることに注意してください。これについては後ほど説明します。 もちろん、小数にすることもできます。 また、特定のタスクの内容によっては、「X」と「ゲーム」の両方の値が完全または部分的にマイナスになる場合があります。 さて、私たちには「顔の見えない」任務が与えられ、それを始めます 解決:
システムの解として最適な関数の係数を見つけます。
よりコンパクトに記録するために、「カウンター」変数は省略できます。これは、合計が 1 から まで実行されることがすでに明らかであるためです。
必要な金額を表形式で計算すると便利です。
計算は微電卓でも実行できますが、Excel を使用した方が速く、エラーも発生しないため、はるかに優れています。 短いビデオを見る:
したがって、次のようになります。 システム:
ここで、2 番目の式に 3 を掛けて、 最初の式から項ごとに 2 番目の式を減算します。。 しかし、これは幸運です。実際には、システムは贈り物ではないことが多く、そのような場合にはそれが節約になります。 クレーマー法:
これは、システムに独自のソリューションがあることを意味します。
確認しよう。 そうしたくないのはわかりますが、絶対に見逃してはいけないエラーをなぜスキップするのでしょうか? 見つかった解をシステムの各方程式の左辺に代入してみましょう。
対応する方程式の右辺が得られます。これは、システムが正しく解決されたことを意味します。
したがって、必要な近似関数は次のようになります。 – から すべての線形関数実験データを最もよく近似するのは彼女です。
とは異なり 真っ直ぐ
店舗の売上高の面積への依存性。検出された依存性は次のとおりです。 逆行する
(原則「多ければ多いほど少ない」)、そしてこの事実は否定的な意見によってすぐに明らかになります。 スロープ。 関数 特定のインジケーターが 1 単位増加すると、依存するインジケーターの値が減少することを示します 平均 0.65単位ずつ。 よく言われるように、ソバの価格が高くなると、ソバは売れなくなります。
近似関数をプロットするには、その 2 つの値を見つけてみましょう。
そして描画を実行します。
構築された直線を次のように呼びます。 トレンドライン
(つまり、直線的な傾向線。つまり、一般的な場合、傾向は必ずしも直線であるとは限りません)。 「トレンドに乗る」という表現は誰もがよく知っている言葉であり、この言葉について補足する必要はないと思います。
偏差の二乗和を計算してみましょう 経験値と理論値の間。 幾何学的には、これは「ラズベリー」セグメントの長さの二乗の合計です。 (そのうちの2つは小さすぎて見えません).
計算を表にまとめてみましょう。
繰り返しになりますが、念のために手動で行うこともできます。最初の点については例を示します。
しかし、すでに知られている方法でそれを行う方がはるかに効果的です。
もう一度繰り返します。 得られた結果にはどのような意味があるのでしょうか?から すべての線形関数 y関数 インジケーターは最小です。つまり、そのファミリーの中で最良の近似値です。 ちなみに、この問題の最後の疑問は偶然ではありません。提案された指数関数が次の場合はどうなるでしょうか。
実験点を近づけた方が良いでしょうか?
対応する偏差の二乗和を見つけてみましょう。区別するために、それらを「イプシロン」という文字で表します。 テクニックは全く同じです:
もう一度、念のため、最初の点の計算をします。
Excelでは標準関数を使用します 経験値 (構文は Excel ヘルプにあります).
結論: 、これは、指数関数が実験点を直線よりも悪く近似していることを意味します。 .
ただし、ここで「さらに悪い」ということに注意してください。 まだという意味ではない、 なにが問題ですか。 今、私はこの指数関数のグラフを構築しました - そしてそれはまた点の近くを通過します - 分析調査がなければ、どの関数がより正確であるかを言うのは難しいほどです。
これで解決策は終わり、議論の自然値の問題に戻ります。 さまざまな研究 (通常は経済学または社会学) では、月、年、またはその他の等しい時間間隔を表すために自然な「X」が使用されます。 たとえば、次の問題を考えてみましょう。
今年上半期の店舗の小売売上高については、次のデータが利用可能です。
分析的な直線配置を使用して、7 月の売上高を決定します.
はい、問題ありません。月に 1、2、3、4、5、6 の番号を付け、通常のアルゴリズムを使用します。その結果、方程式が得られます。唯一のことは、時間に関しては通常、 「て」という文字 (ただし、これは重要ではありません)。 結果として得られた方程式は、今年上半期の貿易売上高が平均 27.74 ユニット増加したことを示しています。 月あたり。 7月の天気予報を出してみましょう (月 7):d.e.
そして、このようなタスクは無数にあります。 ご希望の方は追加サービスをご利用いただけます。 エクセル電卓 (デモ版)、 どれの 分析された問題はほぼ瞬時に解決されます。プログラムの実用バージョンが利用可能です 引き換えにまたはのための シンボリック手数料.
レッスンの最後には、他のタイプの依存関係の検索に関する簡単な情報が表示されます。 実際のところ、基本的なアプローチと解決アルゴリズムは同じであるため、語ることはあまりありません。
実験点の配置が双曲線に似ていると仮定します。 次に、最適な双曲線の係数を見つけるには、関数の最小値を見つける必要があります。詳細な計算を実行すれば、誰でも同様のシステムに到達できます。
正式な技術的観点から見ると、それは「線形」システムから得られます。 (アスタリスクで示しましょう)「x」を に置き換えます。 さて、金額はどうでしょうか?
計算後、最適な係数「a」と「be」を計算します。 すぐ近くにある.
ポイントが信じられる十分な理由がある場合 が対数曲線に沿って配置されている場合、最適な値を見つけるために関数の最小値を見つけます。
。 正式には、システム内の (*) を次のように置き換える必要があります。
Excelで計算を行う場合は、関数を使用します。 LN。 正直に言うと、検討中のケースごとに計算機を作成するのは特に難しいことではありませんが、計算を自分で「プログラム」した方がよいでしょう。 役立つレッスンビデオ。
指数依存性の場合、状況はもう少し複雑になります。 問題を線形の場合に還元するために、関数の対数をとり、次を使用します。 対数の性質:
ここで、結果の関数を一次関数と比較すると、システム内では (*) を に、- を に置き換える必要があるという結論に達します。 便宜上、次のように表します。
この系は と に関して解決されるため、根を求めた後は係数自体を求めることを忘れないように注意してください。
実験ポイントを近づけるために 最適な放物線
、見つかるはずです 3 変数の最小関数
。 標準的なアクションを実行すると、次のような「動作」が得られます。 システム:
はい、もちろん、ここにはさらに多くの量がありますが、お気に入りのアプリケーションを使用する場合はまったく難しいことはありません。 最後に、Excel を使用して簡単にチェックを実行し、目的の傾向線を作成する方法を説明します。散布図を作成し、マウスで任意の点を選択します。 右クリックしてオプションを選択します 「トレンドラインを追加」。 次に、タブでグラフの種類を選択します。 「オプション」オプションを有効にする 「方程式を図に表示」。 わかりました
いつものように、記事を美しいフレーズで締めくくりたいと思い、思わず「トレンドに乗りましょう!」と入力しそうになりました。 しかし、彼は時間が経つにつれて考えを変えました。 それはステレオタイプだからではありません。 誰にとってはどうなのかは分かりませんが、私はアメリカ、特にヨーロッパの促進されたトレンドにはあまり乗りたくありません =) したがって、皆さんそれぞれが自分の路線を貫いてほしいと思います。
http://www.grandars.ru/student/vysshaya-matematika/metod-naimenshih-kvadratov.html
最小二乗法は、最も一般的で最も開発された方法の 1 つです。 線形計量経済モデルのパラメータを推定する方法の単純さと効率。 同時に、それを使用して構築されたモデルは、パラメータの品質に関する多くの要件を満たしていない可能性があり、その結果、プロセス開発のパターンを「適切に」反映していない可能性があるため、使用する場合はある程度の注意が必要です。十分。
最小二乗法を使用して線形計量経済モデルのパラメータを推定する手順をさらに詳しく考えてみましょう。 このようなモデルは一般に、式 (1.2) で表すことができます。
y t = a 0 + a 1 x 1t +...+ a n x nt + ε t。
パラメータ a 0 、 a 1 、...、 a n を推定するときの初期データは、従属変数の値のベクトルです y= (y 1 , y 2 , ... , y T)」および独立変数の値の行列
ここで、1 で構成される最初の列はモデル係数に対応します。
最小二乗法は、それに基づいて得られるパラメータ推定値が以下を満たさなければならないという基本原則に基づいてその名前が付けられました。 モデル誤差の二乗和は最小限である必要があります。
最小二乗法を使用した問題の解決例
例2.1。この貿易企業には 12 店舗のネットワークがあり、その活動に関する情報が表に示されています。 2.1.
企業の経営者は、年間売上高が店舗の小売面積にどのように依存するかを知りたいと考えています。
表2.1
店舗番号 | 年間売上高、100万ルーブル。 | 小売面積、千㎡ |
19,76 | 0,24 | |
38,09 | 0,31 | |
40,95 | 0,55 | |
41,08 | 0,48 | |
56,29 | 0,78 | |
68,51 | 0,98 | |
75,01 | 0,94 | |
89,05 | 1,21 | |
91,13 | 1,29 | |
91,26 | 1,12 | |
99,84 | 1,29 | |
108,55 | 1,49 |
最小二乗法による解。番目の店舗の年間売上高を 100 万ルーブルとします。 - 4 番目の店舗の小売面積、千平方メートル。
図2.1。 例 2.1 の散布図
変数間の関数関係の形式を決定するために、散布図を作成します (図 2.1)。
散布図に基づいて、年間売上高は小売スペースに正の依存性があると結論付けることができます (つまり、 が増加すると y も増加します)。 機能的な接続の最も適切な形式は次のとおりです。 線形.
さらなる計算のための情報を表に示します。 2.2. 最小二乗法を使用して、線形 1 因子計量経済モデルのパラメータを推定します。
表2.2
t | yt | ×1t | yt2 | ×1t2 | x 1t y t |
19,76 | 0,24 | 390,4576 | 0,0576 | 4,7424 | |
38,09 | 0,31 | 1450,8481 | 0,0961 | 11,8079 | |
40,95 | 0,55 | 1676,9025 | 0,3025 | 22,5225 | |
41,08 | 0,48 | 1687,5664 | 0,2304 | 19,7184 | |
56,29 | 0,78 | 3168,5641 | 0,6084 | 43,9062 | |
68,51 | 0,98 | 4693,6201 | 0,9604 | 67,1398 | |
75,01 | 0,94 | 5626,5001 | 0,8836 | 70,5094 | |
89,05 | 1,21 | 7929,9025 | 1,4641 | 107,7505 | |
91,13 | 1,29 | 8304,6769 | 1,6641 | 117,5577 | |
91,26 | 1,12 | 8328,3876 | 1,2544 | 102,2112 | |
99,84 | 1,29 | 9968,0256 | 1,6641 | 128,7936 | |
108,55 | 1,49 | 11783,1025 | 2,2201 | 161,7395 | |
S | 819,52 | 10,68 | 65008,554 | 11,4058 | 858,3991 |
平均 | 68,29 | 0,89 |
したがって、
したがって、他の条件が同じであれば、小売スペースが 1,000 平方メートル増加すると、平均年間売上高は 6,788 万 7,100 ルーブル増加します。
例2.2。同社の経営陣は、年間売上高が店舗の販売面積 (例 2.1 を参照) だけでなく、平均訪問者数にも依存することに気づきました。 関連情報を表に示します。 2.3.
表2.3
解決。 1 番目の店舗への 1 日当たりの平均訪問者数を千人として表しましょう。
変数間の関数関係の形式を決定するために、散布図を作成します (図 2.2)。
散布図に基づいて、年間売上高は 1 日あたりの平均訪問者数に正の依存性があると結論付けることができます (つまり、 が増加すると y も増加します)。 関数依存の形式は線形です。
米。 2.2. 例 2.2 の散布図
表2.4
t | ×2t | ×2t2 | yt×2t | ×1t×2t |
8,25 | 68,0625 | 163,02 | 1,98 | |
10,24 | 104,8575 | 390,0416 | 3,1744 | |
9,31 | 86,6761 | 381,2445 | 5,1205 | |
11,01 | 121,2201 | 452,2908 | 5,2848 | |
8,54 | 72,9316 | 480,7166 | 6,6612 | |
7,51 | 56,4001 | 514,5101 | 7,3598 | |
12,36 | 152,7696 | 927,1236 | 11,6184 | |
10,81 | 116,8561 | 962,6305 | 13,0801 | |
9,89 | 97,8121 | 901,2757 | 12,7581 | |
13,72 | 188,2384 | 1252,0872 | 15,3664 | |
12,27 | 150,5529 | 1225,0368 | 15,8283 | |
13,92 | 193,7664 | 1511,016 | 20,7408 | |
S | 127,83 | 1410,44 | 9160,9934 | 118,9728 |
平均 | 10,65 |
一般に、2 要素計量経済モデルのパラメータを決定する必要があります。
y t = a 0 + a 1 x 1t + a 2 x 2t + ε t
さらなる計算に必要な情報を表に示します。 2.4.
最小二乗法を使用して、線形 2 要素計量経済モデルのパラメーターを推定してみましょう。
したがって、
係数 =61.6583 の推定は、他の条件が同じであれば、小売スペースが 1,000 m 2 増加すると、年間売上高が平均 6,165 万 8300 ルーブル増加することを示しています。
係数推定値 = 2.2748 は、他の条件が同じであれば、1,000 人あたりの平均訪問者数が増加していることを示しています。 1 日当たりの年間売上高は平均 227 万 4800 ルーブル増加します。
例2.3。表に示されている情報を使用します。 2.2 および 2.4、1 要素計量経済モデルのパラメータを推定する
ここで、 は 1 番目の店舗の年間売上高の中心値、100 万ルーブルです。 - t 番目の店舗への 1 日の平均訪問者数の中心値 (1,000 人)。 (例 2.1 ~ 2.2 を参照)。
解決。計算に必要な追加情報を表に示します。 2.5.
表2.5
-48,53 | -2,40 | 5,7720 | 116,6013 | |
-30,20 | -0,41 | 0,1702 | 12,4589 | |
-27,34 | -1,34 | 1,8023 | 36,7084 | |
-27,21 | 0,36 | 0,1278 | -9,7288 | |
-12,00 | -2,11 | 4,4627 | 25,3570 | |
0,22 | -3,14 | 9,8753 | -0,6809 | |
6,72 | 1,71 | 2,9156 | 11,4687 | |
20,76 | 0,16 | 0,0348 | 3,2992 | |
22,84 | -0,76 | 0,5814 | -17,413 | |
22,97 | 3,07 | 9,4096 | 70,4503 | |
31,55 | 1,62 | 2,6163 | 51,0267 | |
40,26 | 3,27 | 10,6766 | 131,5387 | |
額 | 48,4344 | 431,0566 |
式 (2.35) を使用すると、次のようになります。
したがって、
http://www.cleverstudents.ru/articles/mnk.html
例。
変数の値に関する実験データ バツそして でを表に示します。
それらを整列させた結果、次のような機能が得られます。
使用する 最小二乗法、これらのデータを線形依存によって近似します。 y=ax+b(パラメータを見つける あそして b)。 2 つの線のどちらが (最小二乗法の意味で) 実験データをより適切に位置合わせしているかを見つけます。 図面を作成します。
解決。
私たちの例では n=5。 必要な係数の式に含まれる量を計算する便宜のために、表に記入します。
表の4行目の値は、各数値ごとに2行目の値と3行目の値を乗算して得られます。 私.
表の 5 行目の値は、各数値の 2 行目の値を 2 乗することで得られます。 私.
表の最後の列の値は、各行の値の合計です。
最小二乗法の公式を使用して係数を見つけます あそして b。 テーブルの最後の列の対応する値をそれらに代入します。
したがって、 y = 0.165x+2.184- 目的の近似直線。
どの行を見つけるかはまだ残っています y = 0.165x+2.184または 元のデータをより適切に近似します。つまり、最小二乗法を使用して推定を行います。
証拠。
見つかったときに あそして b関数が最小値をとる場合、この時点で関数の 2 次微分の 2 次形式の行列が次のようになっている必要があります。 は正定でした。 見せてみましょう。
2 次微分の形式は次のとおりです。
あれは
したがって、二次形式の行列は次の形式になります。
そして要素の値は依存しません あそして b.
行列が正定値であることを示しましょう。 これを行うには、マイナー角度が正でなければなりません。
一次のマイナー角度 。 点があるため、不等式は厳密です。
これは、パラメーターの明確な経済的解釈の形で計量経済学で広く使用されています。
線形回帰は、結局次の形式の方程式を見つけることになります。
または
次の形式の方程式 指定されたパラメータ値に基づいて許可します バツ結果として得られる特性の理論値を持ち、それに係数の実際の値を代入します バツ.
線形回帰の構築は、結局そのパラメータを推定することになります。 あそして V.線形回帰パラメータ推定値は、さまざまな方法を使用して求めることができます。
線形回帰パラメータを推定するための古典的なアプローチは、以下に基づいています。 最小二乗法(MNC)。
最小二乗法を使用すると、このようなパラメータ推定値を取得できます。 あそして V、結果として得られる特性の実際の値の偏差の二乗の合計 (y)計算(理論的)から 最小:
関数の最小値を見つけるには、各パラメーターの偏導関数を計算する必要があります。 あそして bそしてそれらをゼロに設定します。
と表しましょう S を経由すると、次のようになります。
式を変形すると、パラメータを推定するための次の正規方程式系が得られます。 あそして V:
変数の逐次消去法または行列式のいずれかによって連立正規方程式 (3.5) を解くと、パラメーターの必要な推定値が見つかります。 あそして V.
パラメータ V回帰係数と呼ばれます。 その値は、係数の 1 単位の変化に伴う結果の平均変化を示します。
回帰式には、接続の近さを示す指標が常に追加されます。 線形回帰を使用する場合、そのような指標は線形相関係数です。 線形相関係数の式にはさまざまな修正があります。 その一部を以下に示します。
知られているように、線形相関係数は -1 の範囲内にあります。 ≤ ≤ 1.
一次関数の選択の品質を評価するために、二乗が計算されます。
と呼ばれる線形相関係数 決定係数。決定係数は、結果として得られる特性の分散の割合を特徴付けます。 そう、結果として得られる形質の合計分散における回帰によって説明されます。
したがって、値 1 は分散のシェアを特徴付けます。 そう、モデルでは考慮されていない他の要因の影響によって引き起こされます。
自制心を養うための質問
1. 最小二乗法の本質とは?
2. ペアワイズ回帰では変数がいくつ提供されますか?
3. 変更間の関係の近さを決定する係数は何ですか?
4. 決定係数はどの範囲内で決定されますか?
5. 相関回帰分析におけるパラメータ b の推定?
1. クリストファー・ドハティ。 計量経済学の入門。 - M.: INFRA - M、2001 - 402 p.
2.SA ボロディッチ。 計量経済学。 ミンスクLLC「新しい知識」2001年。
3.R.U. ラクメトワ 計量経済学の短期コース。 チュートリアル。 アルマトイ。 2004年。-78p。
4.I.I. エリセーヴァ。計量経済学。 - M.: 「金融と統計」、2002
5. 月刊情報・分析誌。
非線形経済モデル。 非線形回帰モデル。 変数の変換。
非線形経済モデル..
変数の変換。
弾性係数。
経済現象間に非線形関係がある場合、それらは対応する非線形関数 (たとえば、等辺双曲線) を使用して表現されます。 ,
2次放物線
や。。など。
非線形回帰には 2 つのクラスがあります。
1. 分析に含まれる説明変数に関しては非線形ですが、推定パラメーターに関しては線形である回帰。たとえば、次のとおりです。
さまざまな次数の多項式 - , ;
等辺双曲線 - ;
片対数関数 - 。
2. 推定されるパラメータの非線形回帰。例:
力 - ;
実証的 - ;
指数関数的 - 。
結果として得られる特性の個々の値の偏差の二乗の合計和 で平均値からの変化は、さまざまな要因の影響によって引き起こされます。 一連の理由全体を条件付きで 2 つのグループに分けてみましょう。 研究中の因子 xそして 他の要因。
要因が結果に影響を与えない場合、グラフ上の回帰直線は軸に平行になります。 おおそして
その場合、結果として得られる特性の分散全体は他の要因の影響によるものであり、偏差の二乗和の合計は残差と一致します。 他の要因が結果に影響を与えない場合は、 結んだと バツ関数的には、残差二乗和はゼロになります。 この場合、回帰によって説明される偏差の二乗和は二乗和の合計と同じになります。
相関フィールドのすべての点が回帰直線上にあるわけではないため、係数の影響の結果としてそれらの散乱が常に発生します。 バツ、つまり回帰 でによる バツ、および他の原因によって引き起こされるもの(説明できない変動)。 回帰直線が予測に適しているかどうかは、形質の変動全体のどの部分を占めるかによって決まります。 で説明された変動を説明する
明らかに、回帰による偏差の二乗和が残差二乗和より大きい場合、回帰式は統計的に有意であり、係数は バツ結果に大きな影響を与える あなた。
, つまり、特性の独立した変動の自由度を伴います。 自由度の数は、母集団の単位数 n と、そこから決定される定数の数に関係します。 研究中の問題に関連して、自由度の数は、 P
回帰式全体の重要性の評価は、次の式を使用して与えられます。 F-フィッシャー基準。 この場合、回帰係数がゼロに等しいという帰無仮説が立てられます。 b = 0、したがって因数 バツ結果には影響しません あなた。
F 検定の即時計算の前に分散分析が行われます。 その中心は、変数の平方偏差の総和の分解によって占められます。 で平均値から で「説明されたもの」と「説明されていないもの」の 2 つの部分に分けられます。
- 偏差の二乗合計。
- 回帰によって説明される偏差の二乗和。
- 平方偏差の残差和。
偏差の二乗和は自由度の数に関係します , つまり、特性の独立した変動の自由度を伴います。 自由度の数は人口単位の数に関係します nそしてそこから定数の数が決まります。 研究中の問題に関連して、自由度の数は、 P与えられた平方和を形成するために必要な可能性があります。
自由度ごとの分散D.
F 比 (F 検定):
帰無仮説が正しい場合の場合、因子分散と残差分散は互いに異なりません。 H 0 については、因子分散が残留分散を数倍上回るため、反駁が必要です。 英国の統計学者スネデコールは臨界値の表を作成しました F-帰無仮説の重要性の異なるレベルおよび自由度の異なる数での関係。 テーブル値 F-criterion は、帰無仮説が存在する確率の特定のレベルでランダムな発散が発生した場合に発生する可能性のある分散比の最大値です。 計算値 F- o が表より大きい場合、関係は信頼できると見なされます。
この場合、記号間に関係がないという帰無仮説は棄却され、この関係の重要性について結論が導き出されます。 F ファクト > F テーブル H 0 は拒否されます。
値が表に示されている値より小さい場合 F 事実 ‹、F テーブルの場合、帰無仮説の確率は指定されたレベルよりも高く、関係の存在について誤った結論を導き出す重大なリスクなしに棄却することはできません。 この場合、回帰式は統計的に有意ではないと考えられます。 しかし彼は逸脱しない。
回帰係数の標準誤差
回帰係数の有意性を評価するには、その値が標準誤差と比較されます。つまり、実際の値が決定されます。 t-生徒のテスト: 次に、これが特定の有意水準および自由度でテーブルの値と比較されます ( n- 2).
標準パラメータエラー あ:
線形相関係数の有意性は誤差の大きさに基づいてチェックされます。 相関係数 t r:
特性の差異の合計 バツ:
重線形回帰
モデル構築
重回帰 2 つ以上の因子による有効な特性の回帰を表します。つまり、次の形式のモデルです。
研究対象に影響を与える他の要因の影響を無視できる場合、回帰はモデリングで良好な結果をもたらします。 個々の経済変数の挙動は制御できません。つまり、研究対象の 1 つの要因の影響を評価するための他のすべての条件の平等を保証することはできません。 この場合、他の要因をモデルに導入してその影響を特定する必要があります。つまり、重回帰方程式を構築する必要があります。 y = a+b 1 x 1 +b 2 +…+b p x p + .
重回帰の主な目的は、多数の要因を含むモデルを構築し、同時に、モデル化された指標に対する各要因の影響とそれらを組み合わせた影響を個別に判断することです。 モデルの仕様には、因子の選択と回帰式の種類の選択という 2 つの範囲の問題が含まれます。
最小二乗法
最小二乗法 ( OLS、OLS、通常最小二乗法) - サンプルデータを使用して回帰モデルの未知のパラメータを推定するための回帰分析の基本的な方法の 1 つ。 この方法は、回帰残差の二乗和を最小化することに基づいています。
最小二乗法自体は、解が必要な変数のいくつかの関数の二乗和を最小化するための基準内にある、または満たしている場合、任意の領域の問題を解決するための方法と呼ぶことができることに注意してください。 したがって、最小二乗法は、方程式または制約を満たす数量の数がこれらの数量の数を超える場合に、他の (より単純な) 関数による特定の関数の近似表現 (近似) にも使用できます。 、など。
MNCの本質
(説明された) 変数間の確率的 (回帰) 関係の (パラメトリック) モデルが与えられるとします。 yおよび多くの要因 (説明変数) バツ
ここで、 は未知のモデルパラメータのベクトルです
- ランダムなモデルエラー。これらの変数の値のサンプル観察もあるとしましょう。 観測番号()とする。 次に、 番目の観測値の変数の値です。 次に、パラメーター b の特定の値に対して、被説明変数 y の理論 (モデル) 値を計算できます。
残差のサイズはパラメータの値に依存します。 b.
最小二乗法 (通常、古典的) の本質は、残差の二乗和が求められるパラメーター b を見つけることです (eng. 残差二乗和) は最小限になります:
一般に、この問題は数値最適化 (最小化) 手法によって解決できます。 この場合、彼らは次のように話します 非線形最小二乗(NLS または NLLS - 英語) 非線形最小二乗法)。 多くの場合、分析的な解決策を得ることが可能です。 最小化問題を解決するには、関数を未知のパラメーター b に関して微分し、導関数をゼロに等しくして、結果として得られる連立方程式を解くことにより、関数の静止点を見つける必要があります。
モデルのランダム誤差が正規分布し、同じ分散を持ち、相関関係がない場合、OLS パラメーター推定値は最尤推定値 (MLM) と同じになります。
線形モデルの場合の OLS
回帰依存性が線形であるとします。
させて yは被説明変数の観測値の列ベクトル、因子観測値の行列です (行列の行は特定の観測値の因子値のベクトル、列は特定の因子の値のベクトルです)すべての観察において)。 線形モデルの行列表現は次のとおりです。
この場合、被説明変数の推定値のベクトルと回帰残差のベクトルは等しくなります。
したがって、回帰残差の二乗和は次のようになります。
この関数をパラメータのベクトルに関して微分し、導関数をゼロとみなすと、連立方程式 (行列形式) が得られます。
.この方程式系の解は、線形モデルの最小二乗推定の一般式を与えます。
分析目的には、この式の後者の表現が役立ちます。 回帰モデルの場合、データは 中心にある、この表現では、最初の行列は因子のサンプル共分散行列の意味を持ち、2 番目は従属変数を持つ因子の共分散のベクトルです。 さらにデータも 正規化された MSE まで (つまり、最終的には 標準化された) の場合、最初の行列は因子のサンプル相関行列の意味を持ち、2 番目のベクトルは従属変数と因子のサンプル相関のベクトルを意味します。
モデルの OLS 推定の重要な特性 定数付き- 構築された回帰直線はサンプル データの重心を通過します。つまり、等式が満たされます。
特に、唯一の回帰変数が定数である極端なケースでは、唯一のパラメーター (定数自体) の OLS 推定値が被説明変数の平均値に等しいことがわかります。 つまり、大数の法則から優れた特性があることで知られる算術平均も最小二乗推定値であり、最小二乗偏差の和の基準を満たします。
例: 最も単純な (ペアワイズ) 回帰
一対線形回帰の場合、計算式は簡略化されます (行列代数を使用せずに実行できます)。
OLS 推定器のプロパティ
まず第一に、線形モデルの場合、上記の式からわかるように、OLS 推定値は線形推定値であることに注意してください。 不偏 OLS 推定の場合、回帰分析の最も重要な条件を満たすことが必要かつ十分です。つまり、因子を条件としたランダム誤差の数学的期待値がゼロに等しくなければなりません。 特に、この条件は次の場合に満たされます。
- ランダム誤差の数学的期待はゼロであり、
- 因子と確率誤差は独立した確率変数です。
2 番目の条件、つまり要因の外生性の条件は、基本的なものです。 この特性が満たされない場合、ほとんどすべての推定値が非常に不満足なものになると想定できます。つまり、一貫性すらありません (つまり、この場合、非常に大量のデータがあっても高品質の推定値を取得することはできません)。 )。 古典的なケースでは、ランダムな誤差とは対照的に、因子の決定性についてより強力な仮定が立てられ、これは自動的に外生性条件が満たされていることを意味します。 一般的なケースでは、推定値の一貫性を確保するには、サンプル サイズが無限大に増加するにつれて行列が何らかの非特異行列に収束することと併せて、外因性条件を満たすだけで十分です。
一貫性と不偏性に加えて、(通常の) 最小二乗推定も有効である (線形不偏推定のクラスで最高) ためには、ランダム誤差の追加の特性を満たす必要があります。
これらの仮定は、ランダム誤差ベクトルの共分散行列に対して定式化できます。
これらの条件を満たす線形モデルを次のように呼びます。 古典的な。 古典的線形回帰の OLS 推定値は、不偏で一貫性があり、すべての線形不偏推定のクラスの中で最も効果的な推定値です (英語の文献では、この略語が使用されることもあります) 青 (最高の線形不公平推定器) - 最良の線形不偏推定値。 ロシア文学では、ガウス・マルコフの定理がより頻繁に引用されます。 簡単に示すことができるように、係数推定値のベクトルの共分散行列は次と等しくなります。
汎用OLS
最小二乗法により、広範な一般化が可能になります。 残差の二乗和を最小化する代わりに、残差ベクトルの正定二次形式を最小化することができます。ここで、 は対称正定重み行列です。 従来の最小二乗法はこのアプローチの特殊なケースであり、重み行列が単位行列に比例します。 対称行列 (または演算子) の理論から知られているように、そのような行列には分解が存在します。 したがって、指定された関数は次のように表すことができます。つまり、この関数は、いくつかの変換された「剰余」の二乗和として表すことができます。 したがって、最小二乗法のクラス、つまり LS 法 (最小二乗法) を区別できます。
一般化線形回帰モデル (ランダム誤差の共分散行列に制限が課されていない) では、(線形不偏推定のクラスで) 最も効果的なのはいわゆる推定であることが証明されています (エイトケンの定理)。 一般化最小二乗法 (GLS - 一般化最小二乗法)- ランダム誤差の逆共分散行列に等しい重み行列を使用する LS メソッド: 。
線形モデルのパラメーターの GLS 推定の式は次の形式であることがわかります。
したがって、これらの推定値の共分散行列は次のようになります。
実際、OLS の本質は、元のデータの特定の (線形) 変換 (P) と、変換されたデータへの通常の OLS の適用にあります。 この変換の目的は、変換されたデータのランダム誤差がすでに古典的な仮定を満たしていることです。
加重OLS
対角重み行列 (したがってランダム誤差の共分散行列) の場合、いわゆる重み付き最小二乗法 (WLS) が得られます。 この場合、モデル残差の重み付き二乗和は最小化されます。つまり、各観測値は、この観測値のランダム誤差の分散に反比例する「重み」を受け取ります。 実際、データは観測値に重み付け (確率誤差の推定標準偏差に比例する量で除算) することによって変換され、通常の OLS が重み付けされたデータに適用されます。
実際に MNC を使用するいくつかの特殊なケース
線形依存性の近似
特定のスカラー量に対する特定のスカラー量の依存性を調べた結果、次のような場合を考えてみましょう (これは、たとえば、電流強度に対する電圧の依存性です。 、ここで、 は定数値、抵抗は導体)、これらの量の測定が実行され、その結果、値とそれに対応する値が得られました。 測定データは表に記録する必要があります。
テーブル。 測定結果。
測定番号 | ||
---|---|---|
1 | ||
2 | ||
3 | ||
4 | ||
5 | ||
6 |
問題は、依存関係を最もよく表すためにどのような係数の値を選択できるかということです。 最小二乗法によれば、この値は、値からの値の二乗偏差の合計が次のようになります。
最小限でした
偏差の二乗和には極値が 1 つあり、これによりこの式を使用できるようになります。 この式から係数の値を求めてみましょう。 これを行うには、その左側を次のように変換します。
最後の式を使用すると、問題で必要とされた係数の値を見つけることができます。
話
19世紀初頭まで。 科学者は、未知数の数が方程式の数よりも少ない方程式系を解くための特定のルールを持っていませんでした。 それまでは、方程式の種類と計算者の機知に依存する民間の手法が使用されていたため、同じ観測データに基づいても、計算者が異なれば異なる結論が得られました。 ガウス (1795 年) がこの方法を最初に使用し、ルジャンドル (1805 年) が独自にそれを発見し、現代の名前 (フランス語) で発表しました。 採掘方法 )。 ラプラスはこの方法を確率論に関連付け、アメリカの数学者アドレイン (1808 年) はその確率論的応用を検討しました。 この方法は、エンケ、ベッセル、ハンセンらによるさらなる研究によって広く普及し、改良されました。
OLS の別の使用法
最小二乗法の考え方は、回帰分析に直接関係しない他の場合にも使用できます。 実際、二乗和はベクトルの最も一般的な近接尺度 (有限次元空間におけるユークリッド計量) の 1 つです。
アプリケーションの 1 つは、方程式の数が変数の数よりも多い連立一次方程式の「解」です。
ここで、行列は正方形ではなく、サイズ の長方形です。
このような連立方程式は、一般の場合、解がありません (ランクが実際に変数の数より大きい場合)。 したがって、この系は、ベクトル と の間の「距離」を最小にするようなベクトルを選択するという意味でのみ「解決」できます。 これを行うには、システム方程式の左辺と右辺の差の二乗和を最小化するという基準を適用できます。 この最小化問題を解くことが、次の方程式系を解くことにつながることを示すのは簡単です。
平準化後、次の形式の関数が得られます: g (x) = x + 1 3 + 1 。
対応するパラメーターを計算することで、線形関係 y = a x + b を使用してこのデータを近似できます。 これを行うには、いわゆる最小二乗法を適用する必要があります。 また、どの線が実験データに最もよく一致するかを確認するために図面を作成する必要もあります。
Yandex.RTB R-A-339285-1
OLS(最小二乗法)とは何ですか?
私たちがしなければならない主なことは、2 つの変数の関数 F (a, b) = ∑ i = 1 n (y i - (a x i + b)) 2 となる線形依存係数を見つけることです。最小。 言い換えれば、a と b の特定の値について、結果として得られる直線からの提示されたデータの偏差の二乗の合計は最小値になります。 これが最小二乗法の意味です。 この例を解くために必要なのは、2 つの変数の関数の極値を見つけることだけです。
係数を計算するための式を導出する方法
係数を計算するための式を導出するには、2 つの変数を含む連立方程式を作成して解く必要があります。 これを行うには、式 F (a, b) = ∑ i = 1 n (y i - (a x i + b)) 2 の偏導関数を a と b に関して計算し、それらを 0 と同等とします。
δ F (a , b) δ a = 0 δ F (a , b) δ b = 0 ⇔ - 2 ∑ i = 1 n (y i - (a x i + b)) x i = 0 - 2 ∑ i = 1 n ( y i - (a x i + b)) = 0 ⇔ a ∑ i = 1 n x i 2 + b ∑ i = 1 n x i = ∑ i = 1 n x i y i a ∑ i = 1 n x i + ∑ i = 1 n b = ∑ i = 1 n y i ⇔ a ∑ i = 1 n x i 2 + b ∑ i = 1 n x i = ∑ i = 1 n x i y i a ∑ i = 1 n x i + n b = ∑ i = 1 n y i
連立方程式を解くには、代入法やクラマー法などの任意の方法を使用できます。 その結果、最小二乗法を使用して係数を計算するために使用できる式が得られるはずです。
n ∑ i = 1 n x i y i - ∑ i = 1 n x i ∑ i = 1 n y i n ∑ i = 1 n - ∑ i = 1 n x i 2 b = ∑ i = 1 n y i - a ∑ i = 1 n x i n
関数が適用される変数の値を計算しました。
F (a , b) = ∑ i = 1 n (y i - (a x i + b)) 2 は最小値をとります。 3 番目の段落では、なぜこのようになるのかを証明します。
これは実際の最小二乗法の適用です。 パラメーター a を見つけるために使用されるその式には、パラメーターのほかに、∑ i = 1 n x i、∑ i = 1 n y i、∑ i = 1 n x i y i、∑ i = 1 n x i 2 が含まれます。
n – 実験データの量を表します。 それぞれの金額を個別に計算することをお勧めします。 係数 b の値は a の直後に計算されます。
元の例に戻りましょう。
例1
ここで、n は 5 になります。 係数式に含まれる必要量を計算しやすくするために、表に記入してみましょう。
i=1 | i=2 | i = 3 | i=4 | i=5 | ∑ i = 1 5 | |
x i | 0 | 1 | 2 | 4 | 5 | 12 |
はい、私 | 2 , 1 | 2 , 4 | 2 , 6 | 2 , 8 | 3 | 12 , 9 |
x i y i | 0 | 2 , 4 | 5 , 2 | 11 , 2 | 15 | 33 , 8 |
x i 2 | 0 | 1 | 4 | 16 | 25 | 46 |
解決
4 番目の行には、各 i の 2 番目の行の値と 3 番目の行の値を乗算して得られたデータが含まれます。 5 行目には 2 番目の二乗データが含まれています。 最後の列には、個々の行の値の合計が表示されます。
最小二乗法を使用して、必要な係数 a と b を計算してみましょう。 これを行うには、最後の列の必要な値を代入し、金額を計算します。
n ∑ i = 1 n x i y i - ∑ i = 1 n x i ∑ i = 1 n y i n ∑ i = 1 n - ∑ i = 1 n x i 2 b = ∑ i = 1 n y i - a ∑ i = 1 n x i n ⇒ a = 5 33, 8 - 12 12、9 5 46 - 12 2 b = 12、9 - a 12 5 ⇒ a ≈ 0, 165 b ≈ 2, 184
必要な近似直線は y = 0, 165 x + 2, 184 となることがわかります。 次に、どの直線がデータをよりよく近似するかを判断する必要があります - g (x) = x + 1 3 + 1 または 0、165 x + 2、184。 最小二乗法を使って推定してみましょう。
誤差を計算するには、直線 σ 1 = ∑ i = 1 n (y i - (a x i + b i)) 2 および σ 2 = ∑ i = 1 n (y i) からのデータの二乗偏差の合計を見つける必要があります。 - g (x i)) 2、最小値はより適切なラインに対応します。
σ 1 = ∑ i = 1 n (y i - (a x i + b i)) 2 = = ∑ i = 1 5 (y i - (0, 165 x i + 2, 184)) 2 ≈ 0, 019 σ 2 = ∑ i = 1 n (y i - g (x i)) 2 = = ∑ i = 1 5 (y i - (x i + 1 3 + 1)) 2 ≈ 0.096
答え:σ 1 以降< σ 2 , то прямой, наилучшим образом аппроксимирующей исходные данные, будет
y = 0.165 x + 2.184。
最小二乗法は図解で明確に示されています。 赤い線は直線 g (x) = x + 1 3 + 1 を示し、青い線は y = 0, 165 x + 2, 184 を示します。 元のデータはピンクの点で示されます。
このタイプの近似が正確に必要な理由を説明しましょう。
これらは、データの平滑化が必要なタスクや、データの内挿または外挿が必要なタスクで使用できます。 たとえば、上で説明した問題では、x = 3 または x = 6 での観測量 y の値を見つけることができます。 そのような例については別の記事で取り上げています。
OLS手法の証明
a と b を計算するときに関数が最小値をとるためには、特定の点で、形式 F (a, b) = ∑ i = の関数の微分の 2 次形式の行列が成立する必要があります。 1 n (y i - (a x i + b)) 2 は正定値です。 どのように見えるべきかを見てみましょう。
例 2
次の形式の 2 階微分があります。
d 2 F (a ; b) = δ 2 F (a ; b) δ a 2 d 2 a + 2 δ 2 F (a ; b) δ a δ b d a d b + δ 2 F (a ; b) δ b 2 d 2b
解決
δ 2 F (a ; b) δ a 2 = δ δ F (a ; b) δ a δ a = = δ - 2 ∑ i = 1 n (y i - (a x i + b)) x i δ a = 2 ∑ i = 1 n (x i) 2 δ 2 F (a; b) δ a δ b = δ δ F (a; b) δ a δ b = = δ - 2 ∑ i = 1 n (y i - (a x i + b) ) x i δ b = 2 ∑ i = 1 n x i δ 2 F (a ; b) δ b 2 = δ δ F (a ; b) δ b δ b = δ - 2 ∑ i = 1 n (y i - (a x i + b)) δ b = 2 ∑ i = 1 n (1) = 2 n
つまり、次のように書くことができます: d 2 F (a ; b) = 2 ∑ i = 1 n (x i) 2 d 2 a + 2 2 ∑ x i i = 1 n d a d b + (2 n) d 2 b。
二次形式の行列 M = 2 ∑ i = 1 n (x i) 2 2 ∑ i = 1 n x i 2 ∑ i = 1 n x i 2 n を取得しました。
この場合、個々の要素の値は a と b に応じて変化しません。 この行列は正定行列ですか? この質問に答えるために、角度マイナーが正であるかどうかを確認してみましょう。
1 次のマイナー角度を計算します: 2 ∑ i = 1 n (x i) 2 > 0 。 点 x i は一致しないため、不等式は厳密です。 今後の計算ではこの点に留意していきます。
二次角のマイナーを計算します。
d e t (M) = 2 ∑ i = 1 n (x i) 2 2 ∑ i = 1 n x i 2 ∑ i = 1 n x i 2 n = 4 n ∑ i = 1 n (x i) 2 - ∑ i = 1 n x i 2
この後、数学的帰納法を使用して不等式 n ∑ i = 1 n (x i) 2 - ∑ i = 1 n x i 2 > 0 を証明します。
- この不等式が任意の n に対して妥当かどうかを確認してみましょう。 2 を計算してみましょう。
2 ∑ i = 1 2 (x i) 2 - ∑ i = 1 2 x i 2 = 2 x 1 2 + x 2 2 - x 1 + x 2 2 = = x 1 2 - 2 x 1 x 2 + x 2 2 = × 1 + × 2 2 > 0
正しい等価性が得られました (値 x 1 と x 2 が一致しない場合)。
- この不等式が n に対して当てはまると仮定しましょう。つまり、 n ∑ i = 1 n (x i) 2 - ∑ i = 1 n x i 2 > 0 – 真。
- ここで、n + 1 の妥当性を証明します。つまり、 (n + 1) ∑ i = 1 n + 1 (x i) 2 - ∑ i = 1 n + 1 x i 2 > 0、n ∑ i = 1 n (x i) 2 - ∑ i = 1 n x i 2 > 0 の場合。
計算します:
(n + 1) ∑ i = 1 n + 1 (x i) 2 - ∑ i = 1 n + 1 x i 2 = = (n + 1) ∑ i = 1 n (x i) 2 + x n + 1 2 - ∑ i = 1 n x i + x n + 1 2 = = n ∑ i = 1 n (x i) 2 + n x n + 1 2 + ∑ i = 1 n (x i) 2 + x n + 1 2 - - ∑ i = 1 n x i 2 + 2 x n + 1 ∑ i = 1 n x i + x n + 1 2 = = ∑ i = 1 n (x i) 2 - ∑ i = 1 n x i 2 + n x n + 1 2 - x n + 1 ∑ i = 1 n x i + ∑ i = 1 n (x i) 2 = = ∑ i = 1 n (x i) 2 - ∑ i = 1 n x i 2 + x n + 1 2 - 2 x n + 1 x 1 + x 1 2 + + x n + 1 2 - 2 x n + 1 × 2 + × 2 2 + 。 。 。 + x n + 1 2 - 2 x n + 1 x 1 + x n 2 = = n ∑ i = 1 n (x i) 2 - ∑ i = 1 n x i 2 + + (x n + 1 - x 1) 2 + (x n + 1 - x 2) 2 + 。 。 。 + (x n - 1 - x n) 2 > 0
中括弧で囲まれた式は 0 より大きくなり (ステップ 2 での仮定に基づく)、残りの項はすべて数値の 2 乗であるため、0 より大きくなります。 私たちは不等式を証明しました。
答え:見つかった a と b は、関数 F (a, b) = ∑ i = 1 n (y i - (a x i + b)) 2 の最小値に対応します。これは、それらが最小二乗法の必須パラメーターであることを意味します。 (LSM)。
テキスト内のエラーに気付いた場合は、それを強調表示して Ctrl+Enter を押してください。
インスタントキャベツ片:ニンジンとビーツのピクルスレシピ
ズッキーニのレモンとオレンジのジャム
精神疾患を持つ人を助けるための対策 - 現代科学は何を提供しますか?
テーマに関するプレゼンテーション: 東部の州
被子植物の特徴