markdown 统计词汇
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了markdown 统计词汇相关的知识,希望对你有一定的参考价值。
# 統計用語と数学
- 基礎
- 階級: 度数を集計するための区間の大きさ
- 度数: データの個数
- 最頻値: `df["absences"].mode()[0])`
- 分散: 値が0に近いほど散らばってないと言える
- `df["absences"].var()`
- 標準偏差(σシグマ): バラツキの大きさ
- `df["absences"].std()`
- 正規分布: 左右対称な釣り鐘型の分布を指す。
- 物理世界に当てはめやすい?、3σ法などで外れ値を除去しやすい(尤もなHighとLowを決めることができる)
- 3σ法: 外れ値を判定する方法。平均から3σの外にある値を外れ値とする。(正規分布に従っていることが前提)
- 正規化/標準化/スケーリング: 重回帰分析など、複数の変数を扱う際に変数のスケールを合わせること。
平均値をゼロ、標準偏差を1のスケールに変換。
- ※スケーリングしても、1を超える値もあることに注意
- 微分: 傾き(a:回帰係数)を求める
- 「aの2乗をaで微分」 = 2a
- 「aをaで微分」 = 1
- 「1をaで微分」 = 0
- 偏微分: 多変数の微分
- `roud_d / round_d * a (X)` = 「Xをaで微分する」
- 共分散: 2変数の関係性を見るための指標だが、スケールが異なるものなのでこれだけでは比較できないらしい
- `np.cov(df["X"], df["Y"])`
- 分類問題: クラス分け (例: 犬 or 猫)
- 回帰問題: 数値の予測
- 係数
- 変動係数: 標準偏差と同様でバラツキを示す。標準偏差を平均で割っているので、スケールが異なるもの同士を比較可能
- `df.std() / df.mean()`
- 相関係数: スケールの影響を受けずに2つの変数の関係を数値化したもの.1に近ければ正の相関、-1に近ければ負の相関
- `df.corr()` or `sp.stats.pearsonr(df["X"], df["Y"])`
- 決定係数: 正解率?
- `m.score(X_test, y_test)`
- 回帰係数(a)
- グラフ
- 散布図: 相関関係を調べる。
- ヒストグラム: 正規分布にしたがっているか、度数分布の傾向を確認する
- 箱ひげ図 : データのバラツキを確認する。 ※ 外れ値は箱として表示されない
- 線形代数
- スカラー(変数)・・・小細字
- スカラー(定数)・・・大細字
- ベクトル(縦向き配列)・・・小太字
- 行列(多次元配列)・・・大太字
- 行列の足し引きはサイズ(行 * 列)が同じものに限る
- 行列の掛け算: A(列:N1,行:R1) * B(列:N2,行:R2) = C(行:N1, 列:R2)
- サイズ感(以下、小文字はベクトル、大文字は行列と読み解く)
- xTy = スカラー
- Xy = ベクトル
- xTAy = スカラー
- 転置(`df.T`): ある行列の行と列を入れ替えること。逆行列を求めるために転置する
- ある行列Xと転置Xを掛けると正方行列になる
- (AT)T = A
- (AB)T = BTAT
- 逆行列: ある行列と掛けると`[1, 0 ..,0],[0, 1,..0],[..`になる行列のこと。ある行列は正方行列であることが必須
- 機械学習
- 教師あり学習: 説明変数から目的変数を予測するモデル
- 教師なし学習: 目的変数は無く、データのパターンや示唆を見出す手法
- 教師あり学習
- 中分類
- 回帰(regression): 目的変数が数値
- 分類(classfication): 目的変数がカテゴリ
- アルゴリズム一覧(回帰と分類の量で使われることに注意)
- 重回帰(multiple linear regression):
- ロジスティック回帰(logisitc regression):
- k近傍法(k-Neares Neighbors):
- 決定機(Decison Tree):
- SVM
- ランダムフォレスト(Random Forest)
- 勾配ブースティング(Gradient Boosting)
- 教師なし学習
- 中分類
- クラスタリング
- 手法
- 線形単回帰分析(y = ax + b)
-
- 切片(b)
以上是关于markdown 统计词汇的主要内容,如果未能解决你的问题,请参考以下文章