markdown 统计词汇

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了markdown 统计词汇相关的知识,希望对你有一定的参考价值。

# 統計用語と数学

- 基礎
  - 階級: 度数を集計するための区間の大きさ
  - 度数: データの個数
  - 最頻値: `df["absences"].mode()[0])`
  - 分散: 値が0に近いほど散らばってないと言える
    - `df["absences"].var()`
  - 標準偏差(σシグマ): バラツキの大きさ
    - `df["absences"].std()`
  - 正規分布: 左右対称な釣り鐘型の分布を指す。
    - 物理世界に当てはめやすい?、3σ法などで外れ値を除去しやすい(尤もなHighとLowを決めることができる)
  - 3σ法: 外れ値を判定する方法。平均から3σの外にある値を外れ値とする。(正規分布に従っていることが前提)
  - 正規化/標準化/スケーリング: 重回帰分析など、複数の変数を扱う際に変数のスケールを合わせること。
    平均値をゼロ、標準偏差を1のスケールに変換。
  - ※スケーリングしても、1を超える値もあることに注意
  - 微分: 傾き(a:回帰係数)を求める  
     - 「aの2乗をaで微分」 = 2a
     - 「aをaで微分」 = 1
     - 「1をaで微分」 = 0
  - 偏微分: 多変数の微分
    - `roud_d / round_d * a (X)` = 「Xをaで微分する」
  - 共分散: 2変数の関係性を見るための指標だが、スケールが異なるものなのでこれだけでは比較できないらしい
    - `np.cov(df["X"],  df["Y"])`
  - 分類問題: クラス分け (例: 犬 or 猫)
  - 回帰問題: 数値の予測


- 係数
  - 変動係数: 標準偏差と同様でバラツキを示す。標準偏差を平均で割っているので、スケールが異なるもの同士を比較可能
    - `df.std() / df.mean()`  
  - 相関係数: スケールの影響を受けずに2つの変数の関係を数値化したもの.1に近ければ正の相関、-1に近ければ負の相関
    - `df.corr()` or `sp.stats.pearsonr(df["X"], df["Y"])`
  -  決定係数: 正解率?
     -  `m.score(X_test, y_test)`
  -  回帰係数(a)


- グラフ
  - 散布図: 相関関係を調べる。
  - ヒストグラム: 正規分布にしたがっているか、度数分布の傾向を確認する
  - 箱ひげ図 : データのバラツキを確認する。   ※ 外れ値は箱として表示されない


- 線形代数
  - スカラー(変数)・・・小細字
  - スカラー(定数)・・・大細字
  - ベクトル(縦向き配列)・・・小太字
  - 行列(多次元配列)・・・大太字
    -  行列の足し引きはサイズ(行 * 列)が同じものに限る
    -  行列の掛け算: A(列:N1,行:R1) * B(列:N2,行:R2) = C(行:N1, 列:R2)
  -  サイズ感(以下、小文字はベクトル、大文字は行列と読み解く)
    - xTy = スカラー
    - Xy = ベクトル
    - xTAy = スカラー
  - 転置(`df.T`): ある行列の行と列を入れ替えること。逆行列を求めるために転置する
    - ある行列Xと転置Xを掛けると正方行列になる
    - (AT)T = A
    - (AB)T = BTAT
  - 逆行列: ある行列と掛けると`[1, 0 ..,0],[0, 1,..0],[..`になる行列のこと。ある行列は正方行列であることが必須

- 機械学習
  - 教師あり学習: 説明変数から目的変数を予測するモデル
  - 教師なし学習: 目的変数は無く、データのパターンや示唆を見出す手法
  - 教師あり学習
    - 中分類
      - 回帰(regression): 目的変数が数値
      - 分類(classfication): 目的変数がカテゴリ
    - アルゴリズム一覧(回帰と分類の量で使われることに注意)
      - 重回帰(multiple linear regression):
      - ロジスティック回帰(logisitc regression):
      - k近傍法(k-Neares Neighbors):
      - 決定機(Decison Tree):
      - SVM
      - ランダムフォレスト(Random Forest)
      - 勾配ブースティング(Gradient Boosting)
  - 教師なし学習
    - 中分類
      - クラスタリング

- 手法
  - 線形単回帰分析(y = ax + b)
    -  
    -  切片(b)
  

以上是关于markdown 统计词汇的主要内容,如果未能解决你的问题,请参考以下文章

代码词汇统计

2018.10.11 统计常用字母单词词汇

中文词频统计

综合练习:词频统计

Java实现的词频统计

日语学习词汇量