python

Python 入門 機械学習やる前に統計をなんとなく知っておこう statistics

統計

集団における個々の要素の分布を調べ、その集団の傾向・性質などを数量的に統一的に明らかにすること。また、その結果として得られた数値。(広辞苑より引用)

との事。

意味は知っていても使わないものだったら覚える優先度は特にないと思うので、わたしはこんな時に使っています。

わたしは普段同じ種類のデータをたくさん取得しているので、そのデータから特徴や傾向を捉え、第三者に伝える時の事実材料を作るために使っています。

統計を使うにあたって大きく2つの体系で構成されているみたいです。

記述統計と推計統計

記述統計

数値や表、グラフを使ってデータの特徴を捉える

とのこと。

例えばクラスや会社のメンバー全員の年齢、身長、体重、血液型などがまとまってるデータをエクセルなどを使って表やグラフを使ってまとめるイメージであっていると思います。

推計統計

母集団からサンプルを抜き取って全体の特徴を推測する

例えばみかんが100個入っている段ボールから適当に10個取り出して、そのみかんから段ボールに入っているみかんの特徴を掴むイメージであっていると思います。

実際に使ってみる

ライブラリインポート

English = 日本語
statistics=統計

import statistics

データ準備

l = [1,2,3,4,5,6,7,8,9,10]
print(l)
[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]

合計 [sum]

データの和

sum = sum(l)
print(sum)
55

平均 [mean]

データの合計をデータの個数で割った値

ave = statistics.mean(l)
print(ave)
5.5

中央値 [median]

データを小さい・大きい順に並べ替えた時の真ん中の値

# 中央値
med = statistics.median(l)
print(med)
5.5

標準偏差 [pstdev]

データのばらつき

√{絶対値(各データ – 平均値)^2+….}/データ個数

計算式の流れはこんな感じです

  1. 各データと平均値の差を求める
  2. 1で求めた値を2乗する
  3. 2で求めた値をすべて足す
  4. 3で求めた値をデータの数で割る
  5. 4で求めた正の平方根をとる
std = statistics.pstdev(l)
print(std)
2.8722813232690143
ABOUT ME
Umatani
株式会社Playground代表取締役。 18歳から国内大手企業にてエンジニアのキャリアを開始。その後、外資企業に約10年間勤めたのち、フリーランスとして国内複数企業のアプリ開発を経験。2018年に株式会社Playgroundを設立。Swiftスクール事業、iOS受託開発、サーバー受託開発、アプリケーション開発コンサルティング等、幅広く活動中。
株式会社Playgroundのサービス

COMMENT

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

CAPTCHA