データ分析の基礎-覚書き-EDA

こんにちは、@Yoshimiです。

データサインティストとして精度の高いモデルを作ることも大切ですが、データを有効活用するスキルも大切だと思っています。、まずはデータの理解が必要になります。探索的データ分析(EDA)が必要になります。

統計量を知る

  • 変数の平均 / 標準偏差 / 最大 / 最小 / 分位点
  • カテゴリ変数の値の種類
  • 変数の欠損値
  • 変数間の相関関係

データをいかにわかりやすく表示するかもポイントです。
可視化

  • 棒グラフ
  • 箱ひげ図、バイオリンプロット
  • 散布図
  • 折れ線グラフ
  • ヒストグラム
  • Q-Qプロット

良いモデルを作成するアジェンダとして

  • データの確認
  • 特徴量の作成
  • モデルの作成
  • モデルの評価
  • モデルのチューニング
  • アンサンブル

という流れです。

頭では理解しているのですが、作業スピードが追いついていかない・・・まだまだです。もっともっとがんばります!

ABOUTこの記事をかいた人

Yoshimi

大学卒業して、キラキラしていたのでIT業界にはいりましたが、中身はブラックでした!!だから、投資技術を磨いて早くリタイヤしたいです。株価、Python、機械学習をもうもう勉強中です。