データ分析の基礎-覚書き-EDA

こんにちは、@Yoshimiです。

データサインティストとして精度の高いモデルを作ることも大切ですが、データを有効活用するスキルも大切だと思っています。まずはデータの理解が必要になります。探索的データ分析(EDA)が必要になります。

統計量を知る

  • 変数の平均 / 標準偏差 / 最大 / 最小 / 分位点
  • カテゴリ変数の値の種類
  • 変数の欠損値
  • 変数間の相関関係

可視化

データをいかにわかりやすく表示するかもポイントです。

  • 棒グラフ
  • 箱ひげ図、バイオリンプロット
  • 散布図
  • 折れ線グラフ
  • ヒストグラム
  • Q-Qプロット

可視化するにはTableauが利用されているようです。私はエクセルでも十分かな〜なんて思っていたのですが、色つけとか、グラフ作成とかめっちゃ簡単に作成できるようです。動画見る限りですけど・・・

良いモデルを作成するアジェンダ

  • データの確認
  • 特徴量の作成
  • モデルの作成
  • モデルの評価
  • モデルのチューニング
  • アンサンブル

という流れです。

頭では理解しているのですが、作業スピードが追いついていかない・・・まだまだです。もっともっとがんばります!


なりたい自分になれる
スキルアップならUdemy

私も利用し、高収入エンジニアになったのよ。未経験から機械学習、データサイエンティスト、アプリ開発エンジニアを目指せるコンテンツが多数あります。優秀な講師が多数!割引を利用すれば1,200円〜から動画購入可能です。!

ABOUTこの記事をかいた人

大学卒業して、キラキラしていたのでIT業界にはいりましたが、中身はブラックでした!!だから、投資技術を磨いて早くリタイヤしたいです。株価、Python、機械学習をもうもう勉強中です。経済的自由を手に入れて農家やりたい!