こんにちは、@Yoshimiです。
データサインティストとして精度の高いモデルを作ることも大切ですが、データを有効活用するスキルも大切だと思っています。まずはデータの理解が必要になります。探索的データ分析(EDA)が必要になります。
統計量を知る
- 変数の平均 / 標準偏差 / 最大 / 最小 / 分位点
- カテゴリ変数の値の種類
- 変数の欠損値
- 変数間の相関関係
可視化
データをいかにわかりやすく表示するかもポイントです。
- 棒グラフ
- 箱ひげ図、バイオリンプロット
- 散布図
- 折れ線グラフ
- ヒストグラム
- Q-Qプロット
可視化するにはTableauが利用されているようです。私はエクセルでも十分かな〜なんて思っていたのですが、色つけとか、グラフ作成とかめっちゃ簡単に作成できるようです。動画見る限りですけど・・・
良いモデルを作成するアジェンダ
- データの確認
- 特徴量の作成
- モデルの作成
- モデルの評価
- モデルのチューニング
- アンサンブル
という流れです。
頭では理解しているのですが、作業スピードが追いついていかない・・・まだまだです。もっともっとがんばります!