研究ノート：データ分析の基礎

はじめに

データ分析は、生のデータから意味のある情報を抽出するプロセスです。この記事では、データ分析の第一歩として「探索的データ分析（EDA）」の基礎をまとめます。

探索的データ分析（Exploratory Data Analysis）は、統計学者ジョン・テューキーによって提唱されたアプローチです。主な目的は以下の通りです：

一般的なEDAのワークフローは以下の通りです：

まずはデータの全体像を確認します。

# データの基本情報
df.info()
df.describe()
df.head()

欠損値はほとんどのデータセットに存在します。その割合と分布を把握しましょう。

# 欠損値の確認
df.isnull().sum()
df.isnull().sum() / len(df) * 100

各変数を個別に分析します。数値データならヒストグラムや箱ひげ図、カテゴリデータなら棒グラフが有効です。

変数間の関係を調べます。散布図、相関行列、クロス集計などを活用します。

# 相関行列
df.corr()

# ヒートマップで可視化
import seaborn as sns
sns.heatmap(df.corr(), annot=True)

Pythonでデータ分析を行う場合、以下のライブラリがよく使われます：