Python の pandas ライブラリが提供する pandas.DataFrame
はテーブル形式データを保持していますが、ここから部分的なデータを抽出する方法がたくさん用意されています。
サンプルデータ
最初に、後述の説明のためにサンプルデータを用意しておきます。
次のコードでは、10 行 3 列のデータを持つ pandas.DataFrame
を生成しています。
import numpy as np
import pandas as pd
data = np.random.randn(10, 3) # 10x3 の NumPy 配列を生成(標準正規分布の乱数)
indices = pd.date_range("2010-01-01", periods=10) # 日付の連番からなるインデックスを生成
columns = ("A", "B", "C") # カラム名
my_dataframe = pd.DataFrame(data, index=indices, columns=columns)
print(my_dataframe)
行方向(インデックス)で絞り込んで抽出する
先頭/末尾の数データのみ抽出する (DataFrame#head, DataFrame#tail)
DataFrame
オブジェクトの head
メソッドや tail
メソッドを使用すると、巨大なデータフレームから、先頭あるいは末尾の数データのみを抽出することができます。
最新のデータを取得したいときや、データ構成を簡単に把握したいときに便利です。
戻り値の型は DataFrame
です。
print(my_dataframe.head(3)) # 先頭の 3 つのデータのみ抽出 => DataFrame
print(my_dataframe.tail(3)) # 末尾の 3 つのデータのみ抽出 => DataFrame
head
や tail
のパラメータを省略すると、デフォルトで 5 つ のデータが抽出されます。
インデックスの範囲指定でデータを抽出する
DataFrame
を参照するときに、Python のスライス構文を使って、インデックス番号やインデックス名で範囲を指定すると、その範囲の部分データを抽出することができます。
単一のインデックス指定ではなく、どのケースも範囲指定になっていることに注意してください。
戻り値は DataFrame
オブジェクトです。
print(my_dataframe[0:3]) # 先頭の 3 つのデータを取得
print(my_dataframe[:3]) # 同上
print(my_dataframe[-2:]) # 末尾の 2 つのデータを取得
print(my_dataframe["2010-01-05":"2010-01-07"]) # インデックス名で範囲指定
特定のインデックスのデータを抽出する
DataFrame
の loc
メソッドを使用すると、特定のインデックスのデータのみを Series
オブジェクトとして取得することができます(配列風に 1 つのラベル名だけを指定してアクセスすると、インデックス名ではなくカラム名を指定したことになってしまうので(列方向の抽出)、インデックス名を指定するための loc
が用意されています)。
print(my_dataframe.loc["2010-01-01"]) # 特定インデックスのデータを取得 => Series
print(my_dataframe.iloc[0]) # 番号指定の場合は iloc を使う => Series
DataFrame
ではカラム名だった A, B, C が、戻り値の Series
データではインデックス名になっていることに注意してください。
列方向(カラム)で絞り込んで抽出する
特定のカラムのデータを抽出する
DataFrame
オブジェクトの []
演算子でカラム名を 1 つだけ指定すると、そのカラムのすべてのデータが pandas.Series
データとして抽出されます。
戻り値は、指定した列のみデータを含む 1 次元データなので pandas.Series
型になります。
[]
演算子で単一の値を指定すると、インデックス(行)ではなく、カラム(列)の指定だとみなされることに注意してください。
逆に、インデックスを 1 つだけ指定して特定の行を抽出するには、loc["インデックス名"]
や iloc[インデックス番号]
を使用する必要があります。特定のカラムのデータを Series
ではなく、DataFrame
として抽出するには次のようにします。
この記法では、複数のカラムを指定することもできます。
インデックスラベルとカラムを両方指定して取得 (loc, iloc)
DataFrame
の loc[]
で、インデックスとカラムの範囲を組み合わせて指定することができます。
戻り値の型はデータの抽出範囲によって変化する ことに注意してください。
取得結果が 1 次元データとなる場合は Series
オブジェクト、2 次元データとなる場合は DataFrame
オブジェクトとなります。
# 単一インデックス + 単一カラム指定 => numpy.float64
print(my_dataframe.loc['2010-01-01', 'A'])
# 単一インデックス + 複数カラム指定 => pandas.Series
print(my_dataframe.loc['2010-01-01', ['A', 'C']])
# インデックス範囲指定 + 単一カラム指定 => pandas.Series
print(my_dataframe.loc['2010-01-01':'2010-01-03', 'A'])
# 全インデックス指定 + 複数カラム指定 => pandas.DataFrame
print(my_dataframe.loc[:, ['A', 'C']])
ラベルではなく、インデックス番号で指定する場合は、loc[]
の代わりに iloc[]
を使用します。
# 先頭のデータ => pandas.Series
print(my_dataframe.iloc[0])
# 先頭から 3 つのデータ => pandas.DataFrame
print(my_dataframe.iloc[0:3])
# 先頭のデータの 2 つ目のカラムの値 => numpy.float64
print(my_dataframe.iloc[0, 1])
# 全データの 3 つ目までのカラムのデータ => pandas.DataFrame
print(my_dataframe.iloc[:, 0:3])