データ分析でよく使われるIRISのデータを使ってみたいと思います。
Iris「アヤメ」の花です。
がく片の長さ、がく片の幅、花弁の長さ、花弁の長さを特徴量とし、種別を特定します。
from sklearn.datasets import load_iris
iris = load_iris()
print(iris)
target_names': array(['setosa', 'versicolor', 'virginica']から、種別は3種類であることがわかります。 今後こちらで分析してみたいと思います。
説明変数と目的変数に分けます。
data = iris.data
print(data)
print(type(data))
target = iris.target
print(target)
print(type(target))
訓練データとテストデータに分割します。
from sklearn.model_selection import train_test_split
train_x, test_x, train_y, test_y = train_test_split(data,target,random_state=1)
訓練データで分析し、テストデータで精度を出してみます。 かなりいいですね!
from sklearn import tree
model = tree.DecisionTreeClassifier(max_depth=5)
model.fit(train_x, train_y)
model.predict(test_x)
model.score(test_x,test_y)