教師あり学習について記事にまとめました。
教師あり学習
「教師」というのは、データに付随している正解となるラベルのことです。
例えば、写真のデータであれば、その写真に写っている内容が猫なのか、犬なのかという写真を分類する時のカテゴリーのラベルが付随しているということです。
また、手書きの数字「8」であれば、その画像データは「8」だというラベルとなります。「8」というラベルがこの文脈でいう「教師」となります。分類器を訓練するためにはこのラベルが必要です。
続いて、教師あり学習は何をするものなのか、何ができるかについて見ていきましょう。
また、下の図解のように、便宜上同じラベルの写真データを同じフォルダに入れて、そのフォルダ名がラベルになっているケースもあります。
▼フォルダがラベル(教師)になる
教師あり学習のタスク
・分類(classification)とは
スパムフィルタも分類という処理になります。処理の結果はスパムかどうかというクラス(class)に分けることになります。
リンゴかミカンの写真を見せて、どっちなのかを教えてくれるのも分類です。例えば、リンゴは「0」、ミカンは「1」というクラスにするという具合です。
・回帰(regression)とは
分析対象の一連の特徴量(feature)(例えば、アパート・住宅の築年数、立地、家賃の金額など)からターゲットの数値(例えば、ある場所のある中古アパートの家賃)を予測することは回帰と言います。
下の図解のように、対象データの分布から、そのデータを「表現」できる直線を見つけ、予測したいデータに対して、この直線を使って計算ができます(XからYを計算できます。あるいはYからXを計算できます)。
教師あり学習の重要アルゴリズム
・k-NN(k近傍法)
・線形回帰(linear regression)
・ロジスティック回帰(logistic regression)
・サポートベクたるマシン(SVM: support vector machine)
・非線形SVM
・決定木(decision tree)
・ランダムフォレスト(random forest)
SVMも決定木も、ランダムフォレストも一つの関数、超平面を探すことです!
[amazonjs asin=”4873117984″ locale=”JP” title=”Pythonではじめる機械学習 ―scikit-learnで学ぶ特徴量エンジニアリングと機械学習の基礎”]