機械学習

スッキリわかる機械学習入門[sukkiri.jp]」って数式がほぼ出てこない本で機械学習(ML)のお勉強中。今まで何度か挫折しましたが、他の参考書と比べていきなり数式が出てこずPythonさえ分かればなんとなくMLの表面が理解できるので入門として良いです。3Dソフト使うのにいきなり幾何計算の話されたらCG作るのイヤになりますやん?そんな感じ。コムズカシイ事はもうちょっと後回しです。

ところで、本書の153ページ/コード5-16でデータの平均を得る『df.mean()』がありますがエラーが出ます。

ValueError: could not convert string to float:

エラーを見る通り、文字列をFloat値へ変換できないというエラーです。NaNは既定で無視するのは良いとして文字列も数値に変換して計算しようするみたいですね。実際には以下のようにして数値のみ計算させます。標準偏差stdなども同じだと思います。

colmean = df.mean(numeric_only=True)

「第1版第5刷発行」の本ですが、正誤表にもない様です。Anacondaに付属のJupyterLabの使用を前提で書かれていますが、僕はjupyterlabパッケージとその他、scikit-lean、pandas、matplotlibをpipでインストールして使用しているので環境は少し違います。もしかしたらそのせいかも。

モデルに学習させるまでに、欠損データの補完や外れ値の削除、教師データと評価データの分割とデータの操作の手順が多いんですね。そこAIがやれよと思ってしまいます。

本が届いたときは600ページもある分厚さでビビりましが、6時間ほどで半分くらい進みました。

まだまだPandas.DataFrameの操作に慣れません。