2018年2月17日 / 最終更新日時 : 2018年3月14日 roy29fuku 機械学習 線形回帰 -入門 Kaggle House Pricesで試してみる- 回帰(Regression)とは 教師あり学習には回帰と分類があります。 回帰は出力が連続値、分類は離散値という違いがあります。 線形回帰(Linear Regression)とは 線形回帰とは下の画像のよ […]
2018年2月9日 / 最終更新日時 : 2018年6月21日 roy29fuku 機械学習 k近傍法 -入門 Kaggle Titanicで試してみる- k近傍法(ケイきんぼうほう、英: k-nearest neighbor algorithm, k-NN)は、特徴空間における最も近い訓練例に基づいた分類の手法であり、パターン認識でよく使われる。最近傍探索問題の一つ。k近 […]
2018年2月5日 / 最終更新日時 : 2018年2月9日 roy29fuku 機械学習 松尾研Deep Learning基礎講座 紹介 Deep Learning界隈で有名な東大の松尾豊先生が講座の演習内容を公開しました。 受けたかったのに定員漏れした授業なので、嬉しいです。 東京大学のDeep Learning基礎講座の演習コンテンツを無償公開しました […]
2018年2月4日 / 最終更新日時 : 2018年2月4日 roy29fuku SQL SQL -インデックスの効率的な設定- SQLのインデックスについて、「貼るとなんか早くなるやつ」っていう程度の認識しかなかったので一から勉強してみました。 普段はMySQLを使うのでここでもMySQLを想定しています。 基本的にMySQLリファレンスマニュア […]
2018年2月4日 / 最終更新日時 : 2018年2月4日 roy29fuku TIPS 大容量ファイルの先頭一部を別ファイルに保存する 数GBファイルから一部を切り取ってサンプルデータとして流してみたい時。 huge.csvの先頭1万行をsmall.csvに保存する時、
2018年2月3日 / 最終更新日時 : 2018年2月3日 roy29fuku AWS AWS EC2 -ストレージを増やす- EC2で作業しようと思ったらストレージが足りなくなったので増やします。 最初の作成時に容量を指定できるのですが、作り直すのが面倒な場合は以下のように対応します。 EC2のストレージチェック EC2にsshロ […]
2018年2月3日 / 最終更新日時 : 2018年4月4日 roy29fuku SQL SQL -大量データ入力の高速化- SQLにデータを投入する色々な手法とそのスピードについてまとめました。 検証にはMySQL 5.7を使用しています。 結論から言うと、設定ファイルをカスタマイズしてLOAD DATA INFILEを使うのが早いです。 & […]
2018年2月1日 / 最終更新日時 : 2018年2月3日 roy29fuku TIPS Python メモリに乗らない巨大なデータを扱う データ分析をする際、CSVなりJSONなりXMLなりファイルからデータを読み込みます。 ここではメモリに展開できないような巨大なファイルを扱う際の手法をまとめます。 消費メモリの確認には以前紹介したmemo […]
2018年2月1日 / 最終更新日時 : 2018年2月1日 roy29fuku TIPS Python memory_profilerで実行中のメモリ消費量を確認する Pythonプログラムを実行中、メモリが足りなくなったので、どこでどれくらい消費しているかチェックします。 memory_profiler memory_profilerというライブラリを使います。 まずは […]