タグ

machinelearningに関するKanasansoftのブックマーク (62)

  • xgboost: テーブルデータに有効な機械学習モデル - Qiita

    $ cd <workspace> $ git clone --recursive https://github.com/dmlc/xgboost $ cd xgboost; make -j4 $ cd python-package; sudo python setup.py install import xgboost as xgb from sklearn.model_selection import GridSearchCV from sklearn.datasets import load_boston from sklearn.metrics import mean_squared_error # データ読み込み boston = load_boston() X_train, X_test = boston.data[:400], boston.data[400:] y_train

    xgboost: テーブルデータに有効な機械学習モデル - Qiita
    Kanasansoft
    Kanasansoft 2018/03/03
    XGBoostの使い方の簡単な解説。
  • R言語 標準データセットの私的まとめ - Qiita

    Rには、分析手法や可視化手法を試すことのできる多くのデータセットが同梱されています。 その数は2016年12月現在で104個にも達していますが、その大半はあまり紹介されることがなく、知る機会も多くはありません。「ヘルプが英語で書かれている」というのもその要因の1つでしょうが、「数が多すぎて、何に使えるのか把握しきれない」という理由も大きいのではないでしょうか。 実は、 間瀬先生のR 基統計関数マニュアル の巻末 パッケージ 'datasets' の情報 - RjpWiki R 3.3.1の datasets パッケージ中のオブジェクトの全ヘルプドキュメント一覧 (Google Docs) などに情報がまとまっているのですが、アルファベット順に表記されているため、データの「構造」でソートしたものがあってもいいんじゃないかな、とふと思いました。 これらのデータについておおまかに分類して、概要

    R言語 標準データセットの私的まとめ - Qiita
    Kanasansoft
    Kanasansoft 2018/03/03
    Rに添付されているデータセットの解説。
  • https://prs.ism.ac.jp/~nakama/Rjp/datasets-manual.pdf

    Kanasansoft
    Kanasansoft 2018/03/03
    Rに同梱されている各データセットの説明。
  • さくっとトレンド抽出: Pythonのstatsmodelsで時系列分析入門 - Gunosyデータ分析ブログ

    久しぶりの投稿になってしまいましたが、ニュースパス(現在CM放映中!!)開発部の大曽根です。 作業中はGrover Washington Jr のWinelightを聴くと元気が出ます。参加ミュージシャンが素晴らしいですね。 なぜ時系列分析をするのか 季節調整 実演 おまけ: 時間別に見てみる まとめ 今後 なぜ時系列分析をするのか 数値を非常に重視している弊社では、数値を知るためのツールとしてRedashやChartioおよびSlackへの通知を活用しています。現在の数値を理解する上では、長期のトレンド(指標が下がっているのか、上がっているのか)を知ることが重要です。しかし、日々変化するデータ(特に売上やKPIと言われる指標)は、ばらつきも大きく、変化を適切に捉えることが難しいこともあります。 特にSlackなどへの通知を行っていると、日々の変化に囚われがちです。例えば、弊社ではニュース

    さくっとトレンド抽出: Pythonのstatsmodelsで時系列分析入門 - Gunosyデータ分析ブログ
    Kanasansoft
    Kanasansoft 2018/01/05
    StatsModelsのseasonal_decomposeを使った時系列データ分析。
  • http://www.seanabu.com/2016/03/22/time-series-seasonal-ARIMA-model-in-python/www.seanabu.com/2016/03/22/time-series-seasonal-ARIMA-model-in-python/

    Kanasansoft
    Kanasansoft 2018/01/05
    Pythonによる時系列データ解析。ライブラリにStatsModels、モデルにSARIMAを使用。ADF検定でP値を見るなどかなり詳細。自己相関と偏自己相関にも触れている。
  • Seasonal ARIMA with Python

    Time Series Forecasting: Creating a seasonal ARIMA model using Python and Statsmodel. Posted by Sean Abu on March 22, 2016 I was recently tasked with creating a monthly forecast for the next year for the sales of a product. In my research to learn about time series analysis and forecasting, I came across three sites that helped me to understand time series modeling, as well as how to create a mode

    Seasonal ARIMA with Python
    Kanasansoft
    Kanasansoft 2017/12/20
    Pythonを使いSARIMAで時系列データを解析。順を追って解説している。
  • UCI Machine Learning Repository

    Welcome to the UC Irvine Machine Learning Repository We currently maintain 665 datasets as a service to the machine learning community. Here, you can donate and find datasets used by millions of people all around the world!

    Kanasansoft
    Kanasansoft 2017/11/18
    カリフォルニア大学アーバイン校が公開している機械学習用データセットのリポジトリ。
  • 代表的な機械学習手法一覧 - Qiita

    概要 ページは、代表的な機械学習の手法の特性について独自に簡単にまとめたページです。 (ご意見、ご指摘等あったらご連絡ください。) 世の中のスタンダードなものとして下記もあるので、それを踏まえてご参照いただければと思います。 - ScikitLearn Choosing the right estimator - Microsoft Azure Machine Learning Studio の機械学習アルゴリズム チート シート - 朱鷺の杜Wiki 機械学習 教師データあり 回帰 (一般化)線形回帰 ロジスティック回帰 サポートベクターマシーン(SVM) 木 決定木(CART) 回帰木 ランダムフォレスト 勾配ブースティング木 ニューラルネットワーク(NN) パーセプトロン 畳み込みニューラルネットワーク(CNN) 再起型ニューラルネットワーク(RNN) 残差ネットワーク(ResNe

    代表的な機械学習手法一覧 - Qiita
    Kanasansoft
    Kanasansoft 2017/10/20
    機械学習の代表的な解析方法の分類・特製等の解説。網羅性が高い。どのようなアルゴリズムなのか知りたい場合にここを見ると良さそう。
  • 決定木、分類木、回帰木の意味と具体例 - 具体例で学ぶ数学

    分類木の例 下図のように、日々の温度と湿度のデータ、および、その日A君が暑いと感じたか暑くないと感じたかのデータが与えられた状況を考えてみます。 図の1つの点が1日を表します。赤い点はA君が暑いと感じた日、青い点は暑くないと感じた日を表します。例えば、温度が $27$ 度で湿度が $40$ %の日は暑くないと感じています。 このデータから、例えば、下図のような温度と湿度がどのようなときに暑いと感じるのか?を表現したツリーを作ることができます。

    Kanasansoft
    Kanasansoft 2017/10/20
    分類木・回帰木・決定木の解説。『分類のルールをツリーで表現したものを分類木と言います。』『ある数値(連続値)の推定のルールをツリーで表現したものを回帰木と言います。』『分類木と回帰木のことを合わせて決
  • 機械学習のデータセットを可視化する「Facets」で遊んでみた - paiza times

    秋山です。 先日、Google Open Sourceで「Facets」という機械学習向けデータセットの可視化ツールが公開されました。 サイトはこちら opensource.googleblog.com (※Chromeであれば、ブラウザ上でどういったことができるかのデモを触れます。Safariだとうまく動かない?ようなのでご注意ください) GitHubはこちら github.com デモのようにブラウザ上でデータを可視化したり、Pythonライブラリのjupyter内で使ったりすることができます(ブラウザで表示させるかjupyter内で表示させるかだけの違いですが…) 例えば巨大なデータを扱っていて、うまく分離できていないデータ群はどの辺りになるのか…といったことを可視化して眺めたいときなどによさそうなので、実際にちょっと使ってみたいと思います。 ■Facets使ってみた Facetsに

    機械学習のデータセットを可視化する「Facets」で遊んでみた - paiza times
    Kanasansoft
    Kanasansoft 2017/10/19
    Facetsのインストール方法と使い方の概説。
  • 季節調整済みARIMAモデルで電力使用状況を推定してみる

    北海道電力の電力使用状況を季節調整済みARIMAモデル(Seasonal ARIMA)で推定してみました。そのメモです。 このサイトを参考にしました。ほぼそのままやりました。 ■Seasonal ARIMA with Python http://www.seanabu.com/2016/03/22/time-series-seasonal-ARIMA-model-in-python/ このブログでも紹介されていますが、statsmodelsのdevelopment versionが必要です。 https://github.com/statsmodels/statsmodels これをインストールするにはvisual c++のなんかのバージョンが必要で色々と面倒でした。あと、pipでインストールすると失敗するのでeasy_installでうまくいく場合もありました。 %pylab impor

    季節調整済みARIMAモデルで電力使用状況を推定してみる
    Kanasansoft
    Kanasansoft 2017/10/19
    北海道電力の電力使用状況(定常性・季節性有)をstatsmodelsのseasonal_decomposeを使って解析。具体的でわかりやすい。
  • ITエンジニアのためのデータサイエンティスト養成講座

    システムログも金融取引データも時系列で分析できる。ビジネスシーンで求められるデータ分析の多くを占める「時系列データ」分析の基礎を解説。

    ITエンジニアのためのデータサイエンティスト養成講座
    Kanasansoft
    Kanasansoft 2017/10/19
    機械学習の詳細な解説。一読した方が良さそう。
  • 時系列分析I ――ARMAモデルと時系列分析

    連載バックナンバー はじめに 今回は時系列分析について紹介します。ビジネスで生成されるデータの多くが“時間“の項目を含む時系列データで、1週間の傾向や季節変動などを分析する際など、さまざまな場面で時系列の分析が必要となります。 時系列分析(Time Series Analysis)とは? 時系列分析(Time Series Analysis)は、株価や為替レートなど金融関連の時間とともに変化するデータを分析し予測するために発達してきました。「時系列計量経済学(Time Series Econometrics)」などの学問の中で論じられているデータ分析の中では、比較的歴史のあるテーマです。それだけに、定式化するためのさまざまなモデルが提案されていて、1つの変量を分析するためのモデルだけでも、表1のように多くのモデルがあります。 略称 説明 AR

    時系列分析I ――ARMAモデルと時系列分析
    Kanasansoft
    Kanasansoft 2017/10/19
    時系列データの解析方法。沢山のモデルが紹介されている。AR/MA/ARMA/ARIMA/ECT/ARCH/GARCH/SV/MSM/MSM
  • 時系列分析_実践編 | Logics of Blue

    最終更新:2016年1月24日 Rを用いた時系列解析の実践例を載せます。 Rを使えばARIMAもSARIMAもサクッと一瞬で計算できますよ。 時系列解析って何? という方は ・時系列解析_理論編 ・時系列解析_ホワイトノイズとランダムウォーク も参照してください。 スポンサードリンク 目次 1.使用データ 2.モデリングと予測 その1、和分過程でないデータ 3.モデリングと予測 その2、和分過程 4.モデリングと予測 その3、季節変動データ 1.使用データ シミュレーションデータと、Rにもともと入っているサンプルデータを用います。 シミュレーションデータはこちら set.seed(1) d <- arima.sim( n=400, model=list(order=c(2,0,2), ar=c(0.5,0.4), ma=c(-0.5,0.3)), sd=sqrt(1) ) order=c(

    Kanasansoft
    Kanasansoft 2017/10/19
    ARIMA/SARIMAによる時系列データの解析。解析の仕方や考え方等を順を追って解説している。Rを使っているが解説だけでもわかりやすい。
  • 時系列解析_理論編 | Logics of Blue

    最終更新:2017年6月1日 時系列分析という名前はご存知でしょうか? 残念ながらExcelで実行するのがやや困難であるためこの名前もあまり浸透していないのではないかと思います。 時系列解析は、回帰分析とは違ってあまり知らない人も多いと思うので、ざっと解説を載せておきます。これだけ読めば、時系列分析の雰囲気はつかめるのではないでしょうか。 時系列分析の基礎の基礎からSARIMAモデルまでを一気に解説します。 それと、便利なパッケージ forecast の紹介も。 Rを使えば簡単に計算できますよ。 Pythonを使いたい方は「Pythonによる時系列分析の基礎」の実装例も併せて参照してください。 スポンサードリンク 目次 1.時系列解析って何? 2.時系列データの扱い方 3.知ると便利な用語集 3-1.自己相関係数・偏自己相関係数 3-2.ARモデル(自己相関モデル) 3-3.MAモデル(移

  • ARIMAモデルによる株価の予測 | Logics of Blue

    最終更新:2017年7月14日 標準的な時系列解析手法であるARIMAモデルを用いた、株価の予測とその評価の方法について説明します。 ARIMAモデルは、R言語を使うととても簡単に推定することができます。 簡単である割には、予測精度は高く、時系列予測における標準的な手法となっています。 この記事では、株価のデータに対して、ARIMAモデルを推定し、株価を予測することを試みます。 株価を予測することはとても難しいので、この手法を使えばすぐに利益が出るということはあり得ません。 しかし、時系列データの取り扱いとARIMAモデルの推定、そして予測の評価という一連の流れを学ぶことで、ほかのデータなどに対して応用する能力が身につくかと思います。 コードはまとめてこちらに置いてあります。 スポンサードリンク 目次 時系列解析とARIMAモデル 株価の取得 ARIMAモデルの推定と予測の評価 一期先の予

  • 未来を予測するビッグデータの解析手法と「SARIMAモデル」

    ビッグデータと未来予測 ロングテールとは ロングテールとビッグデータの関連 未来予測のためのビッグデータ解析 重回帰分析 回帰分析の基礎、単回帰分析 最小二乗法 相関係数 重回帰分析 変数の影響度 多重共線性 ビッグデータで重回帰分析を用いるリスク SARIMAモデル ARモデルとMAモデル ARモデル(自己回帰モデル) MAモデル(移動平均モデル) ARMAモデル(自己回帰移動平均モデル) 定常過程と非定常過程 ARIMAモデル(自己回帰和分移動平均モデル) SARIMAモデル(季節自己回帰和分移動平均モデル) まとめ 様々な分野でビッグデータの応用が進んでいます。 その中でも企業が競争力を持つための、トレンド予測や需要予測が注目されています。 膨大なデータを解析することで、トレンドの変化や周期的な法則を導き将来を予測することができます。 今回は未来予測を目的としたデータの解析手法につい

    未来を予測するビッグデータの解析手法と「SARIMAモデル」
  • 【機械学習初心者向け】scikit-learn「アルゴリズム・チートシート」の全手法を実装・解説してみた - Qiita

    scikit-learnのアルゴリズム・チートシートで紹介されている手法を全て実装し、解説してみました。 注釈 記事シリーズの内容は、さらに丁寧に記載を加え、書籍「AIエンジニアを目指す人のための機械学習入門 実装しながらアルゴリズムの流れを学ぶ」 として、出版いたしました。 概要 scikit-learn アルゴリズム・チートシート 【対象者】機械学習を使用したい方、初心者向けの機械学習を読んで少し実装してみた方 scikit-learnの説明は英語で分かりにくいし、実装例もシンプルでなくて、よく分からんという方 【得られるもの】模擬データを用いて、各手法を使用したミニマム・シンプルなプログラムが実装できるようになります。 アルゴリズムの詳細な数式は理解できませんが、だいたい何をやりたいのか、意図と心、エッセンスが分かります。 アルゴリズムマップの手法をひとつずつ実装・解説します。

    【機械学習初心者向け】scikit-learn「アルゴリズム・チートシート」の全手法を実装・解説してみた - Qiita
    Kanasansoft
    Kanasansoft 2017/09/25
    scikit-learnを使う前に読んだ方が良さげな解説。
  • 人は学習した知見を脳に記憶する、機械学習では学習した知見をどう記憶すれば良いか - Qiita

    前回は機械学習による未来予測の例として、決定木アルゴリズムで株価の予測をする話をしました。このように直近のポートフォリオの変化をあらわす数列の並びから次の数値の上げ下げを単純に予測するといった場面では、複雑なアルゴリズムに頼らずとも決定木のような単純明快な方法で低コストかつそこそこの精度による予測を実現することができます。 機械的な予測はたとえば短期のトレードにおいて威力を発揮するでしょう。週よりも日、日よりも時や分のように短いレンジのほうが向いているでしょうから、現物よりは信用取引などのほうが向いているかもしれません。もし中・長期的な投資をするならば、やはりファンダメンタルズが優良で PER が格安 ROE が良好な銘柄に投資するといった基的な姿勢が大切になると思います。 テクニカル指標の一覧を見ればわかりますが、そもそも古くから伝わるこれらの計算式は決して複雑ではありません。またその

    人は学習した知見を脳に記憶する、機械学習では学習した知見をどう記憶すれば良いか - Qiita
    Kanasansoft
    Kanasansoft 2017/09/23
    scikit-learnで学習したデータを保存する方法。pickleでシリアライズして保存する。高速なcpickleが使えるならそれを使い、使えないならpickleにフォールバックスル方法が説明されている。
  • Pythonで機械学習はじめました クラスタリング&次元圧縮&可視化編 - Qiita

    はじめに 前回の「データ前処理編」から時間が空いてしまいましたが、今回はTwitterのテキストデータをクラスタリングをしてみます。 3行でまとめ (やっと)クラスタリングした。 クラスタリングした結果をmatplotlibで可視化した。 次回は脇道で可視化の小技紹介になるかも。 いきなりソースコード(可視化以外) 前回の「ベクトライズ」の実装に「クラスタリング」「次元圧縮」の実装を追加してみました。(「可視化」のソースはちょっと長いので後で) #! /usr/bin/env python # -*- coding:utf-8 -*- import MeCab as mc from sklearn.feature_extraction.text import TfidfVectorizer from sklearn.cluster import KMeans from sklearn.de

    Pythonで機械学習はじめました クラスタリング&次元圧縮&可視化編 - Qiita
    Kanasansoft
    Kanasansoft 2017/09/23
    scikit-learnを使ったクラスタリング処理の実装例。