Jubatusの機械学習ラインナップと利用シーン

Jubatusによって行える機械学習とその利用シーンを紹介します。

Jubatusの機械学習ラインナップ

・ 多値分類(Classifier)

特徴ベクトル化された入力データを複数グループに分類します。

用途:Twitterカテゴリ分け、スパムメール判定など

・ 線形回帰(Regression)

入力データから出力データを推定します。

用途:株価予測、消費電力予測など

・ クラスタリング(Clustering)

入力データを似たグループの塊(クラスタ)に振り分けます。

用途:ユーザーセグメンテーション、トピック抽出など

・ クラスタ分析(Cluster Analysis)

クラスタの構造変化などを分析します。

用途:セグメンテーション間の遷移分析、トピックの流行過程分析など

・ 統計分析(Stat)

時系列データのウィンドウ設定つき統計分析を行います。

用途:センサー監視、異常データ検知など

・ 近傍探索(Nearest Neighbor)

近傍データの探索を行います。

用途:類似検索、推薦や外れ値検知のベースラインなど

・ 推薦(Recommender)

類似するデータの推薦や、データ中の未知属性の推定を行います。

用途:検索サイト連動広告、ECサイト商品お勧めなど

・ グラフマイニング(Graph)

与えられたグラフ構造から中心点や最短経路を抽出します。

用途:ソーシャルコミュニティ分析、ネットワーク構造分析など

・ 異常検知(Anomaly Detection)

与えられたデータ集合の中から外れ値や異常な振る舞いを検知します。

用途:不正検知、障害予兆検知など

・ バースト検知(Burst Detection)

時系列データからイベントの集中的な発生を検出します。

用途:SNS上の盛り上がり検知、ネットワークアクセスの集中の検知など

・ 多腕バンディット(Bandit)

選択肢の選択と報酬の観測から選択肢の選び方を最適化します。

用途:Webコンテンツのおすすめ、オンライン広告表示の最適化など

特徴ベクトルコンバータ

これらの機械学習を行うため、Jubatusでは特徴ベクトルコンバータを備えています。

特徴ベクトルとは、データの性質やパターンを表す特徴をn個の数値の組み(n次元のベクトル)として表現するものです。

世の中に存在する現象や自然言語などは、そのままの形では機械学習することができないため、それらのデータを特徴ベクトルに変換した上で機械学習を行います。