Jubatusの機械学習ラインナップと利用シーン¶

Jubatusによって行える機械学習とその利用シーンを紹介します。

Jubatusの機械学習ラインナップ¶

・多値分類（Classifier）

特徴ベクトル化された入力データを複数グループに分類します。

用途：Twitterカテゴリ分け、スパムメール判定など

・線形回帰（Regression）

入力データから出力データを推定します。

用途：株価予測、消費電力予測など

・クラスタリング（Clustering）

入力データを似たグループの塊（クラスタ）に振り分けます。

用途：ユーザーセグメンテーション、トピック抽出など

・クラスタ分析（Cluster Analysis）

クラスタの構造変化などを分析します。

用途：セグメンテーション間の遷移分析、トピックの流行過程分析など

・統計分析（Stat）

時系列データのウィンドウ設定つき統計分析を行います。

用途：センサー監視、異常データ検知など

・近傍探索（Nearest Neighbor）

近傍データの探索を行います。

用途：類似検索、推薦や外れ値検知のベースラインなど

・推薦（Recommender）

類似するデータの推薦や、データ中の未知属性の推定を行います。

用途：検索サイト連動広告、ECサイト商品お勧めなど

・グラフマイニング（Graph）

与えられたグラフ構造から中心点や最短経路を抽出します。

用途：ソーシャルコミュニティ分析、ネットワーク構造分析など

・異常検知（Anomaly Detection）

与えられたデータ集合の中から外れ値や異常な振る舞いを検知します。

用途：不正検知、障害予兆検知など

・バースト検知（Burst Detection）

時系列データからイベントの集中的な発生を検出します。

用途：SNS上の盛り上がり検知、ネットワークアクセスの集中の検知など

・多腕バンディット（Bandit）

選択肢の選択と報酬の観測から選択肢の選び方を最適化します。

用途：Webコンテンツのおすすめ、オンライン広告表示の最適化など

特徴ベクトルコンバータ¶

これらの機械学習を行うため、Jubatusでは特徴ベクトルコンバータを備えています。

特徴ベクトルとは、データの性質やパターンを表す特徴をn個の数値の組み（n次元のベクトル）として表現するものです。

世の中に存在する現象や自然言語などは、そのままの形では機械学習することができないため、それらのデータを特徴ベクトルに変換した上で機械学習を行います。