ジェイエムテクノロジー株式会社

ジェイエムテクノロジー株式会社

ENGLISH
  • トップページ
  • 企業情報
  • 事業概要
  • 採用情報
  • ニュース
  • お問い合わせ

 

 

rapidminer-logo-retina.png

 

 

RapidMiner Studio

RapidMiner Studioはマウス操作で予測モデルをつくることができるデータサイエンスツールです

RapidMinerは、機械学習、データマイニング、テキストマイニング、特徴選択、予測分析、経営分析などを扱うソフトウェア及びその開発会社であり、予測モデルのソフトウェアの名称も同じです。最近では研究、教育、産業分野、

ソフトウェア開発の場で利用されている。 データマイニングや機械学習分野において、データ変換、データ処理、

可視化、モデリングの作成・評価・展開に活用できる。ジェノタイピング、プロテオーム解析、質量分析法など

高速大量処理装置により出力されたデータの解析や、R言語に似た解析手順の定義に活用できます。

オープンソースの統計分析ソフトRやプログラミング言語Pythonと連携でき、より高度な分析も可能。分析初心者から熟練者まで幅広くサポートしている。また、プラグインで追加機能を拡張できます。最近注目されています、Deep Lerningも活用できます。 このソフトは基本的にはデータアナリティクス業務をドラッグ&ドロップで行うことができます。標準で用意しているアルゴリズムや分析モデルが120種類以上あります。データの可視化はもちろん、

データアナリティクス業務をドラッグ&ドロップで行うことができます。データの可視化はもちろん、複数の

アルゴリズムを組み合わせることができます。ハイエンドなビジネスツールとしても十分お役に立てることでしょう。

世界のデータサイエンティストが利用しています。


 

R1.jpg

 

 

        特徴

            ・データサイエンティストが行う分析業務をドラック&ドロップで直感的な操作で可能

            ・非常に高機能、最先端のアルゴリズムにも対応

            ・データの加工(前処理)やモデル評価

            ・パラメータチューニングも豊富

            ・高度アルゴリズムも別売りオプションではなく初期セット、 データ分析のオールインワンソフトウェア 

 

 

 

RapidMiner アーキテクチャー

 

akit.png

 

 

 

         [補足]

            ・RapidMiner Studioはクライアント端末環境で動作いたします。(Named User Licence)

            ・RapidMiner Serverはサーバー動作ですが、Studio導入端末から操作いたします。(Instance Licence)

            ・Studioライセンス保有を前提としており、データ行数制限はStudioライセンスに準拠されます。

 

モデルの作成

Rapidminerはほとんどの操作をドラッグ&ドロップのみで済ませることができ、プログラミング言語を習得することなく、簡単にデータ

分析を始めることができます。

 

 

 

5288e9a5b2afbae45b69a8175e3081b4.png


 

RapidMiner Studioの機能説明

CSVやXML等様々なファイルタイプ、Microsoft SQL Server、Oracle等各種データベース、NOSQL、AWS、Salesforce等のクラウドに接続することが可能です。

 ファイルタイプ

CSV, Excel, XML, ARFF/XRFF(Weka), DBF(dBASE), SAV(SPSS), SAS, DTA(Stata), QVX(QlikView) 

 データベース

 MySQL, PostgreSQL, Oracle, Microsoft SQL Server, ODBC Bridge, Sybase,  HSQLDB, Ingres 

 NOSQLデータベース 

 ssandra, MongoDB Cassandra, MongoDB

 クラウド接続 

 Dropbox, Amazon S3, Salesforce, Twitter, Zapier Dropbox

 What’s More 

 Apache Solr, Splunk, Mozenda, Tableau

 


 


1. データの可視化

データアナリティクス業務をドデータを読み込むことで、特別な作業なしにデータの可視化を行うことができます。

代表的な、散布図、密度プロット、ヒストグラム、折れ線グラフ、バブルチャート、箱ひげ図、棒グラフ、

パイチャート、時系列、パレート図、その他があります。

 

kasika.jpg

 

 

 

散布図やヒストグラム、箱ひげ図、ヒートマップ等の可視化機能を豊富に備えています。分析結果を可視化することで、データから集計を超える新たな知見を得ることができます。また、データを取り込むと自動的に基礎統計量を計算するため、概要を素早く把握できます。

 

 

kasika2.jpg

 

 

2. データの結合

ExcelやCSV、XMLファイルなどさまざまな形式のデータを分析データとして取り込むことができます。

幅広いデータ形式に対応しており、オープンソース、商用問わず各種データベースとの連携が可能です。 

 


ketu.jpg



 

 

3. データクリーニング

データを分析するためには、データの加工・整形処理(前処理)が必要です。RapidMiner Studioは、

データの前処理機能を備えています。分析した結果、データの前処理が必要な場合は立ち戻って処理できます。

 

 

kurini.jpg

 

 

 

4. モデリング

回帰、分類、アンサンブル等、データ分析に必要な機能は網羅しています。


■Predictive(61)

Default Model

K-NN

Naive Bayes

Naive Bayes (Kernel)

Decision Tree

Decision Tree (Multiway)

Decision Tree (Weight-Based)

ID3

CHAID

Decision Stump

Random Tree

Random Forest

Gradient Boosted Trees

Rule Induction

Single Rule Induction

Single Rule Induction (Single Attribute)

Subgroup Discovery

Tree to Rules

Neural Net

AutoMLP

Perceptron

Deep Learning

Linear Regression

Polynomial Regression

Vector Linear Regression

Local Polynomial Regression

Seemingly Unrelated Regression

Gaussian Process

Relevance Vector Machine

Generalized Linear Model

Logistic RegressionSVM

Logistic Regression (Evolutionary)

Logistic Regression

Support Vector Machine

Support Vector Machine (LibSVM)

Support Vector Machine (Linear)

Support Vector Machine (Evolutionary)

Support Vector Machine (PSO)

Fast Large Margin

Hyper Hyper

Linear Discriminant Analysis

Quadratic Discriminant Analysis

Regularized Discriminant Analysis

Vote

Polynomial by Binomial Classification

Hierarchical Classification

Classification by Regression

Additive Regression

Relative Regression

Transformed Regression

Bayesian Boosting

Subgroup Discovery (Meta)

AdaBoost

Bagging

Stacking

MetaCost

Find Threshold (Meta)

※Update Model

※Group Models

※Ungroup Models

※Create Formula

■Segmentation(13)

K-Means

K-Means (Kernel)

k-Means (fast)

X-Means

K-Medoids

DBSCAN

Expectation Maximization Clustering

Support Vector Clustering

Random Clustering

Agglomerative Clustering

Top Down Clustering

Flatten Clustering

Extract Cluster Prototypes

■Associations(6)

FP-Growth

Create Association Rules

Apply Association Rules

Generalized Sequential Patterns

Item Sets to Data

Unify Item Sets

■Correlations(8)

Correlation Matrix

Covariance Matrix

ANOVA Matrix

Grouped ANOVA

Transition Matrix

Transition Graph

Mutual Information Matrix

Rainflow Matrix

■Similarities(4)

Data to Similarity

Data to Similarity Data

Similarity to Data

Cross Distances

■Feature Weights(17)

Weight by Information Gain

Weight by Information Gain Ratio

Weight by Rule

Weight by Value Average

Weight by Deviation

Weight by Correlation

Weight by Chi Squared Statistic

Weight by Gini Index

Weight by Tree Importance

Weight by Uncertainty

Weight by Relief

Weight by SVM

Weight by PCA

Weight by Component Model

Weight by User Specification

Data to Weights

Weights to Data

■Optimization(20)

Optimize Parameters (Grid)

Optimize Parameters (Quadratic)

Optimize Parameters (Evolutionary)

Set Parameters

Clone Parameters

Forward Selection

Backward Elimination

Optimize Selection

Optimize Selection (Brute Force)

Optimize Selection (Weight-Guided)

Optimize Selection (Evolutionary

Optimize by Generation (Evolutionary Aggregation)

Optimize by Generation (GGA)

Optimize by Generation (AGA)

Optimize by Generation (YAGGA)

Optimize by Generation (YAGGA2)

Optimize Weights (Forward)

Optimize Weights (Backward)

Optimize Weights (Evolutionary)

Optimize Weights (PSO)

 

 

 

5. モデルの検証

データ量が少ない場合、テストデータの選び方によって予測精度に大きな誤差が生じることがあります。このような場合には、交差検証を使ったモデルの訓練が有効です。交差検証では、データをいくつかのデータセットに分割します。

以下の例ではデータを5つに分けて、学習用データと評価用出たで5パターンで入れ替えていきます。その平均を算出することで、より精度をあげていきます。

 

 

cross.jpg

 

 (引用) Ryota Kamoshida

 

 

6. 複数モデルの並列評価

RapidMinerは、複数モデルを同時並列にして、精度を比較したり、平均をとって精度をあげるロジックをつくる作業が容易です。 

 

 

hei.jpg

 

 

7. RapidMinerトレーニング

■PT1 (2日間)カリキュラム概要 

 

 1.トレーニングの概要

   ビジネスシナリオの設定、アドバンスド・アナリティクスの説明など

 

 2.アドバンスド・アナリティクスとRapidMiner

   CRISP-DMモデルの説明、RapidMinerの操作方法など

 

 3.データの前処理

   データの取得、欠損値・外れ値の処理、目的変数の作成方法

 

 4.予測モデル作成と評価

   K-NN/線形回帰/決定木モデルの作成方法

   分割検証/交差検証によるモデルの評価

   過剰適合(オーバーフィッテング)の考え方 

 

■PT2 (2日間)カリキュラム概要


 1. トレーニングの概要

   ビジネスシナリオの設定


 2. データの前処理

   データの正規表現、データの結合、データの集計方法

 

 3. 予測モデル作成と評価

   ニューラルネットワーク/サポートベクターマシンモデルの作成方法 


 4. 次元圧縮

   変数増加法、変数減少法

 


■価格について

 

   お問い合わせください。

5288e9a5b2afbae45b69a8175e3081b4.png

お問い合わせ
東京本社
TEL:03-6826-8749
E-mail:all-sales@jmtech.co.jp