Loader¶
Loaderはデータソースからデータを取得する機能を提供します。Loaderクラスはデータソース毎に実装されています。例えばCSVのデータセットのロードには CSVLoader
を使います。
from jubakit.loader.csv import CSVLoader
loader = CSVLoader('/path/to/dataset.csv')
Loaderの出力はデータソースから読み込んだレコード毎に辞書形式のオブジェクトとなります。
>>> for record in loader:
... print(record)
{'name': 'John', 'age': '24', 'gender': 'male'}
{'name': 'Jane', 'age': '35', 'gender': 'female'}
{'name': 'Mary', 'age': '19', 'gender': 'female'}
Loader一覧¶
以下のLoaderがJubakitには含まれています。
- 一行ごとに処理するプレーンテキストのストリームやファイル –
jubakit.loader.core
- 配列形式(PythonのリストやNumPyのarrayなど) –
jubakit.loader.array
- SciPyの疎行列データ –
jubakit.loader.sparse
- CSVファイル –
jubakit.loader.csv
- PostgreSQLのデータ –
jubakit.loader.postgresql
- Twitterのストリーム –
jubakit.loader.twitter
- 他のLoaderをラップするLoader(Chain Loader) –
jubakit.loader.chain
Loaderを拡張することや自分でLoaderを実装することもできます。詳しくは Loader開発ガイド を参照してください。