スポンサーリンク

kerasのTokenizerでテキストリスト(文字列)をベクトル化

下記の記事では、数字のリストをベクトル化しました。
参考:kerasのTokenizerでリストをNumPy配列ndarrayで表現

今回は、テキストのリストをベクトル化してみます。

まずは、Tokenizerをimportします。

下記のように、3つのテキストをリストで定義します。

tokenizer.fit_on_texts()で単語に分割して、それぞれの単語に対してインデックスを振ります。

今回、インデックスは下記のように振られました。

mode='binary'を設定して、tokenizer.texts_to_matrix()でベクトル化します。

下記がベクトル化した結果です。

例えば、一行目の[[0. 1. 1. 1. 0. 1. 0.]は"This is a Television."を表しています。
television': 5なので、5列目を見ていると確かに1となっています。

スポンサーリンク

サンプルコード

下記がサンプルコードになります。

下記が実行結果になります。

スポンサーリンク