実践機械学習システム 4章トピックモデルのデータについて

はじめに

最近は実践機械学習システムという本を読んで、機械学習を勉強しています。 そこの第4章「トピックモデル」で使用するデータセットとしてAssociated Press(AP)データセットを用いるのですが、そこで少しはまったので備忘録として残しておきます。

状況

以下のサイトからap.gzというファイルをダウウンロードします。 (サイトの中ほどのSample dataからダウンロードします) このデータセットはトピックモデルの初期の研究からつかわれているデータセットです。

Latent Dirichlet Allocation in C

ap.gzを解凍するとapというファイルが生成されます。 そのままのファイルをつかって本を読み進め、pythonのコードを実行していたのですが、どうしてもエラーが発生してしまいます。

「うーむ」と悩んでいたのですが、apをテキストエディタで開くことで解決しました。

解決方法

apをテキストエディタで開いてください。 すると。。。下記のような3つのファイルが結合されたファイルであることがわかります!

ap/ap.dat ap/ap.txt ap/vocab.txt

よって、それぞれ別ファイルで保存してあげれば問題なくコードを実行できるようになります。

まとめ

飛ばそうかと思っていましたが、なんとかなりました。 いろいろ試すことが大事ですね。Windows環境だからこんなことになったんでしょうかね?

実践 機械学習システム

実践 機械学習システム