実践機械学習システム 4章トピックモデルのデータについて
はじめに
最近は実践機械学習システムという本を読んで、機械学習を勉強しています。 そこの第4章「トピックモデル」で使用するデータセットとしてAssociated Press(AP)データセットを用いるのですが、そこで少しはまったので備忘録として残しておきます。
状況
以下のサイトからap.gzというファイルをダウウンロードします。 (サイトの中ほどのSample dataからダウンロードします) このデータセットはトピックモデルの初期の研究からつかわれているデータセットです。
Latent Dirichlet Allocation in C
ap.gzを解凍するとapというファイルが生成されます。 そのままのファイルをつかって本を読み進め、pythonのコードを実行していたのですが、どうしてもエラーが発生してしまいます。
「うーむ」と悩んでいたのですが、apをテキストエディタで開くことで解決しました。
解決方法
apをテキストエディタで開いてください。 すると。。。下記のような3つのファイルが結合されたファイルであることがわかります!
ap/ap.dat ap/ap.txt ap/vocab.txt
よって、それぞれ別ファイルで保存してあげれば問題なくコードを実行できるようになります。
まとめ
飛ばそうかと思っていましたが、なんとかなりました。 いろいろ試すことが大事ですね。Windows環境だからこんなことになったんでしょうかね?
- 作者: Willi Richert,Luis Pedro Coelho,斎藤康毅
- 出版社/メーカー: オライリージャパン
- 発売日: 2014/10/25
- メディア: 大型本
- この商品を含むブログ (6件) を見る