宿題を行うために小さな文書集合を作りました。

http://nlp.dse.ibaraki.ac.jp/~shinnou/docdata.zip

取ってきて確認してください。
53個の文書ファイルできます。

先の MeCab で各文書を形態素解析して、
この文書セットを matrix market 形式で表現する
というのが宿題3です。
1週間ではちょっとヘビーですので、段階的にやっていきましょう。

Step1

各文書を MeCab で形態素解析して、この文書セットで使われている
名詞をすべて取り出す。

Step2

上記の名詞を各次元に対応させ、各文書をベクトルで表現する
表現形式は自由。

Step3

step2 で得られたベクトルを使って、
この文書セットを matrix market 形式で表現する