宿題を行うために小さな文書集合を作りました。
http://nlp.dse.ibaraki.ac.jp/~shinnou/docdata.zip
取ってきて確認してください。
53個の文書ファイルできます。
先の MeCab で各文書を形態素解析して、
この文書セットを matrix market 形式で表現する
というのが宿題3です。
1週間ではちょっとヘビーですので、段階的にやっていきましょう。
Step1
各文書を MeCab で形態素解析して、この文書セットで使われている
名詞をすべて取り出す。
Step2
上記の名詞を各次元に対応させ、各文書をベクトルで表現する
表現形式は自由。
Step3
step2 で得られたベクトルを使って、
この文書セットを matrix market 形式で表現する