新納研学生の課題提出状況

TeX

西野 金田 真下
火曜 6月21日 完了 7月11日 完了 7月5日 完了 6月8日 完了
水曜 6月21日 完了 7月11日 完了 7月6日 完了 7月13日 完了
木曜 6月21日 完了 7月11日 完了 7月12日 完了 7月13日 完了
金曜 6月21日 完了 7月11日 完了 7月14日 完了 7月13日 完了
土曜 6月21日 完了 7月11日 完了 7月14日 完了 7月13日 完了


ベクトル化

(1) Cygwin をインストールできたら、私にその旨をメールする。(完了者: 西野、真下、全、金田)

(2) http://nlp.dse.ibaraki.ac.jp/~shinnou/newnews.zip をダウンロードして、
どこかの ディレクトリの下に展開する。
1.txt 〜 395.txt の 395個のテキストファイルができる。

(3) Cygwin の環境の中で
3-1) nkf をインストールする
3-2) Cygwin の中で mecab を使えるように PATH を設定する、
あるいはリンクを張る

(4) (2)と(3) が完了したらその旨を私にメールする。(完了者: 西野、真下、全、金田)

(5) 1.txt 〜 395.txt のテキストファイルはコードが EUC である。
これを nkf を利用して、SJIS に変換せよ。
N.txt ---> N.sjis
1.sjis 〜 395.sjis を作る。

(6) 1.sjis 〜 395.sjis の各テキストファイルを mecab で形態素解析する。
N.txt ---> N.mcb
1.mcb 〜 395.mcb を作る。

(7) (5)と(6) が完了したらその旨を私にメールする。(完了者: 西野、全、真下、金田)

(8) N.mcb ファイルから名詞の単語を取り出す
C のプログラムを作成し、それを私にメールする。
このプログラムを利用して、
1.noun 〜 395.noun を作る。

(9) UNIX のコマンド群とパイプ処理を利用して、
1.noun 〜 395.noun 内の全種類の名詞を取り出せ。

(10) (8)と(9) が完了したらその旨を私にメールする。(完了者: 西野、全、真下)

(11) (9) の処理で M 種類の名詞があったとすれば、
1.txt 〜 395.txt の各文書は M次元のベクトルで表現できる。
ベクトルの値はその名詞の頻度として、
N.txt のファイルを M次元のベクトルで表現せよ。
スパースベクトルになるので、次元数とその値のペアを列挙した形式で
表現すること。Matrix Market 形式。

1,mm 〜 395.mm

(12) (11) が完了したらその旨を私にメールする。(完了者: 西野)

とりあえず、ここまで、ここから索引語文書行列を作れば、
R を使って、クラスタリングなどの処理ができる。