新納研学生の課題提出状況

TeX

	西野	金田	全	真下
火曜	6月21日完了	7月11日完了	7月5日完了	6月8日完了
水曜	6月21日完了	7月11日完了	7月6日完了	7月13日完了
木曜	6月21日完了	7月11日完了	7月12日完了	7月13日完了
金曜	6月21日完了	7月11日完了	7月14日完了	7月13日完了
土曜	6月21日完了	7月11日完了	7月14日完了	7月13日完了

ベクトル化

(1) Cygwin をインストールできたら、私にその旨をメールする。(完了者：西野、真下、全、金田)

(2) http://nlp.dse.ibaraki.ac.jp/~shinnou/newnews.zip をダウンロードして、
どこかのディレクトリの下に展開する。
1.txt ～ 395.txt の 395個のテキストファイルができる。

(3) Cygwin の環境の中で
3-1) nkf をインストールする
3-2) Cygwin の中で mecab を使えるように PATH を設定する、
あるいはリンクを張る

(4) (2)と(3) が完了したらその旨を私にメールする。(完了者：西野、真下、全、金田)

(5) 1.txt ～ 395.txt のテキストファイルはコードが EUC である。
これを nkf を利用して、SJIS に変換せよ。
N.txt ---> N.sjis
1.sjis ～ 395.sjis を作る。

(6) 1.sjis ～ 395.sjis の各テキストファイルを mecab で形態素解析する。
N.txt ---> N.mcb
1.mcb ～ 395.mcb を作る。

(7) (5)と(6) が完了したらその旨を私にメールする。(完了者：西野、全、真下、金田)

(8) N.mcb ファイルから名詞の単語を取り出す
C のプログラムを作成し、それを私にメールする。
このプログラムを利用して、
1.noun ～ 395.noun を作る。

(9) UNIX のコマンド群とパイプ処理を利用して、
1.noun ～ 395.noun 内の全種類の名詞を取り出せ。

(10) (8)と(9) が完了したらその旨を私にメールする。(完了者：西野、全、真下)

(11) (9) の処理で M 種類の名詞があったとすれば、
1.txt ～ 395.txt の各文書は M次元のベクトルで表現できる。
ベクトルの値はその名詞の頻度として、
N.txt のファイルを M次元のベクトルで表現せよ。
スパースベクトルになるので、次元数とその値のペアを列挙した形式で
表現すること。Matrix Market 形式。

1,mm ～ 395.mm

(12) (11) が完了したらその旨を私にメールする。(完了者：西野)

とりあえず、ここまで、ここから索引語文書行列を作れば、
R を使って、クラスタリングなどの処理ができる。