統計的言語研究の練習

一月の勉強テーマは,統計的言語研究の分析の練習です.
“言語研究のための統計入門 - くろしお出版”で紹介されている八種類の分析方法について,自分でミニ研究テーマを設定して,試してみようと思います.
言語はRを使用します.R言語や言語研究関連パッケージに慣れることも目的の一つです.


仮説検定

初回は仮説検定を試してみます.

仮説検定は,複数のデータに実質的な差(有意差)があると言えるかどうかを客観に判定するために利用される.コーパス研究では,単語やコロケーションなど様々な言語項目の頻度の比較に用いられる.
(”言語研究のための統計入門 - くろしお出版”)


設定テーマ

夏目漱石の著作物は,前期と後期では扱うテーマが変化しているといわれている.
前期では恋愛,後期はエゴイズムをテーマとしているとされるが,それを計量的に検討したい.今回は次の前期三部作と呼ばれる作品群よりも後期の作品群において,”自我”,”自己”,”自分” といった語彙が有意に増えているといえるか測定する.

前期三部作(「三四郎」,「それから」,「門」)
後期三部作(「彼岸過迄(ひがんすぎまで)」,「行人(こうじん)」,「こころ」)


手順

1. まず前期の三作品と後期の三作品をそれぞれまとめたコーパスzenki, koukiを作る.
2. zenki, koukiそれぞれにおける”自我”,”自己”,”自分”の語数と総語数を測定

  • 前期,後期それぞれの総語数
library(RMeCab)  
length(RMeCabText("zenki.txt"))  
length(RMeCabText("kouki.txt"))
file = zenki.txt  
[1] 321852  
file = kouki.txt  
[1] 380648

前期:321852語,後期:380648語ということがわかった

  • 前期,後期の”自我”,”自己”,”自分”の語数
zenki.ego <- zenki[(zenki$Term == "自己" | zenki$Term == "自我" | zenki$Term == "自分" ),]  
z.ego <- sum(zenki.ego$Freq)  
kouki.ego <- kouki[(kouki$Term == "自己" | kouki$Term == "自我" | kouki$Term == "自分" ),]  
k.ego <- sum(kouki.ego$Freq)
> z.ego  
[1] 860  
> k.ego  
[1] 2756

前期では860語,後期では2756語ということがわかった

  • 前期,後期の”自我”,”自己”,”自分”以外の語の語数
nz.ego <- length(RMeCabText("zenki.txt")) - z.ego  
nk.ego <- length(RMeCabText("kouki.txt")) - k.ego
> nz.ego  
[1] 320992  
> nk.ego  
[1] 377892

3. ピアソンのカイ二乗検定に基づく統計量を計算する.

  • 上で求めた z.ego,k.ego,nz.ego,nk.egoを使ったクロス集計表を作成する
cross.natsume <- matrix(c(z.ego, nz.ego, k.ego, nk.ego), nrow = 2, ncol = 2, byrow = TRUE)  
rownames(cross.natsume) <- c("zenki", "kouki")  
colnames(cross.natsume) <- c("'Ego' words", "not'Ego' words")  
cross.natsume
> cross.natsume  
      'Ego' words  not'Ego' words  
zenki         860         320992  
kouki        2756         377892  
>
  • カイ二乗検定をしてくれる関数でクロス表を計算する
chisq.test(cross.natsume)
data:  cross.natsume  
X-squared = 709.82, df = 1, p-value < 2.2e-16

p値は非常に小さい値になりました.p < 0.05 なので,
”自我”,”自己”,”自分”という言葉の頻度は,前期コーパス,後期コーパスの間において
有意水準5%で差があった.といえる.

もう少し詳しい説明をログにて補足しました.
仮説検定の説明

関連記事

この記事へのコメント

まだコメントはありません
1
統計学 / 機械学習 / データ分析 /テキスト処理
1
このエントリーをはてなブックマークに追加