always one step forward

Google books Ngram Viewer概観

Google Booksに蓄積された膨大なテキスト情報を対象とした、形態素解析構文解析の結果をもとに、「この単語は歴史的にどんな頻度で登場してきたか」「この名詞はどんな動詞と仲良しか(共起頻度が高いか)」などが簡単に検索できるサイト。英語中心。最近知ったのだけれど、いろいろ面白かったので試してみた結果を以下に:

  • Google books Ngram Viewer

    • すでに「Albert Einstein, Sherlock Holmes, Frankenstein」の検索例が入った状態で表示される
    • 年代を変えたり、“from the corpus” を British English に変えたりいろいろ自由に
  • About Ngram Viewer

    • 説明に関してはこのページが全て。サンプルも豊富。最初はこのページを全訳しようかという勢いで読んでいたいたけれど、まあグラフでほぼ説明されているので訳はやめた
  • Google Books History

    • 2002年からプロジェクト発足、データ化・収集を始めたとある
    • 対象文献の最新は(以下の例のように)2008年の分のようだ(2011などを入力しても2008に自動修正)
    • 対象文献の古いほうは、たとえば1500などを指定してもグラフ表示される。つまりデータがあるということ。しかし(電子化されたテキスト、という形での)母数そのものが少ないのではと推測される。まあいろいろ試した中では、1800とか1900を指定するのが妥当な気がする

検索例

凡例

  • corpus: (言語名)
    • 検索対象のコーパス説明ページのかなり下のほう「Corpora」項に説明がある
    • 例)British English
      • “Books predominantly in the English language that were published in Great Britain.” イギリスで発行された、主として英語で書かれた書籍
    • English
      • “Books predominantly in the English language published in any country.” 国を問わず、主として英語で書かれた書籍
  • 縦軸の % = 登場頻度の大きさ(目安)
    • 説明ページには bigram, unigram の字があるけれど、要は、「指定した単語(2語以上ならそのフレーズ)が、指定したコーパス中にどの程度の割合で含まれているか」とみなしてよさそう
    • What the y-axis shows is this: of all the bigrams contained in our sample of books written in English and published in the United States, what percentage of them are "nursery school" or "child care"? Of all the unigrams, what percentage of them are "kindergarten"?

center, centre

いわゆる英国綴り centre の使用され具合は歴史的にどう変化してきたか。イギリス英語ではやっぱり center 登場は少ないのかどうか

  • corpus: English 1800-2008 http://goo.gl/v1a3tP
    • 1910年代以降、centerがcentreより優勢
    • 1945年あたりのcenterの緩いピークは少し気になる。何か理由があってcenterという語の登場頻度が上がった(戦争関連?この理由までは深く追っていない)
  • corpus: American English 1800-2008 http://goo.gl/g6hpQ7
    • 1910年代以降は、Englishの結果と形状はあまり変わらない
  • corpus: British English 1800-2008 http://goo.gl/GGPJon
    • さすがに常にcentre優勢
    • この2つからは、何となく、Englishコーパスの大部分がAmerican Englishから成っているとわかる
    • 言い換えれば “published in any country” とはいえ、アメリカ英語圏からの収集がやや多いのではという推測もできる

many, a lot of, lot of

よくある「a lot of, lots ofどちらがメジャーか」問題

いずれからもa lot ofが主流と判明(*5 はY軸方向に5倍したことを示す。単に表示上比較しやすくするため)

Advanced Usage 応用検索編

説明ページ後半にあるように、単なる単語抽出ではなく形態素解析+構文解析も行われているため、以下のような詳細指定で検索もできる:

  • Wildcard search
  • Inflection search
    • _INF をくっつけると活用形を考慮した検索が可能
    • searching "book_INF a hotel" will display results for "book", "booked", "books", and "booking"

  • Case insensitive search
    • デフォルトでは case-sensitive 大文字/小文字を区別した検索
    • 大文字/小文字区別なしでも検索可能。結果に (All) が付き、右クリックで内訳表示
    • right click on "Dupont (All)" results in the following four variants: "DuPont", "Dupont", "duPont" and "DUPONT"

  • Part-of-speech Tags
    • 品詞種類を含めたキーワード指定
  • Ngram Compositions
    • いわゆるand, or検索、検索結果の(Y軸方向の)演算が可能

(_ROOT_=>may), (_ROOT_=>might)

あまり好例ではないけれど、例えば、Fictionの文章にはmayよりもmightが多いかなあという点を確認してみた。ついでに、文章の主語を検出できる ROOT 指定も試した。主語はもちろん文の先頭に来るとは限らず、これは構文解析を通さないと得られない情報。

  • _ROOT_=>may で、「文の主語に紐づくmay」だけを抽出
    • 説明ページの _ROOT_ の箇所の例を借りると、
      • Larry may decide. にはマッチして、
      • Larry said that he may decide. にはマッチしない

*100 はY軸方向に100倍したことを示す。単に表示上比較しやすくするため。もし結果表示されない場合はそのまま [Search lots of books] クリックしてください

  • corpus: English 1900-2008 http://goo.gl/SbIjtp
    • 全体だと、やっぱり色んなケースで使われるであろうmayが優勢。mightは同じ推量や推定でも”弱い”というニュアンスがある(はず)なので、(何かを論じた過程の集合体である)書籍全体における登場頻度は、mayよりも低い
  • corpus: English Fiction 1900-2008 http://goo.gl/uOCy4r
    • Fictionに限ると、mightが優勢。いわゆる小説的表現が増えるからかもしれない(これもあくまで”推測”)

日本語版は‥

選択できるコーパスにJapaneseはなく、日本語には未対応。

やっぱり思うのは「この日本語版できないかな=日本語の書籍・Web上のテキストから、同じような蓄積や分析は出来ないものか」‥ヤフー、グーグル、マイクロソフトあたりはおそらく行っている、もしくはやろうと思えば実現できるんだろうなあ。まあ、歴史を紐解いたところでSo what?なのは英語も日本語も同じかもしれないけれども。膨大なテキストソースから見えてくる言葉の移り変わり、というのは高品質な知的情報だろうなとは感じる。