Google Ngramをより効果的に使う方法

言語や言語学の研究では、特に時間の経過に伴う単語の使用方法に関するデータが必要です。研究は必要不可欠ですが、必要なデータを手に入れるためのツールがあると便利です。Google Ngram Viewerは、Google Booksライブラリ全体で単語のトレンドを迅速に見つけるための素晴らしい方法です。
この記事では、Google Ngramをより効果的に使用する方法を紹介します。まずは、このツールを紹介しましょう。
こちらもお読みください: あなたのGoogleアカウントを最大限に活用する便利なGoogleアプリ
Google Ngramの紹介
Googleは、公開された言語の多言語データベースを維持しています。書籍を大量にスキャンすることで、検索大手はテキストを処理し、単語の頻度に基づいた統計を提供することができます。
Google Ngram Viewer検索ツールを使用すると、このデータを検索できます。単語の相対的な人気を比較することで、言語と文化が時間の経過とともにどのように変化したかをマッピングできます。
しかし、Google Ngramツールは単に単語の頻度を報告するだけでなく、もっと多くのことができます。
基本検索の実施方法
高度な「戦術」に入る前に、基本的な検索を実行する方法を説明します。Google Ngramページから、検索ボックスにキーワードを入力します。
単語のすべての大文字表記を含めたい場合は、ケースインセンシティブボタンをチェックします。この検索では「Tech」と「tech」が含まれます。
検索ボックスの下では、日付範囲や「スムージング」などのパラメータを設定することもできます。後者の値は、データから異常なスパイクやダウンを除去します。スムージング値が低いほど精度が高く、高い値はより深いトレンドのみを明らかにします。
「コーパス」の選択方法
コーパスは、Ngram Viewerが調べるテキストコレクションです。「英語」のデフォルトはカジュアルなブラウジングには適していますが、非常に学術的になる可能性があります。

「英語フィクション」は、一般的な言語をより正確に反映します。標準の「英語」コーパスは、技術的な単語が多く含まれるノンフィクションが重い場合があります。
コーパスの選択の背後にある深い意味はこの作品の範囲を超えていますが、Googleはあなたに適した選択について簡単な洞察を提供しています。
高度な検索の実施方法
追加の検索語を使用することで、複雑な比較を作成できます。これを行うには、各用語をカンマで区切ります。

Ngram Viewerは、単一のグラフで検索用語の相対的な頻度を表示します。ここでは、グラフの線にカーソルを合わせて正確なデータポイントを見ることができます。

検索用語にアスタリスクを使用してワイルドカードとして利用することもできます。たとえば、「Bachelor of *」は多くの学士号の結果を返します。

用語のすべての屈折を見つけるには、「_INF」修飾子を追加します。

単語が多くの品詞を含む場合、テキスト演算子を使用してより具体的にすることができます。Googleのデータベースで有効な品詞は以下のすべてを含みます:
- ADJ: 形容詞(速い、大きい、賢い)
- ADV: 副詞(速く、後で、常に)
- PRON: 代名詞(彼ら、それ、私たち)
- DET: 限定詞または冠詞(a、an、the)
- ADP: 前置詞(前置詞と後置詞)
- NUM: 数詞(第一、第二、第五)
- CONJ: 接続詞(そして、または、しかし)
- PRT: 助詞、他の単語機能のためのあまり使用されないカテゴリー
これらの各品詞はフレーズに組み合わせることができます。たとえば、「ADJ boy」は形容詞と「boy」の単語ペアを返します。
特定の検索用語に特定の品詞を指定するには、それを末尾に追加します。たとえば、「water_VERB」では、末尾のアンダースコアはありません。特定の単語のすべての品詞を含めるには、アンダースコアの後にワイルドカード演算子を使用します。
機能変数、構成、依存関係

機能変数を使用すると、単語の機能や配置によって検索できます。
- ROOTは、文の構文木のルートのプレースホルダーです。これは通常、主な主語または動詞によって修飾される単語です。
- STARTは文の始まりを示します。(「START President Obama」は、「President Obama」というフレーズで始まる文のみを返します。)
- ENDは文の終わりを示します。(「ADP END」は、前置詞で終わる文を返します。)
検索用語を算術演算子で組み合わせることで、用語頻度の値を使用して簡単な数学的分析を行うことができます:
- +は複数の式を1つの検索用語に追加します。
- –は左側の式から右側の式を引き、2つの検索用語の相対的な使用を比較するための迅速な方法を提供します。
- /は左側の式を右側の式で割ります。
- *は、広く異なる頻度のngramを比較するために式を掛け算します。アスタリスクがワイルドカード文字として解析されないように、全体のngramを括弧で囲むことを確認してください。
- :(コロン)は、右側のコーパス内で左側のngramを検索します。
最後に、「=>」を使用して依存関係を設定し、言語的関係を検索できます。

たとえば、「car=>fast」は、「fast」が文法的に「car」に依存している、または修飾している結果を返します。これは、すべての高度な検索操作と自由に混ぜることができます。
結論
単語のトレンドを検索することには多くの学術的な応用があります。必要な情報を見つけるための迅速な方法は、GoogleのNgramツールです。良いニュースは、基本的な検索を実行するだけでなく、必要な情報を絞り込むために強力な修飾子を適用できることです。
Google Ngramの機能は、検索エンジンの高度な技術があってこそ可能です。Google Ngramツールができることに感心しましたか?下のコメントセクションでお知らせください!