Как более эффективно использовать Google Ngram

Пример Google Ngram

Языковые и лингвистические исследования часто требуют данных о том, как используются слова, особенно с течением времени. Хотя исследование является необходимостью, наличие инструментов, которые предоставляют вам необходимые данные, приветствуется. Google Ngram Viewer — отличный способ быстро найти тенденции слов в библиотеке Google Books.

В этом посте мы покажем вам, как более эффективно использовать Google Ngram. Сначала давайте познакомим вас с инструментом.

Также читайте: Полезные приложения Google, которые полностью используют ваш аккаунт Google

Введение в Google Ngram

Google поддерживает многоязычную базу данных опубликованного языка. Сканируя книги массово, поисковый гигант может обрабатывать текст и предоставлять статистику на основе частоты слов.

С помощью инструмента поиска Google Ngram Viewer вы можете искать по этим данным. Сравнивая относительную популярность слов, вы можете отследить, как язык и культура изменялись с течением времени.

Однако инструмент Google Ngram может делать гораздо больше, чем просто сообщать о частоте слов, как мы увидим.

Как проводить базовые поиски

Прежде чем перейти к продвинутым «тактикам», давайте рассмотрим, как провести базовый поиск. На странице Google Ngram введите ключевое слово в поле поиска.

Если вы хотите включить все написания слова с заглавной буквы, отметьте кнопку «Игнорировать регистр». Этот поиск будет включать «Tech» и «tech».

Под полем поиска вы также можете установить параметры, такие как диапазон дат и «сглаживание». Последнее значение удаляет атипичные пики и провалы из ваших данных. Более низкие значения сглаживания более точны, в то время как более высокие значения показывают только более глубокие тенденции.

Как выбрать «корпус»

Корпус — это коллекция текстов, которую будет исследовать Ngram Viewer. Значение по умолчанию «Английский» приемлемо для случайного просмотра, но может быть сильно академическим.

Выбор корпуса в Google Ngram.

«Английская художественная литература» будет более точно отражать общий язык. Стандартный корпус «Английский» может быть насыщен нехудожественными текстами с множеством технических слов.

Хотя более глубокий смысл вашего выбора корпуса выходит за рамки этой статьи, Google предлагает краткий обзор правильного выбора для вас.

Проведение продвинутых поисков

Используя дополнительные поисковые слова, вы можете создавать сложные сравнения. Для этого разделите каждый термин запятой.

Поиск нескольких ключевых слов.

Ngram Viewer отобразит относительную частоту ваших поисковых терминов на одном графике. Здесь вы можете навести курсор на линии графика, чтобы увидеть точные данные.

Целевой единственный пункт данных.

Вы также можете использовать звездочку в своих поисковых терминах как подстановочный знак. Например, «Bachelor of *» вернет результаты для многих степеней бакалавра.

Использование подстановочных знаков в поисковых терминах.

Чтобы найти все формы слова, добавьте модификатор «_INF».

Поиск форм в Google Ngram.

Если слово включает множество частей речи, вы можете быть более конкретными, используя текстовые операторы. Допустимые части речи в базе данных Google включают все следующие:

ADJ: прилагательное (быстрый, большой, умный)
ADV: наречие (быстро, позже, всегда)
PRON: местоимение (их, это, мы)
DET: определитель или артикль (a, an, the)
ADP: предлог (предлоги и постположения)
NUM: числительное (первый, второй, пятый)
CONJ: союз (и, ни, но)
PRT: частица, которая является универсальной, редко используемой категорией для других функций слов

Каждое из этих слов может быть объединено в фразы. Например, «ADJ мальчик» вернет пары слов для прилагательного и «мальчика».

Чтобы указать конкретную часть речи для одного поискового термина, добавьте ее в конец. Например, «water_VERB» без завершающего подчеркивания. Чтобы включить каждую часть речи для данного слова, используйте оператор подстановки после подчеркивания.

Функциональные переменные, составные и зависимости

Использование функциональных переменных в Google Ngram.

Функциональные переменные позволяют вам искать по функции или размещению слов.

ROOT — это заполнитель для корня синтаксического дерева предложения. Обычно это основной субъект или слово, модифицируемое глаголом.
START указывает на начало предложения. («START Президент Обама» возвращает только предложения, которые начинаются с фразы «Президент Обама».)
END указывает на конец предложения. («ADP END» возвращает предложения, которые заканчиваются предлогами.)

Объединив поисковые термины с арифметическими операторами, вы можете выполнять простые математические анализы с значениями частоты терминов:

+ добавляет несколько выражений в один поисковый термин
– вычитает выражение справа из выражения слева, предоставляя быстрый способ сравнить относительное использование двух поисковых терминов.
/ делит выражение слева на выражение справа
* умножает выражение для сравнения ngram с широко варьируемой частотой. Убедитесь, что вы заключили весь ngram в скобки, чтобы избежать того, чтобы звездочка была интерпретирована как подстановочный знак.
: (двоеточие) ищет ngram слева в корпусе справа.

Наконец, вы можете установить зависимости с помощью «=>», чтобы искать лингвистические отношения.

Использование зависимостей в Google Ngram.

Например, «car=>fast» вернет результаты, где «fast» грамматически зависел от слова «car» или модифицировал его. Это можно свободно комбинировать с любыми из продвинутых поисковых операций.

Заключение

Поиск тенденций слов имеет множество академических приложений. Быстрый способ найти необходимую информацию — это инструмент Google Ngram. Хорошая новость в том, что он не только позволяет вам проводить базовые поиски. Вы можете применять мощные модификаторы, чтобы уточнить информацию, которая вам нужна.

Никакая функциональность Google Ngram не была бы возможна без продвинутых технологий поисковой системы. Вы впечатлены тем, что может сделать инструмент Google Ngram? Дайте нам знать в комментариях ниже!