구글 Ngram을 더 효과적으로 사용하는 방법

구글 Ngram의 예

언어 및 언어학 연구는 종종 단어가 어떻게 사용되는지에 대한 데이터가 필요합니다. 특히 시간이 지남에 따라 말이죠. 연구는 필수적이지만, 필요한 데이터를 제공하는 도구가 있다면 반갑습니다. 구글 Ngram 뷰어는 구글 도서관에서 단어 트렌드를 빠르게 찾는 훌륭한 방법입니다.

이 포스트에서는 구글 Ngram을 더 효과적으로 사용하는 방법을 보여드립니다. 먼저, 이 도구를 소개하겠습니다.

또한 읽어보세요: 귀하의 구글 계정을 최대한 활용하는 유용한 구글 앱들

구글 Ngram 소개

구글은 출판된 언어의 다국어 데이터베이스를 유지합니다. 대량으로 책을 스캔함으로써, 검색 거인은 텍스트를 처리하고 단어의 빈도에 기반한 통계를 제공합니다.

구글 Ngram 뷰어 검색 도구를 사용하면 이 데이터를 검색할 수 있습니다. 단어의 상대적인 인기도를 비교함으로써, 시간이 지남에 따라 언어와 문화가 어떻게 변화했는지를 매핑할 수 있습니다.

하지만 구글 Ngram 도구는 단순히 단어 빈도를 보고하는 것 이상의 기능을 수행할 수 있습니다.

기본 검색 수행 방법

고급 “전술”에 들어가기 전에, 기본 검색을 수행하는 방법을 살펴보겠습니다. 구글 Ngram 페이지에서 검색 상자에 키워드를 입력하세요.

단어의 모든 대문자 형태를 포함하고 싶다면, 대소문자 구분 안 함 버튼을 선택하세요. 이 검색은 “Tech”와 “tech”를 포함합니다.

검색 상자 아래에서 날짜 범위 및 “스무딩”과 같은 매개변수를 설정할 수도 있습니다. 후자의 값은 데이터에서 비정상적인 급증과 급락을 제거합니다. 낮은 스무딩 값은 더 정확하며, 높은 값은 더 깊은 트렌드만을 드러냅니다.

“코퍼스” 선택 방법

코퍼스는 Ngram 뷰어가 검사할 텍스트 컬렉션입니다. 기본값인 “영어”는 일반적인 탐색에 적합하지만, 매우 학문적일 수 있습니다.

구글 Ngram에서 코퍼스 선택하기.

“영어 소설”은 일반적인 언어를 더 잘 반영합니다. 표준 “영어” 코퍼스는 비소설이 많고 기술적인 단어가 많을 수 있습니다.

코퍼스 선택의 깊은 의미는 이 글의 범위를 넘어가지만, 구글은 귀하에게 적합한 선택에 대한 간단한 통찰을 제공합니다.

고급 검색 수행 방법

추가 검색어를 사용하여 복잡한 비교를 만들 수 있습니다. 이를 위해 각 용어를 쉼표로 구분하세요.

여러 키워드 검색하기.

Ngram 뷰어는 단일 그래프에서 검색 용어의 상대 빈도를 표시합니다. 여기서 그래프의 선 위에 마우스를 올리면 정확한 데이터 포인트를 볼 수 있습니다.

단일 데이터 포인트 타겟팅하기.

검색 용어에 와일드카드로 별표를 사용할 수도 있습니다. 예를 들어, “Bachelor of *”는 많은 학사 학위에 대한 결과를 반환합니다.

검색 용어에서 와일드카드 사용하기.

용어의 모든 굴절형을 찾으려면 “_INF” 수식어를 추가하세요.

구글 Ngram에서 굴절형 찾기.

단어가 여러 품사를 포함하는 경우, 텍스트 연산자를 사용하여 더 구체적으로 지정할 수 있습니다. 구글의 데이터베이스에서 유효한 품사는 다음과 같습니다:

  • ADJ: 형용사 (빠른, 큰, 스마트)
  • ADV: 부사 (빠르게, 나중에, 항상)
  • PRON: 대명사 (그들의, 그것, 우리)
  • DET: 한정사 또는 관사 (하나, 하나의, 그)
  • ADP: 전치사 (전치사 및 후치사)
  • NUM: 수사 (첫 번째, 두 번째, 다섯 번째)
  • CONJ: 접속사 (그리고, 또는, 하지만)
  • PRT: 입자, 다른 단어 기능을 위한 드물게 사용되는 카테고리

이 각각은 구문으로 결합될 수 있습니다. 예를 들어, “ADJ boy”는 형용사와 “boy”의 단어 쌍을 반환합니다.

하나의 검색 용어에 대해 특정 품사를 지정하려면, 끝에 추가하세요. 예를 들어, “water_VERB”는 후행 밑줄 없이 사용합니다. 주어진 단어의 모든 품사를 포함하려면, 밑줄 뒤에 와일드카드 연산자를 사용하세요.

기능 변수, 구성 및 의존성

구글 Ngram에서 기능 변수 사용하기.

기능 변수는 단어의 기능이나 배치로 검색할 수 있게 해줍니다.

  • ROOT는 문장의 파싱 트리의 루트를 위한 자리 표시자입니다. 이는 일반적으로 주어 또는 동사에 의해 수정된 단어입니다.
  • START는 문장의 시작을 나타냅니다. (“START President Obama”는 “President Obama”라는 구문으로 시작하는 문장만 반환합니다.)
  • END는 문장의 끝을 나타냅니다. (“ADP END“는 전치사로 끝나는 문장을 반환합니다.)

산술 연산자로 검색 용어를 결합함으로써, 용어 빈도에 대한 간단한 수학적 분석을 수행할 수 있습니다:

  • +는 여러 표현을 하나의 검색 용어로 추가합니다.
  • 는 왼쪽 표현에서 오른쪽 표현을 빼서 두 검색 용어의 상대적 사용을 비교하는 빠른 방법을 제공합니다.
  • /는 왼쪽 표현을 오른쪽 표현으로 나눕니다.
  • *는 표현을 곱하여 다양한 빈도의 ngram을 비교합니다. 별표가 와일드카드 문자로 해석되지 않도록 전체 ngram을 괄호로 묶어야 합니다.
  • : (콜론)은 오른쪽 코퍼스 내에서 왼쪽 ngram을 검색합니다.

마지막으로, “=>”로 의존성을 설정하여 언어적 관계를 검색할 수 있습니다.

구글 Ngram에서 의존성 사용하기.

예를 들어, “car=>fast”는 “fast”가 문법적으로 “car”라는 단어에 의존하거나 수정하는 결과를 반환합니다. 이는 고급 검색 작업과 자유롭게 혼합할 수 있습니다.

결론

단어 트렌드를 검색하는 것은 많은 학문적 응용 프로그램이 있습니다. 필요한 정보를 찾는 빠른 방법은 구글의 Ngram 도구입니다. 좋은 소식은 기본 검색을 수행할 수 있을 뿐만 아니라, 필요한 정보를 좁히기 위해 강력한 수식어를 적용할 수 있다는 것입니다.

구글 Ngram의 기능은 검색 엔진의 고급 기술 없이는 불가능했을 것입니다. 구글 Ngram 도구가 할 수 있는 것에 감명받으셨나요? 아래 댓글 섹션에서 알려주세요!