Linux cut 명령어 사용 가이드

Cut Command

Linux의 cut 명령어는 파일의 각 행에서 특정 섹션을 추출하는 데 사용되는 강력한 텍스트 처리 유틸리티입니다. 원본 파일을 수정하지 않고 내용만 읽고 필요한 부분을 표준 출력에 표시합니다. 이 기사에서는 Linux의 cut 명령어의 목적을 살펴보고, 실제 예를 통해 사용하는 방법을 보여줍니다.

cut 명령어 이해하기

cut 명령어는 구조화된 텍스트 작업을 하는 모든 사람에게 유용한 도구로, Unix 유사 시스템에서 효율적인 데이터 조작 및 추출을 가능하게 합니다. 이 명령어는 바이트 위치, 문자 위치, 구분 기호 또는 필드를 기준으로 행의 일부를 추출합니다. 이는 셸 스크립트 및 커맨드 라인 작업에서 데이터를 필터링하고 조직하는 데 특히 유용합니다. CSV 파일에서 열을 가져오거나, 문자를 잘라내거나, 로그 파일을 분석하는 작업에도 유용합니다. 일반적으로 파일과 함께 사용되지만, 파이프라인 내에서 다른 명령의 출력을 처리하는 데에도 사용할 수 있습니다.

cut 명령어의 기본 구문

cut 명령어는 옵션과 파일 이름을 사용하는 매우 간단한 구문을 가지고 있습니다. 작동 방식은 다음과 같습니다:

cut[OPTIONS][FILE]

여기서 OPTIONS는 cut 명령어가 작동하는 방식을 제어하도록 하며, 필드 구분 기호(예: 쉼표)를 선택하고, 특정 필드를 선택하고, 필드 범위를 설정하고, 구분 기호가 없는 행을 무시하는 등의 작업을 수행할 수 있습니다. FILE은 데이터를 추출하려는 대상 파일입니다. 파일을 지정하지 않으면 cut 명령어는 표준 입력에서 읽습니다. 또한 여러 파일을 지정할 수 있으며, 이 경우 cut 명령어는 처리하기 전에 내용을 결합하여 하나로 취급합니다.

일반적으로 사용되는 옵션

cut 명령어는 파일 또는 입력으로부터 특정 텍스트 부분을 추출할 수 있도록 해줍니다. 바이트, 문자 또는 필드를 기준으로 추출할 내용과 특정 구분 기호(구분 기호)를 설정하여 이를 지정할 수 있습니다. 일반적인 옵션은 다음과 같습니다:

-f 또는 –fields=LIST: 선택한 구분 기호에 따라 특정 필드를 선택합니다.
-b 또는 –bytes=LIST: 각 행에서 특정 바이트를 추출합니다.
-c 또는 –characters=LIST: 각 행에서 특정 문자를 추출합니다.
-d 또는 –delimiter: 기본 탭 대신 사용자 지정 구분 기호를 설정합니다.
–complement: 선택된 필드, 바이트, 또는 문자를 제외한 모든 것을 표시합니다.
-s 또는 –only-delimited: 구분 기호가 없는 행은 건너뜁니다. 기본적으로 이러한 행은 포함됩니다.
–output-delimiter: 출력에 대해 다른 구분 기호를 선택할 수 있습니다. 기본적으로 cut는 입력과 동일한 구분 기호를 사용합니다.

-f, -b 및 -c 옵션은 LIST를 사용하여 추출할 내용을 정의합니다. 다음과 같이 지정할 수 있습니다:

단일 숫자 예: 2
쉼표로 구분된 여러 숫자 예: 1,3,5
범위 예: 2-4 (2에서 4까지 추출)
N-는 N 위치에서 끝까지를 의미합니다.
-M은 시작에서 M 위치까지를 의미합니다.

Linux에서 cut 명령어가 작동하는 방식

cut 명령어가 Linux에서 어떻게 작동하는지 이해하기 위해 몇 가지 실제 예를 살펴보겠습니다. 먼저, echo 명령어를 사용하여 “mte.csv”라는 파일을 생성해봅시다:

echo -e "empID,empName,empDesig\n101,Anees,Author\n102,Asghar,Manager\n103,Damian,CEO" > mte.csv

cat 명령어를 사용하여 파일의 내용을 확인해 보겠습니다:

cat mte.csv

Show File Data

여기서 중요한 점은 cut 명령어가 파일을 변경하지 않고, 요청한 내용에 따라 선택된 출력만 보여준다는 것입니다.

문자로 데이터 추출

cut 명령어와 함께 -c 옵션을 사용하여 위치에 따라 문자를 추출합니다:

cut -c 1,8 mte.csv

이 명령어는 각 행의 첫 번째 및 여덟 번째 문자를 추출합니다:

특정 위치 또는 범위 안에서 문자를 추출하기 위해서는 다음과 같이 cut 명령어를 사용할 수 있습니다:

cut -c 1-8 mte.csv

이 명령어는 각 행에서 여덟 번째 문자를 추출합니다 (1에서 8까지).

바이트로 추출

cut 명령어와 함께 -b 옵션을 사용하여 각 행에서 특정 바이트를 추출할 수 있습니다:

cut -b 1-3 mte.csv

이 명령어는 mte.csv라는 파일의 각 행에서 처음 세 바이트를 추출합니다:

필드(열)로 추출

cut 명령어를 사용하여 파일의 전체 필드를 추출할 수 있습니다. 이를 위해 -f와 -d 옵션을 사용합니다:

cut -d ',' -f2 mte.csv

이 명령어에서 -d ','는 구분 기호를 쉼표로 설정하고, -f2는 cut이 mte.csv 파일의 각 행에서 두 번째 필드를 추출하도록 지시합니다:

cut에서 사용자 지정 구분 기호 사용하기

cut 명령어는 기본적으로 구분 기호로 탭을 사용합니다. 그러나 필드가 탭 외의 다른 것으로 구분된 경우, -d를 사용하여 올바른 구분 기호를 설정해야 합니다. 예를 들어, 공백으로 구분된 문장에서 다섯 번째 단어를 가져오기 위해 -d 구분 기호를 다음과 같이 사용할 수 있습니다:

echo "Hey! Geeks Welcome to Maketecheasier.com" | cut -d ' ' -f5

추출 시 특정 필드 건너뛰기

cut 명령어와 함께 --complement 옵션을 사용하여 파일에서 텍스트를 추출하는 동안 특정 필드를 제외할 수 있습니다. 이 옵션은 cut 명령어에 선택된 필드를 제외한 모든 필드를 출력하도록 지시합니다:

cut -d ',' -f1 mte.csv --complement

이 명령어는 첫 번째 열을 건너뛰고 나머지 내용을 반환합니다:

출력에서 기본 구분 기호 변경하기

cut 명령어는 필드를 추출할 때 기본적으로 입력 구분 기호를 출력에서도 유지합니다. 그러나 필드 기반 추출 시 --output-delimiter 옵션을 사용하여 출력 구분 기호를 변경할 수 있습니다:

cut -d ',' -f1-3 --output-delimiter='-' mte.csv

이 명령어는 출력에서 하이픈 -을 구분 기호로 사용합니다:

다른 유용한 Linux 명령어와 함께 cut 사용하기

cut을 다른 Linux 명령어와 함께 파이프라인 기호를 사용하여 실행할 수도 있습니다. 예를 들어, 다음 명령어는 who 명령의 출력에서 각 행의 처음 5자를 추출합니다:

who | cut -c 1-5

다음 예에서는 cut 명령어를 사용하여 mte.csv 파일의 처음 두 줄을 표시하고 오직 empName 및 empDesig 필드만 추출합니다:

head -n2 mte.csv | cut -d ',' -f2,3

Linux cut 명령어로 불규칙한 데이터 형식 관리하기

cut 명령어는 데이터가 깔끔하게 정리되어 있고 각 부분이 동일한 구분 기호로(쉼표나 탭 등) 구분되어 있을 때 가장 잘 작동합니다. 하지만 파일에 고르지 않은 공백이나 혼합된 구분 기호가 있는 경우, cut은 혼자서는 잘 작동하지 않을 수 있습니다. 이러한 경우에는 먼저 tr이나 sed와 같은 명령어로 데이터를 정리하여 cut이 올바른 부분을 추출할 수 있도록 하는 것이 유용합니다.

여분의 공백 처리하기

다음과 같이 여러 공백으로 구분된 필드를 가진 “mteData.txt”라는 파일을 고려해 봅시다:

cat mteData.txt

cut은 일관된 단일 구분 기호를 기대하므로, cut을 적용하기 전에 tr을 사용하여 공백을 단순화할 수 있습니다:

cat mteData.txt | tr -s ' ' | cut -d ' ' -f1-2

이 명령어는 “mteData.txt”의 내용을 읽고, tr을 사용하여 여러 공백을 단일 공백으로 대체한 후, cut을 사용하여 공백으로 분리된 첫 번째 두 필드를 추출합니다:

혼합된 구분 기호 처리하기

파일에 공백과 쉼표가 혼합되어 구분 기호로 사용된다면, sed를 사용하여 형식을 정규화할 수 있습니다. 예를 들어, “mteData1.txt”라는 파일에 다음과 같은 내용이 포함되어 있다고 가정합니다:

cat mteData1.txt

cut 명령어와 함께 sed 명령어를 사용하여 모든 공백을 쉼표로 변경한 후, 첫 번째 및 세 번째 쉼표로 구분된 필드를 추출할 수 있습니다:

sed 's/ /,/g' mteData1.txt | cut -d ',' -f1,3

마무리

이 기사에서는 Linux cut 명령어에 대해 살펴보았으며, 파일이나 파이프라인 입력에서 데이터를 추출하는 데 유용한 명령어임을 알게 되었습니다. 간단한 구문을 통해 구분 기호에 따라 문자, 바이트 또는 필드를 쉽게 얻을 수 있습니다. 또한 tr, sed 및 head와 같은 다른 명령어와 함께 cut 명령어를 사용하여 지저분한 데이터를 관리하고 출력을 단순화하는 방법을 시연했습니다. CSV 파일 작업, 로그 분석 또는 데이터 정리에 관계없이, cut 명령어는 Unix 유사 시스템에서 텍스트 처리를 위한 필수 도구입니다.