정규표현식 몰라도 된다

5일 중 3일을 정규표현식에 할애한 과정을 진행하다가 아차(?) 싶었던 첫 강의가 생각난다. 그렇게 정규표현식 비중을 줄이고 줄여서 현재 정규표현식 과정은 반나절 정도(..) 그럼에도 빠지지 않는 질문이 쉬운 정규표현식? 대체 방법?

정규표현식이 쉬워지는 방법은 많이 써보는 수밖에 없다 보니 정규표현식을 사용하지 않고 원하는 테이블 구조를 만드는 방법에 대한 고민을 자주 한다. 일단 엘라스틱 예제 데이터 생성.

1
2
3
4
5
6
7
POST _bulk
{"index": {"_index": "test"}}
{"url": "/path1/a.php"}
{"index": {"_index": "test"}}
{"url": "/path1/path2/b.php"}
{"index": {"_index": "test"}}
{"url": "/path1/path2/path3/c.php"}

elastic-discover

url 데이터에서 file 정보를 추출해보자. 다음은 읽기 스키마 기반의 런타임 필드 생성 쿼리. grok(정규표현식).extract(소스 필드) 구문을 result 변수에 저장 후 실행(emit)하는 방식.

1
2
3
4
5
6
7
8
9
10
11
12
PUT test/_mapping
{
 "runtime": {
  "file": {
   "type": "keyword",
   "script": """
     String result = grok('.*\\/(?<result>.*)').extract(doc['url.keyword'].value)?.result;
     emit(result);
   """
  }
 }
}

elastic-runtime-field

url은 경로와 file 정보의 조합이며, /로 구분된다는 구조적 특징을 가지고 있다. 데이터 구조를 알고 있으니 /를 기준으로 .*과 같은 단순한 정규표현식 구문으로도 원하는 데이터 가공이 가능한 것.

정규표현식이 낯설다면

file 정보는 /를 기준으로 제일 마지막에 등장한다. 이런 데이터 구조의 특징을 이용하면 정규표현식 몰라도 원하는 방향으로 데이터를 가공할 수 있다. 다음은 /를 기준으로 마지막 문자열을 가져오는 쿼리 구문.

1
2
3
4
5
6
7
8
9
10
11
12
PUT test/_mapping
{
 "runtime": {
  "file": {
   "type": "keyword",
   "script": """
     String result = doc['url.keyword'].value.splitOnToken('/')[-1];
     emit(result);
   """
  }
 }
}

내친 김에 확장자 정보도 추출.

1
2
3
4
5
6
7
8
9
10
11
12
PUT test/_mapping
{
 "runtime": {
  "ext": {
   "type": "keyword",
   "script": """
    String result = doc['url.keyword'].value.splitOnToken('.')[-1];
    emit(result);
   """
  }
 }
}

elastic-runtime-field2

데이터에 대한 이해가 충분하면 정규표현식이든 뭐든, 그냥 다 취사 선택 가능한 툴일 뿐이다. 내게 편한 툴을 선택하면 그만.


Popit은 페이스북 댓글만 사용하고 있습니다. 페이스북 로그인 후 글을 보시면 댓글이 나타납니다.