본문 바로가기
Database/MYSQL

MySQL UTF8MB4 Charset의 Collation 선택 (대소문자, 전각/반각, emoji 문자 구분)

by 반화넬 2020. 6. 26.
반응형

MySQL에서 collation으로 인해 흔히 겪게 되는 문제는 알파벳 대소문자 구분 문제이다.

MySQL은 기본적으로 ci(case insensitive) collation을 사용하기 때문에, 알파벳의 대소문자를 동일 문자로 취급하기 때문이다.

하지만 collation의 세계는 여기서 끝이 아니다.

collation의 선택에 따라 알파벳 대소문자 구분부터, emoji 문자(4byte utf8)의 구분, 전각/반각 문자의 구분 처리가 다 달라지기 때문에, collation 선택은 매우 신중해야 한다.

다양한 문자를 처리해야 하는 환경(특히 다국어 서비스)에서 문자열을 DB에 저장하고 비교한다면 더욱 collation의 선택에 많은 고민이 필요하다.

 

utf8mb4 charset 기준으로 우리가 선택할 수 있는 collataion은 utf8mb4_general_ci, utf8mb4_bin, utf8mb4_unicode_ci, utf8mb4_unicode_520_ci 정도가 있다. (general_ci collation은 mysql의 default 속성)

실제로는 유럽 국가들을 위한 더 많은 collation이 있지만 본 포스팅에서는 무시. ^^

테이블의 collataion 속성을 utf8mb4_general_ci, utf8mb4_bin, utf8mb4_unicode_ci, utf8mb4_unicode_520_ci로 변경하면서, 간단한 SELECT 쿼리로 collation 별 특성을 비교해 보았다.

 

mysql> CREATE TABLE collation_test (seq int auto_increment primary key, word varchar(16)) CHARSET utf8mb4 COLLATE utf8mb4_general_ci ;

 

-- 알파벳 대문자(반각) WIKI , 알파벳 소문자(반각) wiki , 알파벳 소문자(전각) wiki

-- 숫자(반각) 123 , 숫자(전각) 123

-- 가타가나(전각) アリガトウ , 가타가나(반각) アリカトウ

-- emoji 문자 2개 ?, ?

mysql> INSERT INTO collation_test(word) VALUES

('WIKI'),('wiki'),('wiki'),('123'),('123'),('アリガトウ'),('アリカトウ'),( x'F09F9881' ),(x'F09F9882');

 

mysql> select seq, word, hex(word), length(word), char_length(word) from collation_test;

+-----+-----------------+--------------------------------+--------------+-------------------+

| seq | word | hex(word) | length(word) | char_length(word) |

+-----+-----------------+--------------------------------+--------------+-------------------+

| 1 | WIKI | 57494B49 | 4 | 4 |

| 2 | wiki | 77696B69 | 4 | 4 |

| 3 | wiki | EFBD97EFBD89EFBD8BEFBD89 | 12 | 4 |

| 4 | 123 | 313233 | 3 | 3 |

| 5 | 123 | EFBC91EFBC92EFBC93 | 9 | 3 |

| 6 | アリガトウ | E382A2E383AAE382ACE38388E382A6 | 15 | 5 |

| 7 | アリカトウ | EFBDB1EFBE98EFBDB6EFBE84EFBDB3 | 15 | 5 |

| 8 | ? | F09F9881 | 4 | 1 |

| 9 | ? | F09F9882 | 4 | 1 |

+-----+-----------------+--------------------------------+--------------+-------------------+

9 rows in set (0.00 sec)

 

● SELECT 쿼리 결과

select * from

collation_test

where ...

utf8mb4_general_ci

utf8mb4_bin

utf8mb4_unicode_ci

utf8mb4_unicode_520_ci

word = 'wiki'

+-----+------+

| seq | word |

+-----+------+

| 1 | WIKI |

| 2 | wiki |

+-----+------+

+-----+------+

| seq | word |

+-----+------+

| 2 | wiki |

+-----+------+

+-----+--------------+

| seq | word |

+-----+--------------+

| 1 | WIKI |

| 2 | wiki |

| 3 | wiki |

+-----+--------------+

+-----+--------------+

| seq | word |

+-----+--------------+

| 1 | WIKI |

| 2 | wiki |

| 3 | wiki |

+-----+--------------+

word = 'wiki';

+-----+--------------+

| seq | word |

+-----+--------------+

| 3 | wiki |

+-----+--------------+

+-----+--------------+

| seq | word |

+-----+--------------+

| 3 | wiki |

+-----+--------------+

+-----+--------------+

| seq | word |

+-----+--------------+

| 1 | WIKI |

| 2 | wiki |

| 3 | wiki |

+-----+--------------+

+-----+--------------+

| seq | word |

+-----+--------------+

| 1 | WIKI |

| 2 | wiki |

| 3 | wiki |

+-----+--------------+

word = 'アリガトウ'

+-----+-----------------+

| seq | word |

+-----+-----------------+

| 6 | アリガトウ |

+-----+-----------------+

+-----+-----------------+

| seq | word |

+-----+-----------------+

| 6 | アリガトウ |

+-----+-----------------+

+-----+-----------------+

| seq | word |

+-----+-----------------+

| 6 | アリガトウ |

| 7 | アリカトウ |

+-----+-----------------+

+-----+-----------------+

| seq | word |

+-----+-----------------+

| 6 | アリガトウ |

| 7 | アリカトウ |

+-----+-----------------+

word = 'アリカトウ'

+-----+-----------------+

| seq | word |

+-----+-----------------+

| 7 | アリカトウ |

+-----+-----------------+

+-----+-----------------+

| seq | word |

+-----+-----------------+

| 7 | アリカトウ |

+-----+-----------------+

+-----+-----------------+

| seq | word |

+-----+-----------------+

| 6 | アリガトウ |

| 7 | アリカトウ |

+-----+-----------------+

+-----+-----------------+

| seq | word |

+-----+-----------------+

| 6 | アリガトウ |

| 7 | アリカトウ |

+-----+-----------------+

word = '123'

+-----+------+

| seq | word |

+-----+------+

| 4 | 123 |

+-----+------+

+-----+------+

| seq | word |

+-----+------+

| 4 | 123 |

+-----+------+

+-----+-----------+

| seq | word |

+-----+-----------+

| 4 | 123 |

| 5 | 123 |

+-----+-----------+

+-----+-----------+

| seq | word |

+-----+-----------+

| 4 | 123 |

| 5 | 123 |

+-----+-----------+

word = x'F09F9881'

+-----+------+

| seq | word |

+-----+------+

| 8 | ? |

| 9 | ? |

+-----+------+

+-----+------+

| seq | word |

+-----+------+

| 8 | ? |

+-----+------+

+-----+------+

| seq | word |

+-----+------+

| 8 | ? |

| 9 | ? |

+-----+------+

+-----+------+

| seq | word |

+-----+------+

| 8 | ? |

+-----+------+

utf8mb4_general_ci collation은 기본 collation이며, 위에서 언급했던 대로 알파벳의 대소문자를 구분하지 않는다.

저장은 입력한대로 되지만, 문자열 비교나 인덱싱을 할 때, 악센트 부호 제거 후 UPPER 처리를 해버리기 때문에 대소문자를 포함, 악센트 부호가 달린 알파벳들을 동일 문자로 취급한다.

emoji 문자에 대한 구분 역시 하지 않고, 모든 emoji 문자를 같은 문자인 것으로 취급한다.

반면, 전각/반각 문자에 대해서는 서로 다른 문자로 취급한다.

 

utf8mb4_bin collation은 인위적인 변환없이 저장한 데이터의 hex 값을 기준으로 판단한다.

당연히 알파벳 대소문자를 비롯하여, 전각/반각 문자, emoji 문자를 모두 다른 문자로 취급한다.

 

utf8mb4_unicode_ci와 utf8mb4_general_ci는 문자 정렬 순서에 약간의 차이가 있을 뿐 거의 비슷한 형태의 collation을 제공하는 것으로 알려져 있다.

(general 쪽은 좀 더 human friendly, unicode 쪽은 performance 최적)

하지만 실제 결과를 보면 utf8mb4_general_ci와는 다르게, utf8mb4_unicode_ci는 전각/반각 문자를 구분하지 않는 것을 확인할 수 있다.

 

utf8mb4_unicode_ci 속성의 테이블에 emoji 문자를 저장하는 경우, 모든 emoji 문자를 동일 문자로 취급하는 속성 때문에 검색에 제약이 발생할 수 있다.

utf8mb4_unicode_520_ci collation은 unicode_ci 속성은 유지하면서, emoji 문자에 대한 구분을 추가로 제공한다.

emoji 문자를 비교/검색 한다면 utf8mb4_unicode_520_ci collation을 선택해야 한다.

 

● 결과 정리

 

utf8mb4_general_ci

utf8mb4_bin

utf8mb4_unicode_ci

utf8mb4_unicode_520_ci

알파벳 대소문자 구분

X

O

X

X

전각/반각 문자 구분

(알파벳, 숫자, 가타가나 등)

O

O

X

X

emoji 문자 구분

X

O

X

O

 

정리를 해 놓고 보니, utf8mb4_general_520_ci는 왜 없는 것인가?

general_ci 속성을 유지한채로 emoji 문자의 구분이 필요한 경우도 있을텐데... ;;;

이런 경우에는 hex 값을 추가로 비교하는 등의 꼼수를 써야 할 것으로 보인다.

반응형