IT 견문록/2022_부스트캠프 AITech 3기(100일)

[일일리포트] Day 63 (1차 파일럿 태깅/본 태깅)

논곰 2022. 4. 19. 21:18

해당 일일리포트에서는 네이버 커넥트에서 진행하는 '부스트캠프 AI Tech 3기'에서 배운 내용을 다루고 있습니다. 저작권 이슈 때문에 관련 자료를 올릴 수는 없기에 핵심 이론과 코드를 요약해서 올리고 있기에 내용이 부족할 수 있습니다.

▶ Today I Learned (핵심 요약 정리)

1차 파일럿 태깅 & 가이드라인 보완

 어제까지 Entity설정 및 파일럿 태깅까지 진행을 했고, 오늘 오전 파일럿 태깅을 완료했다. 우선 원 데이터(대략 2100문장)의 1/20인 100개의 문장을 파일럿 태깅하면서 가이드라인에서 다루지 못했었던 부분들에 대해서 의견을 나눴다. 기존 파일럿 태깅만으로도 Fleiss' Kappa가 0.7이상 나와서, 부캠에서 가이드로 제시한 부분보다 높게 나왔다. 어느정도 가이드라인이 잘 잡혀있구나라는 생각과 동시에, 애매했던 부분에 대해서 팀원들과 회의를 통해 가이드라인을 보완했다. 

1/20개의 데이터에 대한 파일럿 태깅
새로 수정한 가이드라인 내용

Tagging 작업

 파일럿 태깅이 끝나고 바로 태깅 작업을 진행했다. 한 사람 당 대략 415개의 문장이 할당되었고, 내일까지 태깅을 해서 2차 파일럿 태깅(200개)을 진행하기로 계획했다. 파일럿 태깅을 통해 어느 정도 기준을 더 디테일하게 정해놨기에 좀 더 수월하게 작업할 수 있었다. 종종 애매한 부분이나 지침에서 미묘하게 벗어난 부분에 대해서는 메신저를 통해 팀원들과 수시로 얘기를 하면서 보완했다. 

 415개의 문장 태깅을 하는데 대략 4~5시간 정도(연속해서 한 게 아니기 때문에 정확하지 않을 수 있음) 소요된 것 같다. 실제 소요시간은 작업자마다 속도 차이가 있을 것이라고 생각한다. 내일 팀원들과 추가적으로 얘기해보고, 평균적으로 얼마나 걸리는 지에 대해서도 정리해봐야겠다.

▶ Review (생각)

 사실 태깅 작업을 어제 조금 하다가 팀에서 파일럿 태깅을 해야할 것 같다는 얘기가 나와, 파일럿 태깅을 하고 오늘 본격적으로 태깅을 하게 됐다. 이렇다보니까 파일럿 태깅을 통해 가이드라인을 보완하기 이전과 이후를 비교할 수 있게 됐다.

  '내가 생각한 Entity나 Relation이 가이드라인에 부합한가'라는 궁금증이 데이터 태깅 작업을 함에 있어서 가장 어려운 부분이라고 생각한다. 그런 점에서 파일럿 태깅을 하기 전에는 가이드라인 이외의 문장도 많이 등장했기 때문에 이에 대해 생각하고, 팀원들과 토론하면서 시간이 많이 소요됐다. 하지만 파일럿 태깅을 진행한 이후 코퍼스에 텍스트들이 어떤 꼴로 나타나는지, 어떤 예외 문장이 발생하는지, 그리고 이를 어떻게 태깅해야할 지 우리만의 범위를 설정할 수 있었다. 그러다보니 태깅을 좀 더 쉽게 진행할 수 있었고, 속도도 확실히 늘었다는 것을 느낄 수 있었다. 

 물론 파일럿 태깅을 통해 서로의 기준을 맞추는 과정이 쉽지는 않았었다. 하지만, 오늘 오피스아워에서 조교님이 말씀하셨던 것처럼 '모두를 만족시키는 가이드라인은 거의 없다'고 생각한다. 그렇기에 우리 팀이 같이 노력해서 보완한 가이드라인은 이상적이지는 않지만 충분히 괜찮은 가이드라인이라고 얘기하고 싶다.