[일일리포트] Day 62 (tagtog_엔티티/관계 설정)
해당 일일리포트에서는 네이버 커넥트에서 진행하는 '부스트캠프 AI Tech 3기'에서 배운 내용을 다루고 있습니다. 저작권 이슈 때문에 관련 자료를 올릴 수는 없기에 핵심 이론과 코드를 요약해서 올리고 있기에 내용이 부족할 수 있습니다.
▶ Today I Learned (핵심 요약 정리)
데이터 태깅
저번 주까지 Relation-map과 가이드라인을 만들어서 데이터 태깅을 진행하고자 했다. 하지만 Tagtog 사이트를 이용해서 태깅을 하려고 하니까, Entity Subject와 object의 관계를 일일이 태깅해야해서 목록이 너무 많이 생기는 문제가 발생했다. 따라서 우리 조는 Subject 엔티티에만 관계를 설정하고, Object는 돌려 사용하기로 했다. 이렇게 함으로써 40개 정도로 예상되던 Entity타입을 20개로 줄일 수 있었다. 추가적으로 Subject 엔티티의 색상은 원색으로, Object 엔티티의 색상은 파스텔색으로 설정해 작업자들이 색상으로도 쉽게 SUB과 OBJ를 구분할 수 있게 했다.
2000개의 문장을 400개씩 나눠서 태깅을 진행했는데, 1차 가이드라인을 기준으로 태깅을 하다보니 예외 케이스가 많이 생겼다. 몇 번의 예외 케이스마다 카톡을 통해 토론을 진행했지만, 점점 시간이 길어지고 정보가 잘 공유되지 못하는 경우도 있었다. 따라서 파일럿 태깅을 통해서 어느정도 기준을 잡고자 했다. 원래는 전체 데이터의 1/10개에 해당하는 문장을 대상으로 하려고 했으나 코어타임에 어느정도 상의한 부분이 있어서 1/20개의 문장을 대상으로 정했다. 오늘 태깅을 해봤는데, 확실히 애매한 부분도 있었고, 엔티티 태깅 기준에 대해서도 얘기할 필요가 있다는 생각을 했다. 내일 이에 대해서 팀원들과 얘기를 해봐야겠다.
▶ Review (생각)
이번 주부터 데이터 제작 단계에 들어가게 되었는데, 저번 주에 팀원들과 초기 방향을 잘 잡아둬서 좀 수월했던 것 같다. 태깅 작업을 하면서 헷갈리는 부분이나 토론해야할 부분들이 생기리라 생각했었기 때문에 당황스럽거나 하지는 않았다. 하지만 초기 가이드라인이나 방향성 설정이 중요한 지에 대해서는 확실히 알게 되었다. 만약 이러한 부분이 부족했더라면 팀원들의 기준이 모두 달라 좋은 데이터 라벨링이 힘들었을 것 같다.
오늘 추가적으로 시간이 있어 기존 브레인스토밍을 진행하던 프로젝트 주제를 5개 정도로 줄였다. 아직 다른 부분에도 신경쓸 게 있다보니까 제대로 준비를 못했었는데, 다른 팀원 분들께서 잘 준비해주신 덕분에 괜찮은 주제로 추릴 수 있었던 것 같다. 이번 주에는 좀 시간이 있으니까 추려진 프로젝트를 좀 더 깊게 조사해서 develop시켜봐야겠다.