국문과 유목민

[일일리포트] Day 60 (Relation-Map) 본문

IT 견문록/2022_부스트캠프 AITech 3기(100일)

[일일리포트] Day 60 (Relation-Map)

논곰 2022. 4. 14. 23:19
해당 일일리포트에서는 네이버 커넥트에서 진행하는 '부스트캠프 AI Tech 3기'에서 배운 내용을 다루고 있습니다. 저작권 이슈 때문에 관련 자료를 올릴 수는 없기에 핵심 이론과 코드를 요약해서 올리고 있기에 내용이 부족할 수 있습니다.

▶ Today I Learned (핵심 요약 정리)

Relation-Map 선정

오늘은 팀원들과 데이터 라벨을 위한 Relation-map 선정을 진행했다. KLUE 데이터에서 제시하는 Realtion을 베이스로 필요한 부분만 선정하려고 했는데, 이번에 맡은 데이터 주제가 "러시아-우크라이나 전쟁"에 관한 텍스트라서 해당되지 않는 관계가 많았다. 따라서 우리 Task에 맞게 Relation-map 선정을 진행했다.
1시간 30분정도 걸려서 Relation-map 선정을 진행했다. 선정 기준으로는 주어진 텍스트에서 얻고자 하는 정보와 연관이 있는 Entity를 기준으로, 최대한 많은 관계를 형성할 수 있도록 선정을 진행했다.

Relation-map

회색 배경색을 설정한 Relation은 기존 KLUE의 Relation-map에서 가져왔다. 아래는 우리 팀에서 새로운 Entity와 Realation을 선정할 때 근거로 사용했던 토론 내용이다.

  • 전체적인 텍스트가 전쟁, 역사를 다루고 있기 때문에 인물보다는 국가에 대한 Entity가 주로 등장해 '단체'에 관한 관계가 많이 나타난다.
  • 전쟁이라는 텍스트의 특성 상 '적대관계', '우호관계'의 나라나 기관이 주요 Entity로 등장한다.
  • 국가의 병력, 자원, 시설, 무기 등의 '자산'이 Entity로 많이 등장한다.
  • 주제가 가지고 있는 특징 때문에 특정 '사건'을 기준으로 '날짜'나 '장소'가 주요 Entity로 등장한다.

▶ Review (생각)

예전에 라벨링 작업을 해본 경험은 있지만, Relation-map을 선정하거나 가이드라인을 만들어본 경험은 없었기 때문에 초반에 역할을 배분하는 등에서 시간이 좀 오래 걸렸었다. 그리고 예제 Relation-map과 너무 달라서 우리 Task에 맞게 분리하는 게 어려울 것이라고 생각했다. 하지만, 각자 Relation-map을 만들어보고 회의를 진행하면서 유사한 관계도 많이 나왔고 텍스트에 대한 이해도 높아져 괜찮은 관계를 뽑아낼 수 있었다.
아직 Realtion-map과 가이드라인에 관해서 피드백을 받지 않아서 정답이라고 할 수는 없겠지만 지금 당장은 잘 뽑아낸 것 같다는 느낌이 든다. 이번 부스트캠프를 진행하면서 진행하기 어려울 것 같았던 일들도 하다보니 잘 되는 것 같다는 느낌을 많이 받았다. 그리고 열정있고 좋은 사람들과 일을 하는게 왜 중요한지도 나날이 느끼게 되는 것 같다. 이런게 바로 좋은 동료들과 일을 하는 느낌이지 않을까 생각이 들고, 좋은 동료들과 일할 수 있는 직장에 들어갈 수 있도록 노력해야 겠다는 생각을 하게 됐다.