일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- ODQA
- 백트랙킹
- 알고리즘_스터디
- 개인회고
- Level2
- Level1
- 파이썬 3
- 글또
- python3
- 기술면접
- 최단경로
- U_stage
- 부스트캠프_AITech_3기
- 정렬
- 프로그래머스
- dfs
- 알고리즘스터디
- 백준
- 그래프이론
- dp
- 부스트캠프_AITech3기
- 그리디
- Level2_PStage
- 이진탐색
- 이코테
- 단계별문제풀이
- 구현
- 다시보기
- 주간회고
- mrc
- Today
- Total
국문과 유목민
[14주차] 개인 회고 (데이터 제작 Week 2) 본문
1) 강의 복습 내용
[일일리포트] Day 62 (tagtog_엔티티/관계 설정)
[일일리포트] Day 62 (tagtog_엔티티/관계 설정)
해당 일일리포트에서는 네이버 커넥트에서 진행하는 '부스트캠프 AI Tech 3기'에서 배운 내용을 다루고 있습니다. 저작권 이슈 때문에 관련 자료를 올릴 수는 없기에 핵심 이론과 코드를 요약해서
cold-soup.tistory.com
[일일리포트] Day 63 (1차 파일럿 태깅 / 본 태깅)
[일일리포트] Day 63 (1차 파일럿 태깅 / 본 태깅)
해당 일일리포트에서는 네이버 커넥트에서 진행하는 '부스트캠프 AI Tech 3기'에서 배운 내용을 다루고 있습니다. 저작권 이슈 때문에 관련 자료를 올릴 수는 없기에 핵심 이론과 코드를 요약해서
cold-soup.tistory.com
[일일리포트] Day 64 (2차 파일럿 태깅)
해당 일일리포트에서는 네이버 커넥트에서 진행하는 '부스트캠프 AI Tech 3기'에서 배운 내용을 다루고 있습니다. 저작권 이슈 때문에 관련 자료를 올릴 수는 없기에 핵심 이론과 코드를 요약해서
cold-soup.tistory.com
[일일리포트] Day 65 (WrapUp리포트/발표자료 준비)
[일일리포트] Day 65 (WrapUp리포트/발표자료 준비)
해당 일일리포트에서는 네이버 커넥트에서 진행하는 '부스트캠프 AI Tech 3기'에서 배운 내용을 다루고 있습니다. 저작권 이슈 때문에 관련 자료를 올릴 수는 없기에 핵심 이론과 코드를 요약해서
cold-soup.tistory.com
[일일리포트] Day 66 (프로젝트 정리/발표)
해당 일일리포트에서는 네이버 커넥트에서 진행하는 '부스트캠프 AI Tech 3기'에서 배운 내용을 다루고 있습니다. 저작권 이슈 때문에 관련 자료를 올릴 수는 없기에 핵심 이론과 코드를 요약해서
cold-soup.tistory.com
2) 과제 수행 과정 / 결과물 정리
데이터 제작 프로젝트 결과물
3) 피어세션 정리
이번 주 피어세션은 데이터 제작 프로젝트 관련 내용으로 정리를 할 수 있을 것 같다. 월요일에는 1차 파일럿 태깅, 화요일에는 본 태깅, 수요일에는 2차 파일럿 태깅 및 IAA계산, 모델링을 수행했고, 목요일에는 정리 및 WrapUp리포트 작성을 진행했다. 이번 프로젝트는 크게 힘든 Task가 없었던 것 같다. 타임라인에 맞춰서 꽤 수월하게 타임라인대로 진행할 수 있었다.

추가적으로 이번 데이터 제작 프로젝트에서 Relation을 잘 선정했다는 점에서 발표를 진행하게 됐다. 우리 팀에서 발표를 맡게 돼서 발표자료를 만들고 발표 준비를 했다. 준비를 열심히 한다고 했는데, 너무 다른 부분을 신경쓰다보니 정작 줌 화면 공유를 하는 부분에서 실수를 해버렸다. 그러다보니 페이스가 말려서 조금 속도 조절을 잘 하지 못한 것 같아서 아쉬웠다. 역시 사람은 겸손할 줄 알아야 하는 것 같다. 익숙하다고 생각했던 부분에서도 언제든 실수가 나올 수 있으니 말이다.
4) 학습 회고
이번 주 학습회고는 데이터 제작 프로젝트 마지막 주의 회고이다 보니까 데이터 제작 프로젝트 전반에 대해 회고를 해보고자 한다. 앞서 말했듯이 우리 팀의 경우 다른 팀보다 좀 더 수월하게 프로젝트를 진행했었던 것 같다. 이번에는 초기 프로젝트 시작할 때부터 타임라인에 맞춰서 진행하고자 했기 때문인 것 같다. 그리고 Relation-map 작성 단계에서 전수조사나 국문과 동기 친구에게 물어보거나 하면서 Entity나 Relation을 근거를 가지고 선정할 수 있었던 것 같다. 그리고 해당 부분에서 Relation-map을 잘 선정했다는 점에서 프로젝트 마지막날(오늘) 발표를 하게 되기도 했다.

그리고 가이드라인이나 Tagtog 세팅 등도 다른 팀과 다르게 큰 어려움 없이 할 수 있었다. 우리 팀의 경우 엔티티를 SUB와 OBJ에 대응되게 하지 않고, SUB에만 관계를 설정하고 OBJ를 공유해서 사용하면서 Entity를 줄일 수 있었다. 그리고 색을 통해 엔티티 태깅을 쉽게 할 수 있게 만들었다. 실제 이렇게 세팅을 하고 팀원들에게 태깅 이후 피드백을 들었는데 나중에는 색만 보고 태깅을 할 정도로 꽤나 도움이 많이 됐다는 얘기를 들었다.

그리고 본 태깅을 조금 진행하자마자 질문이 많이 나왔기에, 1차 파일럿 태깅을 통해서 본 태깅 전에 가이드라인을 보완하는 작업을 거쳤다. 이렇게 함으로써 조금 더 태깅 속도를 높일 수 있었다. 그리고 2차 파일럿 태깅 때도 Fleiss Kappa Score를 개선시킬 수 있었다. 그리고 이전 KLUE Comeptiton에서 사용했던 모델을 그대로 활용해서 모델링을 진행했고, 당시 모델과 유사한 성능을 얻을 수 있었다. 이로써 이번 데이터가 KLUE 데이터와 비교했을 때 유사한 수준으로 태깅되었다고 생각할 수 있었다.


이번 프로젝트에서 느꼈던 점을 간단히 정리해보자면, 데이터셋 제작 과정을 경험해볼 수 있는 것은 좋았지만 부족함도 많이 느꼈던 것 같다. 초기에 Entity나 Relation에 대해 잘 정의했다고 생각했지만, 실제 태깅 과정에서 더 많은 예외가 등장하기도 했고, 지침을 잘못 세웠다는 생각이 들기도 했다. 그래서 추후 다른 데이터 제작 Task에 참여하게 된다면, 데이터 제작의 목적성과 가이드라인 확립에 이번보다 더 많은 시간을 투자해야겠다는 생각이 들었다.
마지막으로 데이터 제작 프로젝트 동안 많은 고생을 해주신 MnM조원분들께 감사하다는 말씀 드리고 싶다.

'IT 견문록 > 2022_부스트캠프 AITech 3기(100일)' 카테고리의 다른 글
[일일리포트] Day 68 (Retrieval Basic) (0) | 2022.04.26 |
---|---|
[일일리포트] Day 67 (MRC Basic) (0) | 2022.04.25 |
[일일리포트] Day 66 (프로젝트 정리/발표) (0) | 2022.04.22 |
[일일리포트] Day 65 (WrapUp리포트/발표자료 준비) (2) | 2022.04.21 |
[일일리포트] Day 64 (2차 파일럿 태깅) (0) | 2022.04.20 |