국문과 유목민

[일일리포트] Day 71 (Level2_MRC_2) 본문

IT 견문록/2022_부스트캠프 AITech 3기(100일)

[일일리포트] Day 71 (Level2_MRC_2)

논곰 2022. 4. 29. 21:29

해당 일일리포트에서는 네이버 커넥트에서 진행하는 '부스트캠프 AI Tech 3기'에서 배운 내용을 다루고 있습니다. 저작권 이슈 때문에 관련 자료를 올릴 수는 없기에 핵심 이론과 코드를 요약해서 올리고 있기에 내용이 부족할 수 있습니다.

▶ Today I Learned (핵심 요약 정리)

Sweep 구현

 하이퍼파라미터 튜닝을 위해 Sweep 구현을 진행했다. 이전 프로젝트에서 한 번 구현을 했었기 때문에 비교적 수월하게 구현을 할 수 있었다. 또한, 이전에 정리했던 포스팅([WandB] Huggingface 라이브러리에서 Sweep 사용하기)에서 추가적으로 알게 된 부분에 대해서 별도로 정리했다.

 이번에 하이퍼파라미터 튜닝을 구현하면서 다음 Task에 대해 생각했는데 아직 어떤 파라미터를 튜닝해야하는지에 대해서 감이 잘 안잡혀있다는 생각이 계속 들었다. 그래서 이에 대해 공부할 필요를 느꼈고, 주말 및 다음 주부터는 어떤 파라미터값들을 세팅해야 될 지에 대해서 생각해봐야겠다.

 추가적으로 'top_k_retrieval'을 수정하고 tuning을 진행했는데, 알고보니 train단계에서는 retrieval task가 수행이 안되는 것 같아서 잘못 했다는 것을 깨달았다...확실히 마음만 급하다고 되는게 아니라 시간을 가지고 수행 이유와 목표를 정하고 할 필요가 있을 것 같다. 

▶ Review (생각)

 오늘 한 일은 이렇게 Sweep 정도로 정리할 수 있을 것 같다. 내일부터는 자격증 공부 때문에 프로젝트에 집중하지 못할 것 같은데, 그래도 종종 모델을 돌려놓기는 해야할 것 같아서 파라미터 정도는 좀 알아봐야 겠다는 생각을 했다. 좀 더 세부적인 회고는 주간 회고에서 얘기하겠다.