일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 백트랙킹
- U_stage
- Level1
- 구현
- dp
- 프로그래머스
- 그리디
- 부스트캠프_AITech_3기
- 주간회고
- 최단경로
- mrc
- 그래프이론
- 부스트캠프_AITech3기
- python3
- 알고리즘스터디
- ODQA
- 단계별문제풀이
- 알고리즘_스터디
- Level2
- dfs
- 파이썬 3
- 개인회고
- 백준
- 다시보기
- Level2_PStage
- 이코테
- 정렬
- 기술면접
- 글또
- 이진탐색
- Today
- Total
국문과 유목민
[일일리포트] Day 83 (프로토타입_2/ FinalProject_3) 본문
해당 일일리포트에서는 네이버 커넥트에서 진행하는 '부스트캠프 AI Tech 3기'에서 배운 내용을 다루고 있습니다. 저작권 이슈 때문에 관련 자료를 올릴 수는 없기에 핵심 이론과 코드를 요약해서 올리고 있기에 내용이 부족할 수 있습니다.
▶ Today I Learned (핵심 요약 정리)
Stremalit 과제 (ODQA 프로토타입 구현)
이전 ODQA 실습 진행을 했던 코드를 활용해서, 이전 대회에서 사용했던 모델들을 활용해서 만들고자 했다. Streamlit이라는 처음 활용하는 도구와 Retrieval 단계를 잘 이해하지 못해 생긴 오류 등이 겹쳐서 시간이 꽤나 오래걸렸다. 생긴 오류에 대해 간단하게 얘기하자면, 초기 TF-IDF를 사용하려다 생긴 not fitting 문제, Streamlit의 NotHashable 문제, Roberta모델 사용 안되는 문제, st.write가 표시되지 않는 문제, 실습 코드에서는 top-k설정을 다루지 않았기 때문에 이를 다시 수정해야하는 문제 등이 생겼었다. 몇 가지 문제는 해결했는데, 아직 해결하지 못한 문제는 내일 추가적으로 해결해야겠다.
- Streamlit NotHashable 문제: 현재 st.cache에 Tokenizer를 넣어줘서 모델을 돌리고 있기는 하지만, 다른 클래스도 적용시켜야할 것 같다는 생각이 든다.
- st.write 표시 안 되는 문제: st.write가 일부 변수나 텍스트를 출력하지 못하는 문제가 있다. 특정 상황에서는 출력되고, 또 안 되고 그러는 것 같은데...이유를 찾아봐야겠다.
- top-k: 이전 실습 코드에서는 top-k가 1이어었기 때문에 고려가 전혀 안되어 있었다. 따라서 이를 해결할 수 있도록 코드를 수정할 필요가 있다.
- 답을 못 찾았을 경우에 대한 처리 문제: 만약 답을 찾지 못했다면 0을 리턴하는 것처럼 보인다. 이를 해결할 수 있어야 할 것 같다.
최종 프로젝트가 ODQA와 관련된 주제이다 보니까, 이번 Streamlit 과제를 잘 수행한다면 이를 활용해서 수정할 수 있을 것이라는 생각이 든다. 지금 겪는 어려움은 나중에 겪을 어려움을 당겨서 쓴다고 생각하고 막히는 부분들을 잘 이해하고 넘어가면 좋겠다.
FinalProject_3 (데이터 질문 선정 및 데이터셋 조사)
어제까지 주제를 확정 지은 이후 데이터셋 선정과 QA 데이터 구축을 위한 질문 선정을 진행했다. 처음에는국회 회의록 데이터를 활용해서 질문을 뽑아보자고 얘기를 했다. 모든 팀원이 10개 정도 질문을 선정해서 공유했다. 질문을 선정하고, 같이 얘기하면서 공통적으로 느낀 점은 데이터셋이 우리가 하려는 Task와 맞지 않는 것 같다는 느낌을 받았다. 대화의 주제가 정책적인 부분을 다루고, 서로 공격하고, 잘못을 추궁하는 내용이 많다보니 우리가 원하는 질문을 뽑기 어려울 것 같다는 생각이 들었다.
그래서 우리가 회의 후 회의록에서 궁금해 할만한 내용이 무엇일지에 대해서 생각해봤다. 다음과 같이 8가지 정도의 질문유형과 분류로 나눠서 뽑았다. 최대한 ODQA Task에서 다룰 수 있을만한 질문을 뽑고자 했다. 이렇게 질문을 뽑은 이후 이런 질문에 대한 대답을 수행할 수 있는 데이터셋을 찾기로 했다. 확실히 처리해야하는 질문에 대해서 정해지고 나니까 어떤 데이터셋을 찾아야할 지도 같이 생각할 수 있게 된 것 같다.
▶ Review (생각)
오늘 오전까지는 Streamlit관련된 강의를 마저 듣고, Streamlit 강의의 연장선으로 과제를 진행했다. 2시 컴퍼니데이, 4시 피에서션, 6시 두런두런까지 이어지다보니 7시 넘어서야 과제를 수행할 수 있는 시간이 돼 저녁부터 과제를 진행했다. 오늘은 시간이 매우 빠르게 지나갔다는 생각이 들었는데, 블로그를 정리하다보니까 '진짜 빨리 지나갔다고 느낄 수밖에 없네...'라는 생각이 들었다.
하루하루 해야할 일들이 많아지고 있는 것 같고, 그러다보니 괜히 더 초조해지고 한 가지에 집중하지 못하게 되는 것 같다. 계속 신경이 쓰이는 부분은 이력서 다듬는 것인데, 이거를 빨리 수정해야 멘토님들께 다시 피드백을 받을 수 있다고 생각했기 때문이었던 것 같다. 내일은 미뤄왔던 최종 프로젝트 관련해서 데이터셋을 찾고, 과제를 마무리한 이후, 최종 프로젝트 관련해서 마일스톤과 to-do리스트 작성하고, 이력서 피드백을 받았던 내용들을 정리해야 할 것 같다. 그리고 강의는 그 이후에 시간이 남으면 들어야겠다. 아 그리고 교육 끝난 이후 취업 준비할만한 프로그램에 대해 신청하고, 코테도 준비해야 하는데 이거는 주말로 미뤄야겠다.
부캠 초기에 이 정도 바쁠 거라고 예상했었지만, 꽤 시간이 지나다보니 까먹었던 것 같다. 마지막까지 다시 한 번 불태워서 열심히 해봐야겠다.
'IT 견문록 > 2022_부스트캠프 AITech 3기(100일)' 카테고리의 다른 글
[일일리포트] Day 85 (FinalProject_5) (0) | 2022.05.20 |
---|---|
[일일리포트] Day 84 (프로토타입_3/ FinalProject_4) (0) | 2022.05.20 |
[일일리포트] Day 82 (프로토타입_1 / FinalProject_2) (0) | 2022.05.18 |
[일일리포트] Day 81 (ProductServing_1/ FinalProject_1) (0) | 2022.05.16 |
[17주차] 개인 회고 (Level2_MRC_프로젝트 정리) (0) | 2022.05.13 |