일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- 부스트캠프_AITech3기
- mrc
- 알고리즘_스터디
- 글또
- 그리디
- 이진탐색
- 백트랙킹
- 그래프이론
- 알고리즘스터디
- 백준
- Level2_PStage
- 파이썬 3
- 구현
- 부스트캠프_AITech_3기
- U_stage
- 개인회고
- 다시보기
- Level2
- ODQA
- 정렬
- 최단경로
- Level1
- python3
- 프로그래머스
- 단계별문제풀이
- 이코테
- 기술면접
- dp
- 주간회고
- dfs
- Today
- Total
국문과 유목민
[일일리포트] Day 50 (Level2_PStage_6, GPT, Chatbot) 본문
[일일리포트] Day 50 (Level2_PStage_6, GPT, Chatbot)
논곰 2022. 3. 31. 23:39해당 일일리포트에서는 네이버 커넥트에서 진행하는 '부스트캠프 AI Tech 3기'에서 배운 내용을 다루고 있습니다. 저작권 이슈 때문에 관련 자료를 올릴 수는 없기에 핵심 이론과 코드를 요약해서 올리고 있기에 내용이 부족할 수 있습니다.
▶ 오늘 한 일
모델 학습 진행 (학습)
실험1
어제에 연장선으로 Input sentence tagging 작업 위주로 실험을 진행했다. 우선, 오전까지 가장 좋은 성능을 보여준 모델을 대상으로 valid 데이터 없이 train을 진행했다. 해당 실험의 경우 단순하게 기존 base model과 같은 조건에서 점수가 올라간 코드만 수정해서 학습을 진행하면 그 이상 성능이 올라갈 것이라는 가설에서 진행했다.
하지만 실험 결과 오전까지 가장 좋은 성능을 보여준 모델과 비교해서 점수는 올라갔지만, 가설을 세웠던 만큼 다이나믹하게 증가하지는 못했다. 하지만, 나중에 성능을 끌어올릴 때 valid의 비율을 줄이면 성능이 올라갈 것 같기는 하다.
실험2
Typed Entity punctuation이라는 태깅을 이용해서 실험을 진행했다. 해당 태깅은 [An Improved Baseline for Sentence-level Relation Extraction] 논문을 참고해서 실행했다. 멀티 sentence형태로 input을 넣어줄 때, sentence자체에는 변형을 주지 않고, sub/obj 문장 쪽에만 태깅을 할 경우 성능차이를 보기 위해 실험을 진행했다. 해당 모델을 학습했을 때, 이전 다른 태깅들보다 score가 큰 폭으로 향상했다. 따라서 typed_entity_punctuation 태깅의 성능이 가장 좋음을 확인할 수 있었다.
실험3
Typed Entity punctuation을 사용하기 위해서 논문을 살펴본 김에 저자가 구현한 코드를 같이 봤다. 해당 코드를 보면서 input형태가 singlesentence형태로 들어가는 것을 확인했다. 사실 baseline코드에서 multisentence형태로 들어가서 의심을 해보지 않았었는데, 이미 tagging을 구현한 시점에서 굳이 sub와 obj의 정보를 한 번 더 넣을 필요가 없을 수도 있겠다는 생각을 했다.
따라서 논문에서 input을 넣어준 형태와 동일하게 input sentence를 만들어서 학습을 진행한 결과 여태까지의 실험 중 가장 좋은 성능이 나왔다. 따라서 내일은 논문에서 default값으로 세팅해둔 파라미터값으로 학습을 진행해볼 계획이다.
강의 2강 듣기
이번 주는 강의 분량이 많지는 않았지만, 프로젝트를 진행하면서 강의를 들을 시간을 내기 어려웠다. 그래서 오늘 아침에 시간을 내서 강의를 들었다. 강의의 내용은 GPT-2를 주로 다루고 있었는데, 세 강의가 연결되어 있는 것 같아서 같이 정리했다.
(참조링크) [NLP] GPT 강의 정리 (Week 11)
[NLP] GPT 강의 정리 (Week 11)
GPT BERT는 Transformer의 인코더 구조를 사용한 모델이라면, GPT는 Transformer의 Dedcoder를 활용한 모델이다. GPT초기 모델은 BERT보다 먼저 등장해 pre-train 언어 모델의 새 지평을 열었다. 입력이 들어오면..
cold-soup.tistory.com
오피스 아워 챗봇 정리
화요일 스캐터랩에서 일하고 계시는 조교님께서 챗봇 주제에 대해 오피스아워를 진행하셨다. 해당 강의를 듣고 정리를 해두면 좋을 것 같다고 생각했는데 미루다보니 오늘까지 오게 됐다. 그래도 오늘 해당 내용에 대해서 간단하게나마 정리했다.
(참조링크) [NLP] Chatbot Summary
[NLP] Chatbot Summary
Chatbot 사전적 정의) 음성이나 문자를 사용한 인간과의 대화를 통해서 특정한 작업을 수행하도록 제작된 컴퓨터 프로그램. 챗봇과 관련된 인공지능 용어나 동작원리를 아는 것은 챗봇을 더 잘
cold-soup.tistory.com
▶ 내일 할 일
- 자소서 쓰기 (미룰만큼 미뤘다...)
- 이번 주 실험 정리
- 새로운 모델 찾아보기 (ELECTRA, XLNET)
'IT 견문록 > 2022_부스트캠프 AITech 3기(100일)' 카테고리의 다른 글
[11주차] 개인 회고 (0) | 2022.04.01 |
---|---|
[일일리포트] Day 51 (Level2_PStage_7) (0) | 2022.04.01 |
[일일리포트] Day 49 (Level2_PStage_5) (0) | 2022.03.30 |
[일일리포트] Day 48 (Level2_PStage_4) (0) | 2022.03.29 |
[일일리포트] Day 47 (Level2_PStage_3) (0) | 2022.03.28 |