일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- Level1
- 백준
- 기술면접
- 프로그래머스
- 다시보기
- 주간회고
- 파이썬 3
- mrc
- 이진탐색
- dfs
- dp
- 정렬
- ODQA
- Level2
- 백트랙킹
- 개인회고
- 부스트캠프_AITech_3기
- 그래프이론
- 부스트캠프_AITech3기
- python3
- 최단경로
- 그리디
- Level2_PStage
- 알고리즘스터디
- 단계별문제풀이
- 글또
- 이코테
- 구현
- 알고리즘_스터디
- U_stage
- Today
- Total
국문과 유목민
[일일리포트] Day 57 (데이터 제작1) 본문
해당 일일리포트에서는 네이버 커넥트에서 진행하는 '부스트캠프 AI Tech 3기'에서 배운 내용을 다루고 있습니다. 저작권 이슈 때문에 관련 자료를 올릴 수는 없기에 핵심 이론과 코드를 요약해서 올리고 있기에 내용이 부족할 수 있습니다.
▶ Today I Learned (핵심 요약 정리)
데이터 제작의 A to Z
AI프로젝트에 소요되는 전체 시간 중 데이터 관련 작업에 소요되는 시간 비율은 80%이다. 하지만 데이터 부분은 왕도나 지침이 없고, 체험적인 부분으로 채득해야만 한다.
데이터 구축 과정
아래와 같은 데이터 구축 과정은 다른 도매인 데이터 구축 과정에도 동일하게 적용된다.
1. 원시 데이터 선정 및 확보: 저작권 및 Task 적합성 파악 (제일 고통스러운 부분이라고 한다)
2. 구축 및 가공 프로세스 확립: 구축 및 검수 절차(교차검사?, 샘플링검사?)와 작업자 선정
3. 구축 및 가공 지침 작성: 플랫폼 소통 및 작업자 교육
4. 데이터 구축 및 가공: 파일럿, 작업자 관리
5. 데이터 검수: 품질 평가 기준 데이터 규격, 내용
AI 데이터 설계의 구성요소
데이터 설계: 데이터의 형식, 데이터 표상 영역
데이터 수집-가공 설계: 데이터 구축 과정에 대한 설계, 원천 데이터 수집 방식, 주석 작업
데이터 설계
- 데이터의 유형: 소리, 텍스트, 이미지, 영상, + 멀티모달(두 가지 데이터가 혼합)
- 데이터의 I/O 형식: HTML, XML, CSV, TSB, TXT, JSON, JSONL, JPG, Jpeg, PDF, png, ocr, wav, mpe, pcm, script
- 데이터 별 규모와 구분 방식: train/dev/test 규모 선정에 필요한 정보(확보 가능한 원시 데이터의 규모, 주석 작업 시간), 데이터별 비율과 기준으로 구분 방식을 정하고, 랜덤으로 할 지 특정 조건으로 할 지 정해야 한다.
- 데이터의 주석(annotation) 유형
데이터 수집-가공 설계
- 원시 데이터 수집 방식: 전산화, 스크래핑, 작업자 작성, 모델 생성 등이 있다. 하지만 내가 풀고자 하는 문제에 적합한 데이터가 무엇인지 기준을 세워야 한다.
- 작업자 선정: 주석 작업의 난이도와 구축 규모에 맞는 작업자 선정 및 작업관리를 수행한다. (전문가, 크라우드 소싱)
- 구축 및 검수 설계: 구축 작업의 난이도와 구축 규모, Task 특성에 맞는 구축 및 검수 방식(전문가, IAA) 설계
- 데이터 구축 및 가공: 파일럿(설계 시 발견하지 못한 이슈 발굴 및 해결, 가이드라인 보완 및 개정), 본 구축(작업 일정, 작업자 관리 및 중간 검수를 통한 데이터 품질 관리)
- 데이터 검수 및 분석: 평가지표 설정, 전문가 평가 및 분석(샘플링 검사, 가이드라인 적합도 분석_설계자, 담당 PM, 숙련된 담당자), 자동 평가 및 분석(데이터 형식, 레이블별 분포 파악, 일괄 수정 사항 반영)
인공지능 개발을 위한 데이터
데이터의 종류에는 말뭉치류와 사전/데이터 베이스류가 존재한다.
- 말뭉치류: 실제 텍스트 기반의 데이터 (대화문, 기사, SNS텍스트, 댓글, 주석 말뭉치, 요약 말뭉치)
- 사전/데이터베이스류: 텍스트 분석 시 참조로 사용되는 자원 (온톨로지[어휘들의 의미 분석], 워드넷, 시소러스[단어 간 관계], 지식그래프)
이러한 데이터들을 활용해서 생성된 모델에 대한 평가를 위해 종합적인 벤치마크가 등장하게 된다. 기존에 존재하던 데이터를 정제해서 벤치마크 기준에 맞춰 수정한 이후 묶어서 배포했다. 그렇게 객관적 평가 지표로 사용이 가능해졌다.
벤치마크의 구성은 다음과 같이 과제에 대해 Train, Test, Validation으로 나뉘고, 평가지표에 대한 베이스라인과 함께 모델 결과에 대한 리더보드로 이루어져있다.
자연어 관련 용어 정리
자연어 용어 정리에 대한 부분은 간단하지만, 잘 정리해두면 좋을 것 같아 별도의 포스팅에서 다루겠습니다.
(참고링크) [NLP] 자연어 기초 용어 정리
[NLP] 자연어 기초 용어 정리
용어 정리 NLP Task를 수행하면서, 용어적인 부분이 통일이 되지 않아 커뮤니케이션에 오류가 생긴다고 한다. 따라서 이러한 일들을 미연에 방지하기 위해 동료들 간 용어를 합의하는 과정이 필요
cold-soup.tistory.com
▶ Review (생각)
3주간의 지난 프로젝트를 끝내고 오랜만에 온전히 강의만 들을 수 있었다. 이번 주와 다음 주는 데이터 제작을 진행하게 되는데, 지금까지 잘 정제된 데이터셋만을 가지고 학습했었다. 따라서 Raw한 데이터를 볼 수 있는 기회가 될 것 같아 기대가 된다. 오늘은 총 4강의를 들었고, 2강의를 정리했다. 강의도 이미 아는 내용이 있기는 하지만 NLP 데이터에 대해 전체적인 개괄을 다뤄주셔서 좋은 것 같다.
추가저으로 피어세션 때는 저번 주 Wrap-up리포트 작성을 끝내고 Git 정리 방향에 대해서 얘기를 하고, 프로젝트와 관련된 얘기를 조금 꺼냈다. 앞으로 한 달도 안 돼서 최종 프로젝트를 들어가게 될텐데 미리 준비하고 있는 팀들도 있다고 하니, 우리도 슬슬 해야할 것 같다는 생각을 했다. 그래서 강의 정리는 시간을 좀 나눠서 천천히 하고자 한다.
'IT 견문록 > 2022_부스트캠프 AITech 3기(100일)' 카테고리의 다른 글
[일일리포트] Day 59 (Relation Extraction Data) (0) | 2022.04.13 |
---|---|
[일일리포트] Day 58 (데이터 제작2) (0) | 2022.04.12 |
[12주차] 개인 회고 (Level2_KLUE_프로젝트 정리) (1) | 2022.04.08 |
[일일리포트] Day 56 (0) | 2022.04.08 |
[일일리포트] Day 55 (Level2_PStage_11) (0) | 2022.04.07 |