Cherry Cloud 9

Hands-On Machine Learning (핸즈온 머신러닝) 2판 1장 연습문제 본문

Programming/Machine Learning

Hands-On Machine Learning (핸즈온 머신러닝) 2판 1장 연습문제

체리구름 2021. 1. 18. 00:05
728x90
반응형

 

(문제 풀이 기록용입니다. 정답이 아닐 수 있으며 책 부록에 연습문제 정답이 있으니 책을 참고 바랍니다.)

 

 

1. 머신러닝을 어떻게 정의할 수 있나요?

  • 머신러닝은 데이터로부터 학습하도록 컴퓨터를 프로그래밍 하는 것

2. 머신러닝이 도움을 줄 수 있는 문제 유형 네 가지를 말해보세요.

  • 기존 솔루션으로는 많은 수동 조정과 규칙이 필요한 문제
  • 전통적인 방식으로는 해결 방법이 없는 복잡한 문제
  • 유동적인 환경
  • 복잡한 문제와 대량의 데이터에서 통찰 얻기

3. 레이블된 훈련 세트란 무엇인가요?

  • 알고리즘에 주입하는 훈련 데이터에 레이블이라는 답을 포함 한 세트

4. 가장 널리 사용되는 지도 학습 작업 두 가지는 무엇인가요?

  • 분류
  • 회귀

5. 보편적인 비지도 학습 작업 네 가지는 무엇인가요?

  • 군집
  • 시각화
  • 차원 축소
  • 연관 규칙 학습

6. 사전 정보가 없는 여러 지형에서 로봇을 걸어가게 하면 어떤 종류의 머신러닝 알고리즘을 사용할 수 있나요?

  • 강화학습 알고리즘. 환경을 관찰해서 행동을 실행하고, 보상 또는 벌점을 받는다. 시간이 지나면 가장 큰 보상을 얻을 수 있는 최상의 전략 (= 정책)을 스스로 학습한다.

7. 고객을 여러 그룹으로 분할하려면 어떤 알고리즘을 사용해야 하나요?

  • 그룹이 정해져 있다면 지도학습의 분류 알고리즘
  • 그룹이 정해져 있지 않다면 비지도 학습의 군집 알고리즘

8. 스팸 감지의 문제는 지도 학습과 비지도 학습 중 어떤 문제로 볼 수 있나요?

  • 지도학습

9. 온라인 학습 시스템이 무엇인가요?

  • 데이터를 순차적으로 1개씩 혹은 미니배치라는 작은 묶음 단위로 주입하여 시스템을 훈련. 매 학습 단계가 빠르고 비용이 적게 들음.

10. 외부 메모리 학습이 무엇인가요?

  • 컴퓨터 1대의 메인 메모리에 들어갈 수 없는 아주 큰 데이터셋을 학습하는 시스템. 알고리즘이 데이터 일부를 읽어들이고 훈련 단계를 수행하며, 전체 데이터가 모두 적용될 때 까지 이 과정을 반복 (점진적 학습)

11. 예측을 하기 위해 유사도 측정에 의존하는 학습 알고리즘은 무엇인가요?

  • 사례 기반 학습

12. 모델 파라미터와 학습 알고리즘의 하이퍼파라미터 사이에는 어떤 차이가 있나요?

  • 모델 파라미터 - 학습 알고리즘을 통해 찾아지는 파라미터. 학습이 진행되는 동안 최적의 값을 찾는다. 
  • 하이퍼파라미터 -학습 알고리즘의 파라미터. 훈련 전에 미리 저장하고 훈련하는 동안 상수로 사용. 

13. 모델 기반 알고리즘이 찾는 것은 무엇인가요? 성공을 위해 이 알고리즘이 사용하는 가장 일반적인 전략은 무엇인가요? 예측은 어떻게 만드나요?

  • 모델 파라미터의 최적값, 효용함수와 비용함수의 사용. 새로운데이터를 모델에 적용하여 예측 

14. 머신러닝의 주요 도전 과제는 무엇인가요?

  • 나쁜 알고리즘과 나쁜데이터, 즉 충분하지 않은 양이거나 대표성이 없거나 낮은 품질, 관련없는 특성, 훈련 데이터의 과대, 과소 적합 등 어떤 데이터를 훈련시킬지에 대한 문제

15. 모델이 훈련 데이터에서의 성능은 좋지만 새로운 샘플에서의 일반화 성능이 나쁘다면 어떤 문제가 있는 건가요? 가능한 해결책 세 가지는 무엇인가요?

  • 과대적합
  • 파라미터 수가 적은 모델을 선택, 훈련 데이터에 있는 특성 수를 줄이거나 , 모델에 제약을 가해 단순화
  • 훈련 데이터를 더 많이 모은다
  • 훈련 데이터의 잡음을 줄인다. (오류 데이터 수정 과 이상치 제거)

16. 테스트 세트가 무엇이고 왜 사용해야 하나요

  • 모델을 테스트하기 위한 훈련 데이터로 일반화 오차에 대한 추정값을 얻음.

17. 검증 세트의 목적은 무엇인가요?

  • 훈련 세트에서 다양한 하이퍼파라미터 값을 가진 여러 모델을 훈련하여 가장 높은 성능을 내는 모델을 선택.

18. 훈련-개발 세트가 무엇인가요? 언제 필요하고 어떻게 사용해야 하나요?

  • 훈련 데이터의 일부를 다른 세트로 만듦. 모델이 훈련 세트에 과대적합되었는지 또는 데이터가 불일치 하는지 확인하기 위함

19. 테스트 세트를 사용해 하이퍼파라미터를 튜닝하면 어떤 문제가 생기나요?

  • 모델 출시 시 성능이 좋지 않고 오차가 발생
728x90
반응형