Đề 5 – Bài tập, đề thi trắc nghiệm online Khai phá dữ liệu

Số câu30

Quiz ID13230

Câu 1

1. Trong khai phá dữ liệu luồng (stream data mining), thách thức chính là:

A A. Dữ liệu có kích thước nhỏ. B B. Dữ liệu đến liên tục và nhanh chóng. C C. Dữ liệu có cấu trúc cố định. D D. Dữ liệu tĩnh và không thay đổi theo thời gian.

Câu 2

2. Phương pháp 'PCA' (Principal Component Analysis) thuộc nhóm kỹ thuật:

A A. Phân loại (Classification). B B. Phân cụm (Clustering). C C. Giảm chiều dữ liệu (Dimensionality Reduction). D D. Khai phá luật kết hợp (Association Rule Mining).

Câu 3

3. Khái niệm 'dữ liệu nhiễu' (noisy data) trong khai phá dữ liệu thường đề cập đến:

A A. Dữ liệu có cấu trúc phức tạp. B B. Dữ liệu bị thiếu giá trị. C C. Dữ liệu chứa lỗi, giá trị ngoại lệ hoặc không nhất quán. D D. Dữ liệu có kích thước quá lớn.

Câu 4

4. Phương pháp khai phá dữ liệu nào thường được sử dụng để phân nhóm khách hàng dựa trên hành vi mua sắm tương tự?

A A. Phân loại (Classification) B B. Hồi quy (Regression) C C. Phân cụm (Clustering) D D. Luật kết hợp (Association Rule Mining)

Câu 5

5. Độ đo F1-score là trung bình điều hòa của:

A A. Độ chính xác (accuracy) và độ phủ (recall). B B. Độ chính xác (precision) và độ phủ (recall). C C. Độ chính xác (precision) và độ đo F2-score. D D. Độ phủ (recall) và độ đo AUC-ROC.

Câu 6

6. Ưu điểm chính của thuật toán Cây quyết định (Decision Tree) là gì?

A A. Hiệu suất cao với dữ liệu nhiễu. B B. Khả năng xử lý dữ liệu có chiều cao. C C. Dễ dàng diễn giải và trực quan hóa. D D. Luôn tìm ra mô hình tối ưu toàn cục.

Câu 7

7. Mô hình 'hộp đen' (black box model) trong khai phá dữ liệu có đặc điểm:

A A. Dễ dàng diễn giải logic bên trong. B B. Khó hoặc không thể hiểu được cơ chế đưa ra quyết định. C C. Luôn cho kết quả chính xác tuyệt đối. D D. Chỉ áp dụng cho dữ liệu văn bản.

Câu 8

8. Thuật toán Apriori được sử dụng phổ biến trong:

A A. Phân loại (Classification). B B. Phân cụm (Clustering). C C. Khai phá luật kết hợp (Association Rule Mining). D D. Hồi quy (Regression).

Câu 9

9. Lỗi loại I (Type I error) trong kiểm định giả thuyết thống kê tương ứng với khái niệm nào trong đánh giá mô hình phân loại?

A A. Âm tính giả (False Negative). B B. Dương tính giả (False Positive). C C. Âm tính thật (True Negative). D D. Dương tính thật (True Positive).

Câu 10

10. Đâu là thách thức lớn nhất khi khai phá dữ liệu từ dữ liệu lớn (Big Data)?

A A. Sự thiếu hụt các thuật toán khai phá dữ liệu. B B. Khả năng tính toán và lưu trữ dữ liệu. C C. Sự đơn giản của dữ liệu lớn. D D. Sự nhất quán của dữ liệu lớn.

Câu 11

11. Trong ngữ cảnh khai phá dữ liệu, 'overfitting' xảy ra khi:

A A. Mô hình quá đơn giản và không nắm bắt được các mẫu trong dữ liệu. B B. Mô hình học quá kỹ dữ liệu huấn luyện, dẫn đến kém hiệu quả trên dữ liệu mới. C C. Dữ liệu huấn luyện quá nhỏ. D D. Thuật toán khai phá dữ liệu không phù hợp.

Câu 12

12. Trong ngữ cảnh đánh giá mô hình phân loại, 'ma trận nhầm lẫn' (confusion matrix) được sử dụng để:

A A. Trực quan hóa dữ liệu đầu vào. B B. Tính toán độ đo AUC-ROC. C C. Thống kê số lượng dự đoán đúng và sai cho từng lớp. D D. Giảm chiều dữ liệu đầu vào.

Câu 13

13. Thuật toán nào sau đây KHÔNG thuộc nhóm thuật toán phân loại (Classification)?

A A. Cây quyết định (Decision Tree) B B. Máy học vectơ hỗ trợ (Support Vector Machine) C C. K-Means D D. Mạng nơ-ron (Neural Network)

Câu 14

14. Trong khai phá luật kết hợp (Association Rule Mining), độ đo 'độ tin cậy' (confidence) của một luật {A} -> {B} được tính bằng:

A A. P(A và B) / P(A) B B. P(A và B) / P(B) C C. P(A) / P(A và B) D D. P(B) / P(A và B)

Câu 15

15. Trong thuật toán K-Means, giá trị 'K' đại diện cho:

A A. Số lượng chiều dữ liệu. B B. Số lượng mẫu dữ liệu. C C. Số lượng cụm mong muốn. D D. Số lần lặp tối đa của thuật toán.

Câu 16

16. Phương pháp đánh giá mô hình khai phá dữ liệu nào chia dữ liệu thành tập huấn luyện và tập kiểm thử?

A A. Đánh giá nội tại (Internal validation). B B. Kiểm định chéo (Cross-validation). C C. Đánh giá trực quan (Visual validation). D D. Đánh giá thống kê (Statistical validation).

Câu 17

17. Kỹ thuật 'giảm chiều dữ liệu' (Dimensionality Reduction) nhằm mục đích:

A A. Tăng số lượng thuộc tính của dữ liệu. B B. Giảm số lượng mẫu dữ liệu. C C. Giảm số lượng thuộc tính nhưng vẫn giữ được thông tin quan trọng. D D. Tăng độ chính xác của dữ liệu.

Câu 18

18. Phương pháp nào sau đây thường được sử dụng để xử lý dữ liệu thiếu (missing data)?

A A. Chuẩn hóa dữ liệu (Data normalization). B B. Rời rạc hóa dữ liệu (Data discretization). C C. Thay thế bằng giá trị trung bình (Mean imputation). D D. Giảm chiều dữ liệu (Dimensionality reduction).

Câu 19

19. Trong khai phá dữ liệu không gian (spatial data mining), loại dữ liệu nào sau đây là phổ biến?

A A. Dữ liệu giao dịch mua bán. B B. Dữ liệu cảm biến thời gian thực. C C. Dữ liệu bản đồ và vị trí địa lý. D D. Dữ liệu văn bản mạng xã hội.

Câu 20

20. Phương pháp nào sau đây KHÔNG phải là phương pháp phân cụm?

A A. K-Means. B B. DBSCAN. C C. Naive Bayes. D D. Phân cụm phân cấp (Hierarchical Clustering).

Câu 21

21. Ứng dụng nào sau đây KHÔNG phải là ứng dụng phổ biến của khai phá dữ liệu?

A A. Phát hiện gian lận thẻ tín dụng. B B. Dự báo thời tiết. C C. Đề xuất sản phẩm cho khách hàng trực tuyến. D D. Phân tích rủi ro tín dụng.

Câu 22

22. Trong khai phá dữ liệu chuỗi thời gian (time series data mining), mục tiêu chính thường là:

A A. Phân cụm dữ liệu tĩnh. B B. Dự đoán giá trị tương lai dựa trên dữ liệu quá khứ. C C. Phân loại văn bản. D D. Tìm luật kết hợp trong dữ liệu không gian.

Câu 23

23. Ứng dụng của khai phá dữ liệu trong lĩnh vực y tế KHÔNG bao gồm:

A A. Dự đoán sự bùng phát dịch bệnh. B B. Phân tích hình ảnh y tế để chẩn đoán bệnh. C C. Quản lý kho hàng. D D. Cá nhân hóa phương pháp điều trị.

Câu 24

24. Trong khai phá dữ liệu, 'độ chính xác' (accuracy) thường được sử dụng để đánh giá hiệu quả của mô hình:

A A. Phân cụm (Clustering) B B. Phân loại (Classification) C C. Luật kết hợp (Association Rule Mining) D D. Giảm chiều dữ liệu (Dimensionality Reduction)

Câu 25

25. Biện pháp nào sau đây thường được sử dụng để giảm thiểu overfitting trong mô hình học máy?

A A. Tăng kích thước tập dữ liệu huấn luyện. B B. Giảm độ phức tạp của mô hình. C C. Sử dụng kỹ thuật chính quy hóa (regularization). D D. Tất cả các đáp án trên.

Câu 26

26. Trong quy trình khai phá dữ liệu CRISP-DM, giai đoạn 'Hiểu nghiệp vụ' (Business Understanding) chủ yếu tập trung vào:

A A. Làm sạch và chuẩn hóa dữ liệu. B B. Xác định mục tiêu kinh doanh và bài toán khai phá dữ liệu cần giải quyết. C C. Lựa chọn thuật toán và mô hình khai phá dữ liệu phù hợp. D D. Đánh giá hiệu quả của mô hình khai phá dữ liệu.

Câu 27

27. Trong khai phá dữ liệu văn bản (Text Mining), kỹ thuật 'TF-IDF' được sử dụng để:

A A. Loại bỏ từ dừng (stop words). B B. Đánh trọng số cho từ dựa trên tần suất xuất hiện trong văn bản và toàn bộ tập văn bản. C C. Phân tích cảm xúc (sentiment analysis). D D. Tóm tắt văn bản (text summarization).

Câu 28

28. Trong mô hình hóa dữ liệu, 'chuẩn hóa dữ liệu' (data normalization) có vai trò:

A A. Giảm số lượng thuộc tính. B B. Chuyển đổi dữ liệu định tính thành định lượng. C C. Đưa các thuộc tính về cùng một thang đo giá trị. D D. Xử lý dữ liệu thiếu.

Câu 29

29. Loại hình học máy nào tập trung vào việc học từ dữ liệu KHÔNG có nhãn?

A A. Học có giám sát (Supervised learning). B B. Học bán giám sát (Semi-supervised learning). C C. Học không giám sát (Unsupervised learning). D D. Học tăng cường (Reinforcement learning).

Câu 30

30. Khai phá dữ liệu (Data Mining) được định nghĩa chính xác nhất là:

A A. Quá trình thu thập dữ liệu từ nhiều nguồn khác nhau. B B. Quá trình phân tích dữ liệu thống kê để kiểm định các giả thuyết. C C. Quá trình khám phá tri thức hữu ích từ lượng lớn dữ liệu. D D. Quá trình trực quan hóa dữ liệu để trình bày thông tin dễ hiểu.

Thời gian00:00

0/30 câu

Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Đề 5 – Bài tập, đề thi trắc nghiệm online Khai phá dữ liệu

Đề 5 – Bài tập, đề thi trắc nghiệm online Khai phá dữ liệu

Để lại một bình luận Hủy