[MA/F2] Lesson 5: Summarising and Analysing Data

Big Data 

  1. Đặc điểm: 5V – Volume (khối lượng), Velocity (tốc độ), Variety (đa dạng), Value (giá trị), Veracity (độ tin cậy). 
  2. Các loại big data: Structured (có cấu trúc), Semi-structured (bán cấu trúc), Unstructured (phi cấu trúc). 
  3. Ứng dụng: phân tích xu hướng, hiểu khách hàng, ra quyết định nhanh, dự báo, tạo mô hình dự đoán. 

Dữ liệu nhóm và không nhóm 

  • Ungrouped data: dữ liệu rời rạc, tần suất theo từng giá trị cụ thể. 
  • Grouped data: dữ liệu gom nhóm theo khoảng (ví dụ: 0–100, 101–200). 
  • Biểu đồ tần suất: dùng để thể hiện dữ liệu xuất hiện nhiều lần, dễ so sánh. 

Số trung bình (Averages) 

3.1 Arithmetic Mean (Trung bình cộng) 

  • Công thức

Ví dụ: Nhu cầu sản phẩm trong 20 ngày, tổng cộng 185 đơn vị → Mean = 185/20 = 9.25. 

3.2 Mode (Trung vị) 

  • Là giá trị xuất hiện nhiều nhất. 
  • Ví dụ: Khảo sát số ổ bánh mì cần mua, kết quả Mode = 4 ổ. 

3.3 Median (Số trung vị) 

  • Giá trị chính giữa khi sắp xếp dữ liệu. 
  • Nếu số quan sát chẵn → lấy trung bình của 2 giá trị giữa. 
  • Ví dụ: Dãy số 11, 15, 17, 17, 17, 18, 20, 20, 21, 21, … (18 số) → Median = (21+21)/2 = 21 phút. 

Độ phân tán (Dispersion)

4.1 Standard Deviation (Độ lệch chuẩn) 

  • Đo độ phân tán dữ liệu quanh Mean. 

Công thức (cho ungrouped): 

4.2 Coefficient of Variation (Hệ số biến thiên) 

  • So sánh độ phân tán của 2 phân phối. 

Công thức:

CV càng lớn → dữ liệu càng phân tán. 

Giá trị kỳ vọng (Expected Values) 

5.1 Khái niệm 

  • Là trung bình có trọng số, dựa trên xác suất. 
  • Công thức:

5.2 Ví dụ 

  • Phương án A và B với các xác suất lợi nhuận khác nhau. 
  • Tính toán cho thấy EV(A) = 5,200$, EV(B) = 5,800$ → chọn B (cao hơn).

5.3 Giới hạn của EV 

  • Dựa trên kết quả dài hạn → không thích hợp cho quyết định một lần. 
  • Phụ thuộc vào ước lượng xác suất. 
  • Không phản ánh mức độ rủi ro (biến động). 

Phân phối Chuẩn (Normal Distribution) 

6.1 Đặc điểm 

  • Đồ thị hình chuông (bell curve). 
  • Trung bình = median = mode. 
  • Đối xứng quanh mean. 
  • Tổng diện tích dưới đường cong = 1 (100%). 
  • 50% dữ liệu nằm bên trái Mean, 50% bên phải

6.2 Công cụ tính 

  • Z-score:  

Dùng bảng phân phối chuẩn để tính xác suất. 

6.3 Ví dụ 

  • Lương trung bình = 14,000, SD = 2,700. 
  • Xác suất lương < 12,000 → Z = -0.74 → P = 22.96%. 
  • Xác suất 11,000 < lương < 19,000 → P = 83.43%. 

6.4 Ý nghĩa 

  • Hữu ích trong dự báo và ra quyết định. 
  • 95% dữ liệu nằm trong khoảng ±1.96 SD quanh Mean. 
Đánh giá

Bài viết cùng chuyên mục

Tài liệu ACCA - F2

[MA/F2] Lesson 7: Accounting for Labour

Tài liệu ACCA - F2

[MA/F2] Lesson 4: Forecasting

Để lại một bình luận

0866638196