Thế giới luôn vận hành và thay đổi, song khoa học – công nghệ cũng theo đó và phát triển. Trong kỷ nguyên công nghệ số, chúng ta đang phải đối diện với sức mạnh “vô biên” của Artificial Intelligence (AI) – trí tuệ nhân tạo trong nhiều lĩnh vực.

Đặc biệt, phải nói đến sự tác động rất lớn trong việc kích thích đến sự phát triển của doanh nghiệp, cụ thể là trong quá trình trong thực thi các chiến lược marketing. Tuy nhiên, không phải doanh nghiệp nào cũng biết tận dụng AI và Machine Learning trong việc tối ưu hóa chiến lược marketing, góp phần tăng trưởng doanh thu.

Thông tin căn bản của AI và Machine Learning

AI, viết tắt của Trí tuệ Nhân tạo (Artificial Intelligence), đã trở thành một khái niệm quen thuộc trong thế giới công nghệ hiện đại. Nó mô tả khả năng của các thiết bị máy móc để bắt chước và học hỏi theo con người. 

Trong khi đó, Machine Learning là một ứng dụng quan trọng trong AI, cho phép chúng ta tìm ra các quy luật và mô hình từ dữ liệu, từ đó giải quyết những bài toán phức tạp một cách hiệu quả.

Sự khác biệt của Traditional Program vs Machine Learning

Một điểm khác biệt quan trọng giữa Traditional Program và Machine Learning chính là mục đích của chúng. 

Traditional Program hoạt động dựa trên việc tiếp nhận dữ liệu và áp dụng một quy tắc nhất định để phân tích dữ liệu, sau đó đưa ra kết quả dựa trên quy tắc đó. Điều này có nghĩa là Traditional Program chỉ thực hiện những gì được lập trình trước và tuân thủ theo những hướng dẫn cụ thể.

Ngược lại, Machine Learning không yêu cầu biết trước quy luật hoặc quy tắc cụ thể để giải quyết một vấn đề. Thay vào đó, chúng ta cung cấp cho nó một tập dữ liệu đã được gán nhãn (labeled data) và cho phép máy tính tự tìm ra quy luật hoặc mô hình dựa trên dữ liệu đó. Với Machine Learning, chúng ta có data và kết quả, nhưng không biết được quy luật cụ thể. Qua quá trình huấn luyện, máy tính tìm ra quy luật ẩn và xây dựng một mô hình phù hợp để thực hiện các tác vụ dự đoán hoặc phân loại.

Ví dụ, trong lĩnh vực nhận dạng hình ảnh, Machine Learning có thể học từ hàng nghìn hình ảnh của con mèo và chó, và từ đó tìm ra những đặc điểm quan trọng để phân loại hình ảnh mới là con mèo hay con chó. 

Traditional Programming

 

Các loại model của Machine Learning

Trong lĩnh vực Machine Learning, có ba loại cơ bản mà chúng ta cần chú ý: Supervised Learning (Học có giám sát), Unsupervised Learning (Học không giám sát) và Reinforcement Learning (Học củng cố).

1. Supervised Learning: Dữ liệu được dán nhãn trước

Supervised Learning là một phương pháp trong Machine Learning mà dữ liệu được dán nhãn trước khi tiến hành phân tích. Trong quá trình này, chúng ta cung cấp cho máy tính một tập dữ liệu đầu vào (x) và nhãn tương ứng (y) để máy tính học từ đó. Mục tiêu là tạo ra một mô hình có thể dự đoán kết quả (y) dựa trên đầu vào (x).

Ví dụ, một công ty muốn dự đoán xem một sản phẩm mới của họ có thành công hay không. Trong trường hợp này, dữ liệu đầu vào (x) có thể bao gồm giá sản phẩm, hành vi tiêu dùng, quảng cáo, v.v., và nhãn (y) sẽ chỉ ra sản phẩm có thành công hay không. Bằng cách huấn luyện mô hình trên dữ liệu đã được gán nhãn này, chúng ta có thể dự đoán kết quả cho các sản phẩm mới.

2. Unsupervised Learning: Khám phá nhóm và quy luật ẩn

Unsupervised Learning là một phương pháp trong Machine Learning mà dữ liệu không được dán nhãn hoặc không có sự hướng dẫn rõ ràng. Trong quá trình này, máy tính phân tích dữ liệu và tìm kiếm các mẫu, cấu trúc hoặc nhóm dữ liệu có những nét tương đồng giống nhau.

3. Reinforcement Learning: Tự học thông qua tương tác với môi trường

Reinforcement Learning là một phương pháp Machine Learning khác, trong đó mô hình học thông qua tương tác với một môi trường được tạo ra. Khác với Supervised Learning và Unsupervised Learning, Reinforcement Learning không có luật hay dữ liệu đầu vào. Thay vào đó, chỉ có các hành động (action) và mục tiêu là tối đa hóa một hàm phần thưởng.

Ví dụ, Reinforcement Learning có thể được sử dụng để huấn luyện một máy tính làm toán.Máy tính tự học từ nhiều đáp án, cách giải và nhận phần thưởng dựa trên kết quả. Qua các vòng lặp, máy tính hiểu được những hành động nào đem lại kết quả tốt và hành động nào nên tránh.

Hiểu và sử dụng đúng loại model phù hợp đóng vai trò quan trọng để đạt được hiệu suất tốt và giải quyết các bài toán thực tế một cách hiệu quả trong lĩnh vực Machine Learning.

Tầm Quan Trọng Của Data

Trong lĩnh vực Machine Learning, dữ liệu (data) đóng một vai trò vô cùng quan trọng. Chất lượng và tính đa dạng của dữ liệu có thể ảnh hưởng trực tiếp đến hiệu suất và độ chính xác của mô hình.

1. Biased Data: Dữ liệu thiên vị

Biased Data là tình trạng khi dữ liệu chỉ được thu thập dựa trên một góc nhìn hoặc quan điểm thiên vị. Điều này có thể dẫn đến việc mô hình học một cách không chính xác hoặc đưa ra kết quả không công bằng. 

Để giải quyết vấn đề này, việc thu thập dữ liệu phải được thực hiện một cách cân nhắc và phân bổ rộng rãi, đảm bảo mẫu dữ liệu phản ánh chính xác thực tế và đại diện cho tất cả các khía cạnh quan trọng của vấn đề.

2. Imbalanced Data: Mất cân bằng dữ liệu 

Imbalanced Data là tình trạng khi phân bố dữ liệu không đồng đều hoặc mất cân bằng. Điều này xảy ra khi một số nhãn (labels) trong dữ liệu chiếm đa số, trong khi các nhãn khác rất ít. Kết quả là mô hình sẽ tập trung vào dự đoán nhóm đa số mà bỏ qua nhóm thiểu số, làm cho kết quả không chính xác và không toàn diện. 

Để khắc phục vấn đề này, có thể sử dụng các kỹ thuật như oversampling (tăng cường mẫu của nhóm thiểu số) hoặc undersampling (giảm số lượng mẫu của nhóm đa số) để cân bằng lại dữ liệu trước khi huấn luyện mô hình.

3. Irrelevant Data: Dữ liệu không liên quan

Irrelevant Data là dữ liệu không mang lại giá trị hoặc ý nghĩa cho mục tiêu của mô hình. Điều này có thể xảy ra khi thu thập dữ liệu không phù hợp hoặc không cân nhắc. Dữ liệu không liên quan không chỉ gây lãng phí tài nguyên mà còn làm giảm hiệu suất của mô hình.

4. Small Data Set: Tập dữ liệu quá nhỏ

Small Data Set là tình trạng khi tập dữ liệu quá nhỏ, không đủ để mô hình phỏng và tìm ra các quy luật chung. Khi đối diện với tập dữ liệu nhỏ, mô hình có thể bị overfitting.

5. Data Snooping: Phân tích dữ liệu không chính xác

Data Snooping là tình trạng phân tích dữ liệu không chính xác hoặc không đáng tin cậy. Điều này có thể xảy ra khi mô hình được kiểm tra trên cùng tập dữ liệu đã được sử dụng. Kết quả là mô hình có thể cho kết quả sai khi được áp dụng cho dữ liệu mới.

TIPS Khi Lựa Chọn Dữ Liệu

  • Tip 1: Chọn Dữ Liệu Đại Diện Cho Tất Cả

Một trong những yếu tố quan trọng nhất khi làm việc với dữ liệu là đảm bảo rằng mẫu dữ liệu (data sample) được chọn phải đại diện cho toàn bộ dữ liệu thực tế. Điều này đảm bảo rằng mô hình được huấn luyện trên một tập dữ liệu đáng tin cậy và có khả năng áp dụng cho các tình huống tương tự.

  • Tip 2: Phản Biện Với Câu Hỏi: “Liệu Đây Có Phải Biased Data Không?”

Để tránh tình trạng dữ liệu thiên vị (biased data), một cách hiệu quả là đặt câu hỏi phản biện: “Liệu đây có phải Biased Data không?” Điều này khuyến khích bạn suy nghĩ một cách phản chiếu và khách quan về nguồn gốc và quy trình thu thập dữ liệu. 

  • Tip 3: Đủ Nhưng Không Dư Thừa Dữ Liệu

Không đủ dữ liệu có thể dẫn đến hiện tượng overfitting. Tuy nhiên, dư thừa dữ liệu cũng không tốt, vì nó tốn tài nguyên và có thể làm mô hình trở nên phức tạp hơn cần thiết. Chỉ nên chọn những dữ liệu cần thiết và đủ để huấn luyện mô hình một cách hiệu quả.

Các Loại Machine Learning

Machine Learning có ba loại chính là Regression (hồi quy), Classification (phân loại) và Clustering (phân cụm). 

Regression dùng để dự đoán giá trị số, trong khi Classification dùng để phân loại dữ liệu vào các nhóm. Cả hai loại này thuộc supervised learning vì yêu cầu dữ liệu huấn luyện có nhãn. 

Ngược lại, Clustering thuộc unsupervised learning vì không yêu cầu dữ liệu có nhãn. Clustering giúp phân nhóm dữ liệu không có nhãn dựa trên các đặc trưng tương đồng.

Case Study trong Marketing:

Trên mạng xã hội, đánh giá cảm xúc của khách hàng đối với sản phẩm là một phần quan trọng trong chiến lược marketing. Để hiểu được cảm xúc của khách hàng, các nhà tiếp thị đã áp dụng Machine Learning vào việc phân tích dữ liệu từ các bài đăng và bình luận trên mạng xã hội. 

Tuy nhiên, cần lưu ý rằng có những thông tin mà dữ liệu không thể đọc được hoặc hiểu đúng, chẳng hạn như:

  • Mục tiêu và giọng văn thể hiện những cảm xúc 
  • Sự so sánh
  • Những lời văn mang ý nghĩa “châm biếm”
  • Hay là những icon, sticker và emoji

Tác giả: Quynh Doan