Công ty trả tiền cho Data Analyst vì điều gì?

Nhân một ngày đi học về Machine Learning thì mình có một ví dụ rất hay và cơ bản để mọi người cùng hiểu về Data Science. (Trong ví dụ này bạn nên bỏ qua các khái niệm về code nếu không biết. Chúng ta chỉ tập trung vào những logic trong việc phân tích data thôi nhé)

  1. Khám phá Data Science

Hiểu đơn giản thì Data Science tập trung cho việc thiết kế các insights có giá trị, hoặc lập luận từ dữ liệu thông qua việc khai quá, dự đoán, và có thể giải thích được. Một người làm nghề data thì cho dù có làm những thứ phức tạp hay quy mô cầu kì đến cỡ nào thì đến cuối cùng họ không giải thích được thì cũng coi như là hết.

Okay. Và để ví dụ dễ hiểu hơn thì mình sẽ làm ví dụ : (những dòng code này đều dùng Python và bạn có thể tự nhập tay trên Goole Colab)

  1. Chọn các thư viện của Python có hỗ trợ cho việc phân tích dữ liệu

image

  • numby : thư viện Python hỗ trợ cho việc xử lý với số
  • pandas : thư viện Python hỗ trợ cho việc phân tích dữ liệu
  • seaborn : thư viện Python hỗ trợ cho việc trực quan hóa dữ liệu
  • matplotib.pyplot : thư viện Python hỗ trợ cho việc xử lý các hàm số toán học
  1. Nhập dữ liệu cần phân tích. Ở đây mình sẽ chọn 2 quyển sách : The Adventures of Huckleberry Finn & Little Woman

image

  1. Chọn ra kết quả các chapter trong 2 quyển sách

Quyển The Adventures of Huckleberry Finn

image

Quyển Little Woman

image

  1. Visualize data cần phân tích

Quyển The Adventures of Huckleberry Finn mô tả hành trình của Huck, Jim and Tom Sawyer. Chúng ta có thể visualize trong quyển sách có bao nhiêu lần các nhân được nhắc đến trong từng chapter của quyển sách.

image

Và đây là kết quả :

image

Nhìn qua bảng biểu đồ này. Bạn có thể nói lên điều gì ?

Như bạn có thể thấy. Trên biểu đồ nhân vật Jim là người được nhắc đến nhiều nhất. Nhưng quyển sách lại nói về cuộc hành trình của Huck. Vậy ở đây mặc dù chúng ta chưa đọc quyển sách này ? Chúng ta vẫn có thể rút ra nhiều lập luận thú vị như :

  • Trong quyển sách này, nhân vật Huck mặc dù là tên tựa đề quyển sách nhưng Huck chỉ là người kể chuyện. Và trong câu chuyện của Huck thì Jim là nhân vật chính nên Jim được nhắc đến nhiều nhất.
  • Và một điều thắc mắc nữa là, tại sao Tom lại chỉ xuất hiện mờ nhạt ở phần đầu nhưng phần cuối lại có sự xuất hiện đột biến.

Đấy. Chúng ta làm Data Analyst và thứ mang lại cho chúng ta chính là những phân tích dựa trên kết quả trực quan hóa dữ liệu và từ đó rút ra các kết luận cần thiết.
(bạn có thể ví dụ thử 3 nhân vật này là 3 SKU trong công ty của bạn và dựa vào đó để phân tích tùy theo sự suy nghĩ của bản thân)

Thế còn quyển Little Woman thì sao ?

Quyển Little Woman là câu chuyện về 4 chị em gái lớn lên cùng nhau giữa chiến tranh

image

Và kết quả là ?

image

Okay. Đến đây thì bạn hãy thử nói lên suy nghĩ của bạn dựa trên biểu đồ này nhé ?

Laurie là một chàng trai trẻ, cưới một trong 4 cô gái sau khi kết thúc truyện. Bạn thử đoán xem là ai nhé ?

  1. Thử sức từ một góc nhìn khác ?

Okay. Giờ thêm một giả định mà mình muốn phân tích nữa. Mình sẽ phân tích số lượng kí tự và số lượng dấu chấm hết câu trong 2 quyển sách. Và mình muốn tìm hiểu xem quyển sách nào có nhiều dấu chấm cuối câu hơn.

image

Kết quả là ?

image

Mình sẽ gợi ý thêm nhé. Trung bình số kí tự trong một câu của 2 quyển sách :

  • Huckleberry Finn : 119.45440586359818
  • Little Woman : 115.31924098125742

Bạn sẽ đưa ra nhận định gì ? Hãy cùng thảo luận bên dưới topic để cùng đưa ra các góc nhìn thú vị nhé.

Cảm ơn bạn đã theo dõi bài viết này.

6 Likes

Anh xem qua nhưng ko rõ lắm, có thể vì nếu không tham gia trực tiếp thì không thấy logic nhưng:

  • Trong quyển sách này, nhân vật Huck mặc dù là tên tựa đề quyển sách nhưng Huck chỉ là người kể chuyện. Và trong câu chuyện của Huck thì Jim là nhân vật chính nên Jim được nhắc đến nhiều nhất.

Kết luận này ko thể tự rút ra nếu chưa đọc sách

  • Và một điều thắc mắc nữa là, tại sao Tom lại chỉ xuất hiện mờ nhạt ở phần đầu nhưng phần cuối lại có sự xuất hiện đột biến.

Đây là kết luận hay lập luận hay là câu hỏi?

Cần phân biệt rõ ràng giữa kết luận, lập luận vì có thể bài em.đang dùng không đúng từ.

Nhưng hoan nghênh em chia sẻ.

Dạ anh.

Còn phần Huck có phải là nhân vật kể chuyện như trên điều đó hay không thì điều đó không phải điều em nhấn mạnh ạ. Điều em nhấn mạnh là việc mình suy nghĩ dựa trên các số liệu đã được trực quan hóa và dựa vào đó để đưa ra các nhận định của mình. Đây cũng là một phần em tập critical thinking trong lúc học. (Câu hỏi là : Nếu bạn chưa đọc quyển sách The Adventures of Huckleberry thì dựa vào biểu đồ trên hãy lập luận xem ai là nhân vật chính ?)

Phần kết luận thì có thể sẽ phải debate một số thứ với các thành viên khác để đưa ra trong buổi học nên đưa ra được kết luận này. Em đã sửa lại.

Chào anh. Thật sự bài viết rất hay và đúng với vấn đề hiện tại em đang gặp phải đó là cách tư duy dựa trên số liệu. Em chỉ mới tìm hiểu Data Analyst nên còn rất nhiều điều chưa biết, em muốn nhờ anh và cộng đồng tư vấn giúp em một số câu hỏi sau ạ:

  1. Phương pháp nào để luyện tập khả năng phân tích, tư duy từ các dữ liệu để có thể rút ra được kết luận ạ. Em đang gặp vấn đề là nhìn vào dữ liệu em thấy được vấn đề nhưng không biết giải thích và đưa ra kết luận, đề xuất cho vấn đề.

  2. Nếu như phân tích dựa trên suy nghĩ bản thân thì có cơ sở nào để đo lường về tính chính xác không ạ, để đưa ra được một kết luận đúng cho doanh nghiệp không ạ ?

Dạ em cảm ơn anh và mọi người ạ!

1 Like

Hi Phương, anh cũng vừa mới đâm bang sang Data Analyst thôi nên cũng còn Newbie như em. Nhưng để tìm hiểu thì anh có một số thông tin.

  1. Đầu tiên em phải xác định được theo nguyên tắc:
  • Em cần giải quyết điều gì từ dữ liệu
  • Các phương pháp để xử lý dữ liệu và output và giải quyết điều em đang cần phía trên
  • Từ điều đó em cần các thông tin dữ liệu nào
  • Dữ liệu đó đang ở dạng nào
  • Phương pháp nào để lấy dữ liệu đó
  • Thông tin dữ liệu đó nằm ở đâu

Thì từ góc độ này em sẽ biết được là mình đang cần giải quyết điều gì từ dữ liệu và cần các phương pháp hay công cụ nào để giải quyết thì em bắt đầu học.

  1. Phân tích thì dựa trên tình hình doanh nghiệp về mặt Business, Resource, Human và Data mà giải quyết chứ không thể dựa vào suy nghĩ của bản thân được và cũng ít có cơ sở nào để đo lường chính xác cho việc này. Có một số đúc kết từ bản thân em nhưng chưa chắc phù hợp với doanh nghiệp. Và khi em làm việc với Data thì cứ dựa trên Data mà ra quyết định. Từ đó mới có môn là Statistics để khi em đưa ra các Solution thì có bao nhiêu % rủi ro và lợi nhuận. Trong toán người ta hay kí hiệu là Kì vọng và phương sai.

Đây là thông tin mà anh biết được. Em cần gì thì cứ trao đổi thêm nha.

1 Like