kiến thức Data Scientist và cách nhìn một trận đấu thông qua thuật toán Markov Chain

Các bạn có muốn mình post tiếp những bài viết ntn ko?

  • Votes: 20 87.0%
  • Không

    Votes: 3 13.0%

  • Total voters
    23

guyfawkes11

Junior Member
“To know your Enemy, you must become your Enemy.”
- Sun Tzu - The Art of War

Trong bóng đá (và có thể là các môn thể thao khác), người ta thường nói cuối cùng chỉ có một số liệu thống kê chính quan trọng. Điều đó đã không ngăn cản các nhà thống kê cũng như các nhà phân tích cố gắng xem xét mọi góc độ của trò chơi, theo nghĩa rộng của các con số. Số cú sút, tỷ lệ sở hữu bóng, đội hình, nỗ lực ghi bàn... đều được coi là số liệu đại diện cho các trận đấu bóng đá. Với tính năng ghi dữ liệu trận đấu bằng hình ảnh, các công ty như Opta,StatsBomb... có khả năng tạo ra dữ liệu trận đấu ở quy mô mili giây, điều đó là tiền đề để họ sở hữu nhật ký sự kiện phong phú trong suốt 90 phút và cung cấp các con số thống kê chi tiết của từng cầu thủ.

Mặt khác, người ta tự hỏi liệu có thể được tạo ra nhiều hơn từ những dữ liệu này?

Markov Chain

Trong bài viết này, chúng ta sẽ khám phá việc sử dụng thuật toán Markov Chain làm phương tiện để tóm tắt, so sánh và đối chiếu lối chơi của cả hai đội tại trận chung kết Champions League 2016 giữa Real Madrid - Atletico Madrid, một trận chung kết chặt chẽ nhất trong thập kỷ qua.

a525c0_ebd9f05b9eac418eb6648037a5f6eb7d~mv2.png


Markov Chain là gì?

Markov Chain là một mô hình xác suất chủ yếu được sử dụng để dự đoán trong các thuật toán khoa học máy tính, tài chính và khoa học sức khỏe. Trong toán học, Markov Chain là một quá trình ngẫu nhiên mô tả một "dãy các biến cố khả dĩ" trong đó xác suất của mỗi biến cố chỉ phụ thuộc vào trạng thái của biến cố trước đó, cái được gọi là ma trận xác suất chuyển đổi.

Một quá trình Markov là một quá trình ngẫu nhiên thỏa mãn tính chất Markov (đôi khi được gọi là "tính không ghi nhớ"). Nói đơn giản, nó là một quá trình mà các kết quả ở tương lai có thể được dự đoán chỉ dựa trên trạng thái hiện tại và quan trọng hơn dự đoán ấy tốt bằng dự đoán dựa trên toàn bộ lịch sử của quá trình đó. Nói cách khác, nó dựa trên trạng thái hiện tại của hệ thống, những trạng thái quá khứ và tương lai là độc lập.

Ví dụ, một thiếu niên trong 80% thời gian sẽ chơi Playstation, bất kể anh ta đã chơi vào ngày hôm trước hay sẽ chơi vào ngày hôm sau. Chuỗi như vậy có thể được mô hình hóa bằng Markov Chain.

a525c0_3d36e831df8646f48ccaeea89a3b5f03~mv2.png

Một ví dụ liên kết Market Chain

Theo một cách nào đó, điều này rất giống với các hành động trong một trận bóng đá. Các hành động hoặc quyết định của cầu thủ để chuyền bóng hoặc tiếp tục giữ bóng phụ thuộc rất nhiều vào không gian, sự sẵn sàng của đồng đội và mật độ phòng ngự của đối phương chứ không dựa trên các hành động trong quá khứ.

Thứ hai và quan trọng hơn, chúng tôi không chính xác sử dụng Markov Chain ở đây như một yếu tố dự đoán. Chủ yếu, chúng tôi đang cố gắng hình dung phong cách chơi để có thể hiểu rõ hơn về phong cách chơi.

Trận Chung kết Champion League 2016

a525c0_74fa540a60124e93a05d0408ff7f967c~mv2.png

Tổng hợp chuỗi hàng động của Real Madrid thông qua Market Chain

Trước khi trình bày vấn đề chính, hãy thiết lập một số giả định cơ bản cho mô hình:
  • Mỗi trình tự “Bắt đầu” với tư cách là đội kiểm soát bóng cho đến khi bị mất bóng là “Kết thúc”.
  • Mỗi mũi tên có hướng hiển thị chuỗi hành động được thực hiện bởi người chơi trong đội với số kèm theo là xác suất của hành động tiếp theo sau hành động hiện tại. Xác suất ở đây không tính đến các hành động lịch sử trong quá khứ.
  • Việc kiểm soát quyền sở hữu bóng sẽ bắt đầu thông qua một trong các thao tác sau: Đá phạt góc, đá phạt, thu hồi bóng, thủ môn ghi bàn, ném biên và phát bóng. Cụ thể, thu hồi bóng có thể đến từ các tình huống tranh bóng thắng, tranh chấp trên không, đánh chặn, phá bóng, cản phá và cướp bóng đối phương.
  • Loại trừ các chuỗi ngẫu nhiên không đặc trưng cho phong cách chơi, chẳng hạn như thủ môn phá bóng, câu giờ ở bằng cách đưa bóng ra cột cờ góc, đưa bóng ra khỏi trận đấu do chấn thương..., chỉ các chuỗi kéo dài hơn năm hành động riêng biệt mới được tính.
  • “Incomplete/Out” biểu thị các hành động không tìm thấy đồng đội, ra ngoài sân và việt vị.
  • Khi các quả đá phạt biểu thị sự bắt đầu / chuyển giao quyền kiểm soát bóng, "Foul Won" dẫn đến các quả đá phạt trực tiếp sẽ bao gồm "Kết thúc" của một trình tự.
Những điểm nhấn của trận đấu

Real Madrid

  • Real Madrid giành 54,55% thời gian kiểm soát bóng bóng nhờ thu hồi bóng.
  • Họ có xu hướng thận trọng khi cầm bóng, chỉ thực hiện rê bóng 5,47% , với tỷ lệ thành công là 70,38%.
  • 6,41% thời gian cầm bóng khác của họ là các cú sút.
  • 5,60% số đường chuyền của họ là chuyền một chạm.
  • Trong số các quả phạt góc của họ, 50% chuyền đến vị trí của đồng đội, mặc dù không có quả nào chuyển hóa thành những cú dứt điểm trúng mục tiêu.
  • 1,46% đường chuyền của họ bị đối phương cướp mất, trong khi 12,77% đường chuyền không tìm thấy đồng đội (bị mất do cầu thủ nhận không thể dữ bóng hoặc chuyền sai) mặc dù 26,79% đường chuyền không hoàn chỉnh đã giành lại được quyền kiểm soát bóng.
Athletico Madrid

a525c0_0084d8f3ff9c481991a122e0b9a49504~mv2.png

Tổng hợp chuỗi hàng động của Athletico Madrid thông qua Market Chain
  • Athletico Madrid giành lại 53,09% thời gian kiểm soát bóng nhờ thu hồi bóng, tương tự như Real.
  • Họ cũng có cùng tỷ lệ rê bóng, ở mức 6,04% mặc dù tỷ lệ thành công cao hơn là 78,15%.
  • Khả năng sút thành công của họ chỉ là 3,62%, một sự khác biệt chính so với Real.
  • Tuy nhiên, Athletico có tỷ lệ chuyền bóng một chạm cao hơn Real 7,73%.
  • Athletico giữ bóng tốt, tỷ lệ không nhận được bóng sau những đường chuyền chỉ 0,85%. Số lần thực hiện chuyền hỏng chỉ ở mức 2,45%. Do đó họ có thể không thấy cần thu hồi quá nhiều đường chuyền sai của mình nên chỉ số này chỉ chiếm 18,52%.
Tham chiếu khác

Chuỗi tấn công thất bại của một đội cũng có thể thể hiện khả năng phòng thủ xuất sắc của đội khác. Nhìn vào số lần phạm lỗi của Real Madrid, họ phạm lỗi 3,57% trong các pha chuyền hỏng, 1,42% trong tổng số lần giữ bóng. Trong khi đó, Athletico Madrid đã phạm lỗi 11,11% trong số lần rê bóng không thành công, 1,47% khi họ chuyền bóng sai và 0% trong tổng số lần giữ bóng. Con số dường như nói lên rằng Athletico có nhiều khả năng và sẵn sàng phạm lỗi hơn.

Cá nhân từng cầu thủ

Để hoàn thành phân tích, bạn cũng nên xem biểu đồ của từng cá nhân. Chúng tôi đánh giá cao sự đóng góp của Cristiano Ronaldo trong chuỗi sự kiện liên quan đến anh ấy.

a525c0_b613092a26d043408a2390056247ed6d~mv2.png

Tổng hợp chuỗi hàng động của Cristiano Ronaldo thông qua Market Chain

Hãy cẩn thận khi nhìn vào biểu đồ, vì cầu thủ có thể liên quan đến nhiều sự kiện trong một chuỗi sự kiện, các sự kiện có thể nối tiếp nhau trực tiếp hoặc không. Ở đây, mặc dù chúng ta có thể nói rằng trong 26,92% sự kiện mà Ronaldo giữ bóng, nhưng cuối cùng anh ấy đã mất bóng 11,63% do không thể kiểm soát trái bóng, 9,3% do bị lỡ bóng và 2,33% bị cản phá.

Kết luận

Markov Chain
được sử dụng nhiều trong phân tích bóng đá để đánh giá hiệu suất, đóng góp của các cầu thủ và đo lường hiệu suất của đội bóng. Ngoài ra, việc sử dụng nó trên "nhật ký trận đấu" như trên sẽ làm đa dạng cách nhìn về phân tích trận đấu. Trong ví dụ trên, chúng ta có thể suy ra rằng cả hai đội đã chơi một trận đấu chặt chẽ, với Real Madrid dường như đang cố gắng thực hiện các cú sút với tần suất nhiều hơn và tích cực thu hồi nhiều đường chuyền sai hơn, trong khi Athletico Madrid đã đưa ra một đội hình phòng ngự chắc chắn và duy trì kiểm soát bóng tốt. Tùy thuộc vào "nhật ký trận đấu", các sự kiện có thể được chi tiết hóa thành loại đường chuyền, độ dài đường chuyền, loại dứt điểm... nhằm tận dụng tối đa dữ liệu thu thập.

Điều đó thực sự có thể cho biết đội nào mạnh hơn hoặc có khả năng chiến thắng cao hơn? Chắn chắn là không.

Tuy nhiên, chúng ta sẽ thấy rõ ràng hơn một số giá trị khi áp dụng hình ảnh trực quan hiển thị nhiều số liệu thống kê tương đối trong một biểu đồ.

Cảm ơn và xin đóng góp thêm cho bài viết.
Hãy đón chờ
DOUS ở những phần tiếp theo… From Dous with Love !
 
Các phần trước của mình vẫn post ở box này, không biết phải post ở box nào hả bác?
box này bàn tin showbiz cầu thủ chuyển nhượng các thứ chứ biết gì về data science đéo đâu. ông muốn xôm thì qua box cntt ấy không thì lên facebook kiếm group data science nhưng chúng nó cũng phèn lắm nên ông lăn lộn github kiếm mấy discord ds của tây lông vào xạo l cho vui
 
box này bàn tin showbiz cầu thủ chuyển nhượng các thứ chứ biết gì về data science đéo đâu. ông muốn xôm thì qua box cntt ấy không thì lên facebook kiếm group data science nhưng chúng nó cũng phèn lắm nên ông lăn lộn github kiếm mấy discord ds của tây lông vào xạo l cho vui
Nhưng chủ đề này là ứng dụng của DS vào bóng đá mà bác.
 
Đức , hay quá, tìm hiểu sâu. Dạo này bận quá, có tìm hiểu khoá này trên mạng , mà mắc vkl , chủ thớt có giáo trình luôn ko ?
 
“To know your Enemy, you must become your Enemy.”
- Sun Tzu - The Art of War

Trong bóng đá (và có thể là các môn thể thao khác), người ta thường nói cuối cùng chỉ có một số liệu thống kê chính quan trọng. Điều đó đã không ngăn cản các nhà thống kê cũng như các nhà phân tích cố gắng xem xét mọi góc độ của trò chơi, theo nghĩa rộng của các con số. Số cú sút, tỷ lệ sở hữu bóng, đội hình, nỗ lực ghi bàn... đều được coi là số liệu đại diện cho các trận đấu bóng đá. Với tính năng ghi dữ liệu trận đấu bằng hình ảnh, các công ty như Opta,StatsBomb... có khả năng tạo ra dữ liệu trận đấu ở quy mô mili giây, điều đó là tiền đề để họ sở hữu nhật ký sự kiện phong phú trong suốt 90 phút và cung cấp các con số thống kê chi tiết của từng cầu thủ.

Mặt khác, người ta tự hỏi liệu có thể được tạo ra nhiều hơn từ những dữ liệu này?

Markov Chain

Trong bài viết này, chúng ta sẽ khám phá việc sử dụng thuật toán Markov Chain làm phương tiện để tóm tắt, so sánh và đối chiếu lối chơi của cả hai đội tại trận chung kết Champions League 2016 giữa Real Madrid - Atletico Madrid, một trận chung kết chặt chẽ nhất trong thập kỷ qua.

a525c0_ebd9f05b9eac418eb6648037a5f6eb7d~mv2.png


Markov Chain là gì?

Markov Chain là một mô hình xác suất chủ yếu được sử dụng để dự đoán trong các thuật toán khoa học máy tính, tài chính và khoa học sức khỏe. Trong toán học, Markov Chain là một quá trình ngẫu nhiên mô tả một "dãy các biến cố khả dĩ" trong đó xác suất của mỗi biến cố chỉ phụ thuộc vào trạng thái của biến cố trước đó, cái được gọi là ma trận xác suất chuyển đổi.

Một quá trình Markov là một quá trình ngẫu nhiên thỏa mãn tính chất Markov (đôi khi được gọi là "tính không ghi nhớ"). Nói đơn giản, nó là một quá trình mà các kết quả ở tương lai có thể được dự đoán chỉ dựa trên trạng thái hiện tại và quan trọng hơn dự đoán ấy tốt bằng dự đoán dựa trên toàn bộ lịch sử của quá trình đó. Nói cách khác, nó dựa trên trạng thái hiện tại của hệ thống, những trạng thái quá khứ và tương lai là độc lập.

Ví dụ, một thiếu niên trong 80% thời gian sẽ chơi Playstation, bất kể anh ta đã chơi vào ngày hôm trước hay sẽ chơi vào ngày hôm sau. Chuỗi như vậy có thể được mô hình hóa bằng Markov Chain.

a525c0_3d36e831df8646f48ccaeea89a3b5f03~mv2.png

Một ví dụ liên kết Market Chain

Theo một cách nào đó, điều này rất giống với các hành động trong một trận bóng đá. Các hành động hoặc quyết định của cầu thủ để chuyền bóng hoặc tiếp tục giữ bóng phụ thuộc rất nhiều vào không gian, sự sẵn sàng của đồng đội và mật độ phòng ngự của đối phương chứ không dựa trên các hành động trong quá khứ.

Thứ hai và quan trọng hơn, chúng tôi không chính xác sử dụng Markov Chain ở đây như một yếu tố dự đoán. Chủ yếu, chúng tôi đang cố gắng hình dung phong cách chơi để có thể hiểu rõ hơn về phong cách chơi.

Trận Chung kết Champion League 2016

a525c0_74fa540a60124e93a05d0408ff7f967c~mv2.png

Tổng hợp chuỗi hàng động của Real Madrid thông qua Market Chain

Trước khi trình bày vấn đề chính, hãy thiết lập một số giả định cơ bản cho mô hình:
  • Mỗi trình tự “Bắt đầu” với tư cách là đội kiểm soát bóng cho đến khi bị mất bóng là “Kết thúc”.
  • Mỗi mũi tên có hướng hiển thị chuỗi hành động được thực hiện bởi người chơi trong đội với số kèm theo là xác suất của hành động tiếp theo sau hành động hiện tại. Xác suất ở đây không tính đến các hành động lịch sử trong quá khứ.
  • Việc kiểm soát quyền sở hữu bóng sẽ bắt đầu thông qua một trong các thao tác sau: Đá phạt góc, đá phạt, thu hồi bóng, thủ môn ghi bàn, ném biên và phát bóng. Cụ thể, thu hồi bóng có thể đến từ các tình huống tranh bóng thắng, tranh chấp trên không, đánh chặn, phá bóng, cản phá và cướp bóng đối phương.
  • Loại trừ các chuỗi ngẫu nhiên không đặc trưng cho phong cách chơi, chẳng hạn như thủ môn phá bóng, câu giờ ở bằng cách đưa bóng ra cột cờ góc, đưa bóng ra khỏi trận đấu do chấn thương..., chỉ các chuỗi kéo dài hơn năm hành động riêng biệt mới được tính.
  • “Incomplete/Out” biểu thị các hành động không tìm thấy đồng đội, ra ngoài sân và việt vị.
  • Khi các quả đá phạt biểu thị sự bắt đầu / chuyển giao quyền kiểm soát bóng, "Foul Won" dẫn đến các quả đá phạt trực tiếp sẽ bao gồm "Kết thúc" của một trình tự.
Những điểm nhấn của trận đấu

Real Madrid

  • Real Madrid giành 54,55% thời gian kiểm soát bóng bóng nhờ thu hồi bóng.
  • Họ có xu hướng thận trọng khi cầm bóng, chỉ thực hiện rê bóng 5,47% , với tỷ lệ thành công là 70,38%.
  • 6,41% thời gian cầm bóng khác của họ là các cú sút.
  • 5,60% số đường chuyền của họ là chuyền một chạm.
  • Trong số các quả phạt góc của họ, 50% chuyền đến vị trí của đồng đội, mặc dù không có quả nào chuyển hóa thành những cú dứt điểm trúng mục tiêu.
  • 1,46% đường chuyền của họ bị đối phương cướp mất, trong khi 12,77% đường chuyền không tìm thấy đồng đội (bị mất do cầu thủ nhận không thể dữ bóng hoặc chuyền sai) mặc dù 26,79% đường chuyền không hoàn chỉnh đã giành lại được quyền kiểm soát bóng.
Athletico Madrid

a525c0_0084d8f3ff9c481991a122e0b9a49504~mv2.png

Tổng hợp chuỗi hàng động của Athletico Madrid thông qua Market Chain
  • Athletico Madrid giành lại 53,09% thời gian kiểm soát bóng nhờ thu hồi bóng, tương tự như Real.
  • Họ cũng có cùng tỷ lệ rê bóng, ở mức 6,04% mặc dù tỷ lệ thành công cao hơn là 78,15%.
  • Khả năng sút thành công của họ chỉ là 3,62%, một sự khác biệt chính so với Real.
  • Tuy nhiên, Athletico có tỷ lệ chuyền bóng một chạm cao hơn Real 7,73%.
  • Athletico giữ bóng tốt, tỷ lệ không nhận được bóng sau những đường chuyền chỉ 0,85%. Số lần thực hiện chuyền hỏng chỉ ở mức 2,45%. Do đó họ có thể không thấy cần thu hồi quá nhiều đường chuyền sai của mình nên chỉ số này chỉ chiếm 18,52%.
Tham chiếu khác

Chuỗi tấn công thất bại của một đội cũng có thể thể hiện khả năng phòng thủ xuất sắc của đội khác. Nhìn vào số lần phạm lỗi của Real Madrid, họ phạm lỗi 3,57% trong các pha chuyền hỏng, 1,42% trong tổng số lần giữ bóng. Trong khi đó, Athletico Madrid đã phạm lỗi 11,11% trong số lần rê bóng không thành công, 1,47% khi họ chuyền bóng sai và 0% trong tổng số lần giữ bóng. Con số dường như nói lên rằng Athletico có nhiều khả năng và sẵn sàng phạm lỗi hơn.

Cá nhân từng cầu thủ

Để hoàn thành phân tích, bạn cũng nên xem biểu đồ của từng cá nhân. Chúng tôi đánh giá cao sự đóng góp của Cristiano Ronaldo trong chuỗi sự kiện liên quan đến anh ấy.

a525c0_b613092a26d043408a2390056247ed6d~mv2.png

Tổng hợp chuỗi hàng động của Cristiano Ronaldo thông qua Market Chain

Hãy cẩn thận khi nhìn vào biểu đồ, vì cầu thủ có thể liên quan đến nhiều sự kiện trong một chuỗi sự kiện, các sự kiện có thể nối tiếp nhau trực tiếp hoặc không. Ở đây, mặc dù chúng ta có thể nói rằng trong 26,92% sự kiện mà Ronaldo giữ bóng, nhưng cuối cùng anh ấy đã mất bóng 11,63% do không thể kiểm soát trái bóng, 9,3% do bị lỡ bóng và 2,33% bị cản phá.

Kết luận

Markov Chain
được sử dụng nhiều trong phân tích bóng đá để đánh giá hiệu suất, đóng góp của các cầu thủ và đo lường hiệu suất của đội bóng. Ngoài ra, việc sử dụng nó trên "nhật ký trận đấu" như trên sẽ làm đa dạng cách nhìn về phân tích trận đấu. Trong ví dụ trên, chúng ta có thể suy ra rằng cả hai đội đã chơi một trận đấu chặt chẽ, với Real Madrid dường như đang cố gắng thực hiện các cú sút với tần suất nhiều hơn và tích cực thu hồi nhiều đường chuyền sai hơn, trong khi Athletico Madrid đã đưa ra một đội hình phòng ngự chắc chắn và duy trì kiểm soát bóng tốt. Tùy thuộc vào "nhật ký trận đấu", các sự kiện có thể được chi tiết hóa thành loại đường chuyền, độ dài đường chuyền, loại dứt điểm... nhằm tận dụng tối đa dữ liệu thu thập.

Điều đó thực sự có thể cho biết đội nào mạnh hơn hoặc có khả năng chiến thắng cao hơn? Chắn chắn là không.

Tuy nhiên, chúng ta sẽ thấy rõ ràng hơn một số giá trị khi áp dụng hình ảnh trực quan hiển thị nhiều số liệu thống kê tương đối trong một biểu đồ.

Cảm ơn và xin đóng góp thêm cho bài viết.
Hãy đón chờ
DOUS ở những phần tiếp theo… From Dous with Love !
Lmao, áp dụng để làm giàu cho nhà cái à =]]]]
 
Back
Top