Hỏi đáp

Correlation Coefficient Là Gì, Lý Thuyết Hệ Số Tương Quan Pearson – viettingame

Ở nội dung bài viết phần trước chúng ta đã tìm hiểu qua quan niệm của hồi quy (Regression), tương quan (Correlation), phân biệt được công dụng của chúng trong quy trình phân tích mối liên hệ giữa những biến, và đồng thời cùng lúc làm quen một số trong những quy mô hồi quy thịnh hành. Trong nội dung bài viết lần này, phần 2, viettingame.com sẽ ra mắt tới chúng ta quy mô hồi quy tuyến tính giản dị và đơn giản nhất (Simple linear regression) vận dụng phân tích mối liên hệ giữa duy nhất 2 biết x (biến độc lập), y (biến phụ thuộc) bao hàm những công thức, cách triển khai tính toán trải qua những ví dụ ví dụ. Phía trên chính quy mô trước hết, và cần phải ghi nhận qua lúc tiếp cận nghành thống kê hay phân tích dữ liệu. Lân cận simple linear regression, viettingame.com cũng trình diễn những công thức phân tích tương quan để lần nữa sẽ giúp chúng ta làm rõ hơn về mục đích của từng phương pháp và tránh sự nhầm lẫn. Nhưng trước tiên, trong phần đầu nội dung bài viết lần này, chúng ta cùng đi qua một số trong những ứng dụng của phương pháp phân tích hồi quy.

Đang xem: Correlation coefficient là gì

Link nội dung bài viết trước chúng ta mà thậm chí tìm hiểu thêm:

Tổng quan về Regression (phân tích hồi quy)

Hồi quy là một phương pháp sở hữu trong nghành thống kê được sử dụng để tìm hiểu và định lượng mối quan hệ giữa 2 hay nhiều biến ngẫu nhiên. Những quy mô hồi quy rất nhiều chủng loại từ giản dị và đơn giản tới phức tạp, linh hoạt vận dụng cho từng bộ dữ liệu sở hữu những đặc tính không giống nhau. So với nghành marketing thì phương pháp phân tích hồi quy sở hữu 2 ứng dụng đó là dự báo và tối ưu hóa ví dụ như dự báo yêu cầu tiêu sử dụng trong tương lai của quý khách hay tối ưu dây chuyền sản xuất, phân phối. Ví dụ những tổ chức, những siêu thị thường vận dụng phân tích hồi quy cho nguồn dữ liệu của tôi với những mục đích như:

Tìm thấy những dự báo trong tương lai

Phương pháp phân tích hồi quy mà thậm chí được sử dụng trong nghành marketing để tìm thấy dự báo trong tương lai nhằm mục tiêu tìm kiếm những thời cơ tăng thêm lợi nhuận, tăng trưởng và đảm bảo hạn chế và giảm thiểu hay hạn chế những rủi ro. Phân tích yêu cầu của quý khách trong tương lai để tham dự báo số số lượng hàng hóa quý khách mà thậm chí thanh toán giao dịch tại một thời điểm ngẫu nhiên và lên kế hoạch sản xuất hay tồn kho ví dụ. Ngoài yêu cầu của quý khách, những siêu thị thường phối hợp phân tích nhiều yếu đuối tố khác, nhiều biến độc lập khác xuất phát từ thị trường marketing bên trong và phía bên ngoài những tổ chức, như phe đối lập đối đầu và cạnh tranh, chính sách kinh tế tài chính, nguồn tài chính, hay nhân lực, năng lượng sản xuất,…toàn bộ những gì mà thậm chí tác động lên lợi nhuận.

Tối ưu hóa quy trình hoạt động và sinh hoạt

Ví dụ quy mô phân tích hồi quy mà thậm chí phân tích mối liên hệ giữa kinh tế vận chuyển hàng hóa với vị trí của những nhà máy sản xuất, những shop phân phối với với thời hạn thành phẩm cần tìm thấy thị trường để lên kế hoạch và tối ưu hoạt động và sinh hoạt vận chuyển, đảm bảo cả về vận tốc lẫn kinh tế. Hay sử dụng quy mô hồi quy để phân tích mối liên hệ giữa số lần than phiền, số cuộc gọi cần hỗ trợ tới từ quý khách và tỷ trọng quý khách rời dịch vụ, để tối ưu hoạt động và sinh hoạt chăm sóc quý khách. Việc triển khai quy mô hồi quy để tham dự báo và tối ưu hóa đó là cách mà những siêu thị và tổ chức đang kim chỉ nan dữ liệu (Data – driven) trong từng bước ra quyết định.

Hỗ trợ ra quyết định

Chúng ta đang sống trong trái đất VUCA – thuật ngữ quốc tế để chỉ một trái đất đầy biến động (Volatility), ko chắc khỏe (Uncertainty), phức tạp (Complicated), và mơ hồ (Ambiguity). Sự thay đổi liên tục của môi trường thiên nhiên marketing, của quy mô marketing, của chính những nền tảng technology đang định hình lại phương pháp vận hành và hoạt động và sinh hoạt của toàn bộ những siêu thị và tổ chức. Do đó để tồn tại và phát triển, họ phải sở hữu kinh nghiệm nhạy bén với những Xu thế, sự thay đổi, linh hoạt tiếp cận và thích ứng nhanh gọn. Dữ liệu và những dụng cụ khai phá dữ liệu như phương pháp phân tích hồi quy cũng là một giải pháp rất rất đáng ưa chuộng. Phương pháp phân tích hồi quy kết phù hợp với những thành tựu trong nghành AI (Trí tuệ nhân tạo) hay Machine learning (Học máy) cho phép ra quyết định nhanh gọn, và tự động trong thời hạn thực ví dụ như khối hệ thống khuyến nghị (Recommendation system) ra mắt thành phầm thích ứng nhất với quý khách dựa trên thông tin tra cứu vớt thành phầm của quý khách. Lúc tìm thấy một chiến lược ví dụ mỗi tổ chức phải xem xét tới toàn bộ những yếu đuối tố không giống nhau và những yếu đuối tố nào tác động lên những thành quả marketing, và thành quả của những chiến lược. Trải qua Regression và những phương pháp khác trong nghành khoa học dữ liệu, những nhà quản lý và vận hành, điều khiển sẽ định lượng, công thức hóa được những quyết định của tôi, theo dõi và tìm thấy những điều chỉnh hợp lý nhất.

Ngăn chặn hay hạn chế và giảm thiểu hậu quả, rủi ro từ những quyết định cũng là một trong những tiện lợi của phương pháp hồi quy, ví dụ trong phương trình hồi quy sẽ sở hữu được những biến tác động tiêu cực tới biến tiềm năng, như chúng ta nói ở trên đây là lợi nhuận, vậy thì những quyết định làm cho chính những biến này tác động xấu hơn tới lợi nhuận cần phải được xem xét lại, ví dụ siêu thị tìm thấy chương trình khuyến mãi kèm theo để tăng lệch giá tuy nhiên chương trình lại ko thực sự hiệu suất cao, kinh tế marketing, kinh tế quản lý và vận hành, v.v tăng thêm kéo đến nguy cơ tiềm ẩn lợi nhuận thuần sẽ tránh, ví dụ dựa trên dữ liệu lịch sử vẻ vang, và vận dụng phương trình hồi quy thì thấy rằng lệch giá vẫn tăng tuy nhiên khó mà thậm chí bù đắp kinh tế hoạt động và sinh hoạt do những hệ số của đường hồi quy tại những biến này mang giá trị âm quá đáng kể. Và lúc này siêu thị mà thậm chí phải xem xét lại sở hữu nên kế tiếp chạy chương trình cho những tháng tiếp theo hay là không.

Hỗ trợ khai phá những thông tin hữu ích và sở hữu giá trị

Thời buổi này những siêu thị quy mô trung bình tới to thường tích lũy một khối lượng to dữ liệu bao hàm nhiều biến và rất nhiều đối tượng người dùng quan sát không giống nhau, tuy nhiên nếu ko biết cách khai thác thì nguồn dữ liệu này sẽ trở thành nguồn tài sản bị phí phạm mà đáng lẽ ra phải là nguồn lực siêu hữu dụng để phát triển marketing, tăng trưởng. Một vài siêu thị thường chỉ tích lũy dữ liệu và thống kê làm report hay một số trong những siêu thị chỉ ưa chuộng tới một số trong những thuộc tính dữ liệu nhất định, một số trong những tập dữ liệu nhất định mà người ta nghĩ là thật sự cần phân tích, phần còn sót lại thì ko quan trọng, và bỏ qua. Phía trên là hai trong những vấn đề mà những Chuyên Viên thường gộp chung vào và gọi bằng thuật ngữ “Dark data”. Phương pháp phân tích hồi quy giúp những siêu thị biến bộ dữ liệu của tôi thành tài sản sở hữu giá trị, lúc tìm hiểu được những thông tin hữu ích như những yếu đuối tố nào quan trọng đặc biệt mà thậm chí tác động tới tổng lợi nhuận mà chưa được xem xét hết.

Ứng dụng của phân tích hồi quy trong kinh tế tài chính và ở những nghành khác là rất nhiều nhưng cơ bản thì phân tích hồi quy sở hữu 3 nhóm ứng dụng chính:

Phân tích mối liên hệ giữa một biến độc lập và một biến phụ thuộcPhân tích tác động của nhiều biến độc lập lên một biến phụ thuộc.So sánh mức độ tác động giữa từng biến độc lập lên biến phụ thuộc.

Phân tích hồi quy, nếu xét ở góc nhìn dữ liệu, thì sẽ xuất hiện 4 ứng dụng chính:

Mô tả dữ liệu (hình thành phương trình hồi quy để Đánh Giá tổng quan mối liên hệ giữa những biến)Ước lượng hệ số hồi quy dựa trên khoảng tin cậy (xác minh mối liên hệ giữa biến độc lập và biến phụ thuộc dựa trên một tỷ trọng tin cậy nhất định)Dự báo giá trị của biến phụ thuộc, biến mục tiêuKiểm soát những biến độc lập (biến phụ thuộc bị tác động tiêu cực hay tích cực nếu những biến độc lập được điều chỉnh)

Như vậy chúng ta đã tìm hiểu xong những ứng dụng của phân tích hồi quy, tiếp theo chúng ta cùng đi vào phần trọng tâm của nội dung bài viết là cách triển khai phân tích tương quan và hồi quy tuyến tính giản dị và đơn giản với cùng 1 biến độc lập và 1 biến phụ thuộc.

Phân tích tương quan (Correlation analysis)

Nói lại quan niệm cho những chúng ta nào chưa tìm hiểu, phân tích tương quan là phương pháp phân tích mối quan hệ tuyến tính giữa 2 biến ngẫu nhiên, với công thức đó là hệ số tương quan. Hậu quả của phân tích tương quan chỉ Đánh Giá sở hữu hay là không sở hữu mối quan hệ tuyến tính, mối quan hệ này là thuận hay nghịch, vững chắc và kiên cố hay là không vững chắc và kiên cố, và ko được sử dụng làm thành quả dự báo.

Công thức của hệ số tương quan hay còn gọi là Correlation Coefficient được bắt nguồn từ công thức hiệp phương sai Covariance. Covariance cũng là phương pháp Đánh Giá mối liên hệ giữa 2 biến x và y, nhưng sở hữu một hạn chế to, và cũng chính vì như thế hạn chế này mà Covariance thường ít được sử dụng mà thay vào này là hệ số tương quan. Ví dụ ra sao thì giờ chúng ta chính thức đi vào công thức.

*

Công thức trên vận dụng cho tập dữ liệu mẫu, công thức dưới trên đây vận dụng cho bộ dữ liệu tổng thể.

*

Ví dụ chúng ta sở hữu dữ liệu mẫu thống kê về số chiến dịch quảng cáo trên Facebook trong những tuần cho 10 tuần, và lệch giá nhận được bao nhiêu triệu đồng (đơn vị 1000 VND), với x sẽ là số chiến dịch mỗi tuần, y là lệch giá.

*

Tiếp theo chúng ta sẽ vận dụng tính từng phần theo công thức, tính chênh lệch giữa từng giá trị x và trung bình của những giá trị x, tương tự cho y.

Giá trị trung bình của x = 3, giá trị trung bình của y = 4880

*

Chúng ta sẽ sở hữu được thành quả hiệp phương sai

Sxy = (9200)/(10-1) = 1022

Chúng ta vẽ đồ thị như sau, và chia đồ thị thành 4 phần,

*

Diễn giải thành quả:

Đường thẳng hạ vuông góc xuống giá trị x = 3 là giá trị trung bình những chiến dịch trong 10 tuần, đường thẳng chắn ngang tại giá trị y = 4880, lệch giá trung bình trong 10 tuần. Hai Đường này chia đồ thị thành 4 phần được đánh theo số lã mã từ I tới IV. Những điểm nằm trong phần I sẽ sở hữu được giá trị x to hơn trung bình của x, và giá trị y to hơn trung bình của y. Những điểm nằm trong phần II sẽ sở hữu được giá trị x nhỏ hơn trung bình của x, và giá trị y to hơn trung bình của y. Chúng ta dựa trên thành quả hãy xét tương tự cho 2 phần III và IV còn sót lại.

Như vậy giá trị của (x – TBx)(y – TBy) sẽ dương so với những điểm nằm trong I, sẽ âm ở II, sẽ dương ở III và sẽ âm ở IV.

Nếu giá trị Sxy dương, những điểm dữ liệu sẽ đa số nằm trong phần I và III, thể hiện quan hệ tuyến tính thuận giữ x và y.Nếu giá trị Sxy âm, những điểm dữ liệu sẽ đa số nằm trong phần II và IV, thể hiện quan hệ tuyến tính nghịch giữa x và yNếu những điểm dữ liệu được chia đều cả hai bên trong 4 phần, lúc này Sxy sẽ bằng 0, và không tồn tại mối quan hệ tuyến tính giữa x và y

Nhìn trên đồ thị chúng ta thấy trong 10 điểm dữ liệu, sở hữu tới 7 điểm nằm hẳn bên trong ở phần I, và phần III, tương ứng giá trị Sxy dương, chúng ta mà thậm chí xác minh x và y sở hữu mối quan hệ tuyến tính thuận, tức số chiến dịch quảng cáo tạo thêm, lệch giá cũng tăng theo, và chứng tỏ chiến lược marketing đang tỏ ra hiệu suất cao.

Ngoài ra nếu giá trị Sxy dương và giá trị này là rất rộng, tương tự với trường hợp âm thì lúc này mối quan hệ càng tỏ ra vững chắc và kiên cố.

Xem thêm: (Incoterm) Điều Khiếu nại Ddu Là Gì ? Phân Biệt Giữa Ddp Và Ddu Phân Biệt Giữa Ddp Và Ddu

Tuy nhiên như đã nói sở hữu một vấn đề cần lưu ý, cũng là hạn chế của phương pháp hiệp phương sai đó đó là giá trị của công thức tùy thuộc vào đơn vị đo lường và thống kê và nếu đơn vị đo lường và thống kê khiến cho giá trị của x và y quá chênh lệch và mà thậm chí khiến cho giá trị Sxy trở nên rất rộng tuy vậy mối quan hệ tuyến tính vẫn ko đổi. Ví dụ như ở trên nếu Shop chúng tôi không thay đổi đơn vị là VND mà ko rút gọn từ 1000 VND thì giá trị Sxy ra sao? Sẽ rất rộng, trong lúc chắc khỏe mối quan hệ tuyến tính thuận sẽ không còn thay đổi. Do đó để sở hữu một hệ số Đánh Giá mối quan hệ tuyến tính giữa 2 biến mà ko cần ưa chuộng tới đơn vị đo lường và thống kê, thì đó đó là hệ số tương quan Correlation Coefficient. Công thức hệ số tương quan như sau:

*

Với Sx, và Sy lần lượt là độ lệch chuẩn chỉnh của x và y. Hệ số tương quan còn được gọi là hệ số tương quan Pearson. Trên là công thức cho tập dữ liệu là mẫu, so với tổng thể chúng ta thay Sx, Sy bằng σx, σy.

Chúng ta tính lại ví dụ trên theo công thức hệ số tương quan Pearson. Phụ thuộc bảng dữ liệu chúng ta sẽ tính được Sx, Sy, nhắc nhở lại công thức độ lệch chuẩn chỉnh cho chúng ta.

*

Tính tổng những chênh lệch bình phương giữa từng giá trị thực và trung bình, sau đó chia cho mẫu hiệu chỉnh n – 1.

Sx = căn bậc 2 (20/(10-1)) = 1.5

Sy = căn bậc 2 (4896000/(10-1)) = 737.6

rxy = Sxy/(SxSy) = 1022/(737.6*1.5) = 0.92

Theo lý thuyết rxy nằm từ -1 tới +1

Nếu hệ số rxy Hệ số rxy > 0 thì 2 biến sở hữu mối quan hệ thuận, một biến tăng, biến còn sót lại mà thậm chí tăng theo hoặc ngược lại.Hệ số rxy = 0, thì 2 biến không tồn tại mối quan hệ tuyến tính với nhau.Hệ số rxy càng tiến sắp giá trị -1, mối liên hệ nghịch càng chắc khỏe, tương tự với giá trị 1, mối liên hệ thuận càng chắc khỏe.

Như vậy với giá trị bằng 0.92 chúng ta mà thậm chí xác minh một cách chắc khỏe chiến dịch quảng cáo sở hữu mối liên hệ mạnh mẽ và uy lực với lệch giá theo chiều hướng thuận.

Tuy nhiên ví dụ này chúng ta chỉ mới xem xét mẫu, vậy chúng ta sở hữu trung tâm xác minh trên tổng thể hay là không? Tức nếu xét toàn bộ lần chạy quảng cáo Facebook trước trên đây thì sẽ xuất hiện xác minh được như trên ko? Lần này chúng ta sẽ sử dụng tiếp phương pháp kiểm định cho hệ số tương quan.

Giả sử chúng ta gọi p là hệ số tương quan của tổng thể, nếu xét cho kiểm định ở một bên (do ở trên chúng ta sở hữu xác minh tương quan thuận nên nếu đúng thì p > 0).

Chúng ta xem lại nội dung bài viết của Shop chúng tôi về phương pháp kiểm định để của Shop chúng tôi trong nội dung bài viết về thống kê suy luận:

Tổng quan về Statistics: Inferential statistics (thống kê suy luận)

Quay trở lại với nội dung bài viết, chúng ta sẽ đặt giả thuyết như sau:

H0: p ≤ 0

H1: p > 0 (sở hữu mối liên hệ thuận giữa số chiến dịch QC và lệch giá)

Công thức tính giá trị kiểm định t:

*

Nguyên tắc bác bỏ tựa như trong kiểm định thống kê, nếu t > t tra bảng thì bác bỏ H0, đồng ý H1 và ngược lại

Chúng ta thay hệ số tương quan vừa tính ở trên vô công thức được t = 6.8

Chúng ta sẽ tra bảng phân phối t để tìm t(α), n-2 với mức ý nghĩa α là 0.05 (độ tin cậy 95%), bậc tự do n – 2 là 10 – 2 =8, vì như thế là kiểm định một bên nên chúng ta không thay đổi α.

Chúng ta mà thậm chí tìm kiếm trên Google để kiếm thông tin về bảng phân phối t để tra, ở trên đây Shop chúng tôi đã tra sẵn t0.05, 8 = 1.86. Như vậy t = 6.8 to hơn t tra bảng vậy chúng ta bác bỏ H0 và xác minh sở hữu mối liên hệ thuận giữa 2 biến.

Ngoài ra chúng ta mà thậm chí sử dụng p-value để xem xét bác bỏ H0 nếu p-value 0 là giá trị ước lượng của y lúc x đạt giá trị 0 (Intercept), β1 là độ dốc của đường hồi quy tuyến tính (Slope), nói cách khác là mức độ thay đổi của y lúc x thay đổi 1 đơn vị, ε là sai số, thể hiện giá trị của những yếu đuối tố khác ko thể nghiên cứu và phân tích hết và những yếu đuối tố này vẫn tác động lên giá trị của y. Phần β0 + β1x đó là phần dự báo hay được xem là thành phần quyết định của phương trình

Công thức trên là công thức tổng quát cho giá trị y ở trên đây là giá trị thực tiễn, còn công thức của phương trình hồi quy tuyến tính giản dị và đơn giản sử dụng cho dự báo thì chúng ta loại bỏ sai số ε ra ngoài. Lưu ý thêm, sai số ε là một biến ngẫu nhiên sở hữu phân phối chuẩn chỉnh với trung bình bằng 0, phương sai bằng nhau, và độc lập không tồn tại liên hệ với biến nào khác

Trong thực tiễn, chúng ta ko thể xác định đúng chuẩn β0 hay β1 mà chỉ ước lượng được, chính vì như thế vậy mà ở phương trình tổng quát chúng ta sở hữu sai số nhất định. Do đó thường thì chúng ta sẽ xử lý dữ liệu và lấy thành quả từ trên đây ước lượng cho tổng thể. Phương trình tổng quát hồi quy tuyến tính giản dị và đơn giản cho dữ liệu mẫu suy luận ra tổng thể:

*

Để làm rõ phương pháp lập phương trình thì trước tiên chúng ta phải bắt qua nguyên tắc bình phương nhỏ nhắn nhất (Least Squares Principle), phương pháp chính để xây dựng quy mô hồi quy tuyến tính giản dị và đơn giản.

Lý luận một cách giản dị và đơn giản nhất. Giả sử chúng ta sở hữu một tập dữ liệu sở hữu những giá trị x và giá trị y tạo thành rất nhiều điểm dữ liệu trên đồ thị, và qua những điểm này chúng ta mà thậm chí vẽ rất nhiều đường thẳng tuyến tính thể hiện mối quan hệ tuyến tính giữa biến x và y, tuy nhiên chúng ta chỉ mà thậm chí tậu được 1 đường thẳng thể hiện tốt nhất mối quan hệ này, tương ứng như việc chúng ta chỉ lập được một phương trình hồi quy tuyến tính duy nhất. Tiêu chuẩn nào để lựa chọn? Chúng ta sẽ dựa trên sai số của giá trị y dự báo và y thực tiễn, nếu sai số của phương trình nào nhỏ nhất thì phương trình ấy sẽ được tậu. Nói cách khác chúng ta phải tìm được min ε mà ε thì bằng y – (b0 + b1x):

*

Theo phương pháp bình phương nhỏ nhắn nhất chúng ta phải tìm:

*

Công thức xác định giá trị b0 và b1 dựa trên phương pháp bình phương nhỏ nhắn nhất:

*

Tuy nhiên nếu chỉ dựa trên mỗi phương pháp bình phương nhỏ nhắn nhất thì liệu phương trình tìm được đã thực sự thể hiện mối quan hệ giữa x và y tối ưu? Hay giản dị và đơn giản là phương trình đã đủ unique để tiến hành dự báo cho giá trị y với tỷ trọng đúng chuẩn cao? Ngoài phương pháp bình phương nhỏ nhắn nhất chúng ta còn tồn tại những phương pháp như hệ số xác định R2 (Coefficient of Determination), kiểm định F (sử dụng MSR, MSE để tính giá trị F) và t (sử dụng Sb để tìm giá trị t) để kiểm tra thực sự sở hữu mối quan hệ tuyến tính giữa 2 biến.

Trong nội dung bài viết này Shop chúng tôi chỉ trình diễn ví dụ cho hệ số xác định R2 mà thôi. Công ty chúng tôi sẽ trình diễn phần kiểm định ở nội dung bài viết tiếp đây lúc nói về Multiple linear regression

Những yếu đuối tố cấu thành công thức hệ số xác định bao hàm SST (Total Sum Of Squares), SSR (Sum of Squares due to Regression), SSE (Sum of Squares due to Errors), như hình minh họa dưới trên đây:

Nguồn hình: slideplayer.com

SST thể hiện toàn bộ phần biến thiên của những giá trị y so với trung bình của nó. SSR thể hiện phần chênh lệch giữa giá trị dự báo so với trung bình, được hiểu là việc biến thiên của y mà chúng ta mà thậm chí trình bày được bằng biến x, và SSE là thể hiện phần chênh lệch giữa giá trị thực tiễn và giá trị dự báo, ko thể trình bày được nguyên nhân, là vì như thế do yếu đuối tố ngẫu nhiên tạo ra.

Như vậy SSR = SST + SSE, công thức R2:

*

Hệ số xác định R2 thể hiền phần tỷ trọng biến thiên của y mà chúng ta mà thậm chí trình bày bởi mối quan hệ tuyến tính giữa x và y.

R2 sở hữu giá trị nằm từ 0 tới 1, và là đó là bình phương của hệ số tương quan (chỉ so với quy mô hồi quy tuyến tính giản dị và đơn giản), R2 càng to thì quy mô hồi quy càng thích hợp để tham dự báo giá trị của y.

Tiếp theo chúng ta sẽ đi vào ví dụ ví dụ để làm rõ hơn phương pháp triển khai những công thức phía trên:

Giá sử một chuỗi shop gà rán sở hữu 10 shop nằm tại những quận không giống nhau trên thành phố Hồ Chí Minh, tại từng khu vực của từng shop sẽ sở hữu được số lượng học viên, sinh viên sinh sống và học tập, chuỗi shop này muốn biết rằng lệch giá của từng shop sở hữu mối liên hệ nào với số lượng học viên, sinh viên này ko (dựa trên dữ liệu lệch giá trung bình theo quý của mỗi shop, và dữ liệu thống kê về số lượng học viên, sinh viên)

Gọi x là số lượng HS, SV, y là lệch giá, là biến tiềm năng dự báo, chúng ta sẽ sử dụng công thức tính bo và b1 để lập phương trình, chúng ta tính được trung bình x: TBx = 14000, trung bình của y: TBy = 66100

Phía trên là đồ thị Scatter mô tả những điểm dữ liệu trước lúc chúng ta lập phương trình tuyến tính:

Như vậy chúng ta mà thậm chí tính hệ số b1 và b0 như sau (chúng ta xem lại công thức phía trên nhé!)

b1 = 1462000000/ 568000000 = 2.57. Với số lượng HS, SV tăng 1000 thì lệch giá của 1 shop sẽ tăng 2570000 VND

b0 = 66100 – b1* 14000 = 30064

Như vậy chúng ta sở hữu phương trình hồi quy tuyến tính giản dị và đơn giản: Y^ = 2.57X + 30064

Chúng ta sẽ sở hữu được đồ thị đường thẳng như sau:

Như vậy chúng ta đã lập xong phương trình hồi quy tuyến tính giản dị và đơn giản, tiếp theo chúng ta cùng đi tính những SST, SSE và SSR để tìm hệ số xác định R2. Trước hết chúng ta thay từng giá trị x vào phương trình mới tìm được để tính giá trị Y^ dự báo (ước lượng), sau đó tính SSE, SSR dựa trên Y^.

Xem thêm: ” Hopper Là Gì – Hopper Nghĩa Là Gì Trong Tiếng Việt

Như vậy R2 = SSR/SST = 0.933. Nghĩa là sở hữu 93.3% biến thiên của Y được trình bày bởi X, quy mô thích hợp để tham dự báo giá trị của Y và thích hợp để thể hiện mối quan hệ tuyến tính giữa X và Y tức theo ví dụ là mối quan hệ tuyến tiến thuận giữa lệch giá mỗi shop và số lượng học viên, sinh viên.

Ví dụ trong năm tới dự báo khu vực tại shop 10 số lượng học viên sinh viên sẽ tạo thêm 2000 thì lệch giá của shop này là bao nhiêu:

Y^ (28000) = 2.57*28000 + 30064 = 102024, lệch giá tăng 2024 (1000 VND)

Như vậy cúng ta đã tìm hiểu xong về tương quan và phương trình hồi quy tuyến tính giản dị và đơn giản – Simple linear regression. Ở nội dung bài viết tiếp đây chúng ta sẽ đi vào cách kiểm định quy mô hồi quy giản dị và đơn giản. Mong được chúng ta ủng hộ viettingame.com

Về Shop chúng tôi, siêu thị viettingame.com với trình độ và kinh nghiệm trong nghành khai thác dữ liệu sẵn sàng hỗ trợ những đối tác trong việc xây dựng và quản lý và vận hành khối hệ thống dữ liệu một cách hợp lý, tối ưu nhất để hỗ trợ cho việc phân tích, khai thác dữ liệu và tìm thấy các giải pháp. Các dịch vụ của chúng tôi bao gồm “Tư vấn và xây dựng khối hệ thống dữ liệu”, “Khai thác dữ liệu dựa trên những quy mô thuật toán”, “Xây dựng những chiến lược phát triển thị trường, chiến lược đối đầu và cạnh tranh”.

Về Viettingame.com

Viettingame.com - Chuyên trang web tổng hợp những thông tin hữu ích trên internet như thông tin về game, tin tổng hợp
Xem tất cả các bài viết của Viettingame.com →

Trả lời

Email của bạn sẽ không được hiển thị công khai.