Phân Loại Các Phương Pháp Xử Lý Dữ Liệu Đa Biến

--- Bài mới hơn ---

  • Phương Pháp Thu Thập Số Liệu Trong Nghiên Cứu Khoa Học
  • Phương Pháp Giải Các Bài Tập Di Truyền Hoán Vị Cơ Bản
  • Phân Dạng Và Phương Pháp Tính Tần Số Hoán Vị Gen Các Bài Toán Hoán Vị Gen Thường Gặp Trong Kì Thi Học Sinh Giỏi Và Đại Học, Cao Đẳng
  • Bg Ky Thuat Bao Che Vien Nen
  • Mục Đích Và Quy Trình Tạo Hạt Ướt Trong Sản Xuất Thuốc
  • Dữ liệu đa biến ⮞ Khái quát về dữ liệu đa biến ⮞ Phân loại các phương pháp xử lý dữ liệu đa biến

    Do khả năng ứng dụng rộng rãi, được quan tâm của nhiều nhà nghiên cứu nên đã có nhiều phương pháp xử lý đa biến được nghiên cứu về mặt lý thuyết cũng như được ứng dụng trong thực tế. Việc phân loại các phương pháp này phụ thuộc vào tiêu chí sử dụng.

    Nếu ta căn cứ trên các đặc điểm của biến trong dữ liệu thì việc phân loại dựa vào:

    • Có biến nào được xem là biến phụ thuộc hay không ?
    • Nếu có, thì số biến phụ thuộc là bao nhiêu ?
    • Các biến phụ thuộc có kiểu dữ liệu là gì ?

    Khi dựa vào tiêu chí thứ nhất, người ta chia các phương pháp thông dụng trong xử lý đa biến làm hai nhóm chính:

    • nhóm các phương pháp “phụ thuộc” (dependent), trong đó có một hay một số biến được xem là phụ thuộc, một hay một số biến khác được xem là độc lập. Giá trị của các biến phụ thuộc tùy thuộc vào giá trị của các biến độc lập. Như vậy mục tiêu chính của các phương pháp thuộc nhóm này là tìm kiếm mối quan hệ giữa biến phụ thuộc và biến độc lập
    • nhóm các phương pháp “liên thuộc” (interdependent), trong đó tất cả các biến đều có vai trò như nhau, không có sự phân biệt “độc lập” hay “phụ thuộc”. Các phương pháp của nhóm này thường khảo sát một cấu trúc tiềm ẩn nào đó giữa các biến hay giữa các phần tử.

    Trong nhóm các phương pháp phụ thuộc, nếu :

    • số biến phụ thuộc là 1 :
      • nếu dữ liệu của biến phụ thuộc có kiểu số : ta có phương pháp hồi quy (multiple regression),…
      • nếu dữ liệu của biến phụ thuộc có kiểu phi số : ta có phương pháp phân tích sự khác biệt (discriminant analysis),…
    • số biến phụ thuộc nhiều hơn 1 :
      • nếu dữ liệu của biến phụ thuộc có kiểu số : ta có phương pháp phân tích tương quan chính tắc (canonical correlation), phân tích phương sai (multivariate analysis of variance),…
      • nếu dữ liệu của biến phụ thuộc có kiểu phi số : ta có phương pháp phân tích tương quan chính tắc sử dụng các biến nộm,…

    Trong nhóm các phương pháp liên thuộc, nếu ta cần tìm cấu trúc hay quan hệ:

    • giữa các biến : ta có các phương pháp phân tích thành tố chính (principal component analysis), phân tích yếu tố (factor analysis), …
    • giữa các phần tử : ta có phương pháp phân nhóm (cluster analysis), …

    Nếu ta dựa vào mục đích của xử lý thì ta có :

    • các phương pháp tìm mối quan hệ giữa biến độc lập và biến phụ thuộc: các phương pháp hồi quy,
    • đánh giá sự khác biệt giữa các nhóm phần tử: các phương pháp phân tích phương sai,
    • phân nhóm các phần tử: các phương pháp phân nhóm, phân tích sự khác biệt, hồi quy logistic,
    • phân tích cấu trúc tiềm ẩn của dữ liệu: các phương pháp phân tích thành tố chính, phân tích yếu tố.

    Trang web này được cập nhật lần cuối ngày 26/11/2018

    --- Bài cũ hơn ---

  • Các Cách Xử Lý Số Liệu Thống Kê Hiệu Quả Nhất
  • Cách Xử Lý, Hiệu Chỉnh Số Liệu Xấu Trong Spss
  • Phương Pháp Xử Lý Số Liệu Thống Kê Trong Nckh Ppthongkexulysolieudieutranckh Doc
  • Phân Tích Xử Lý Nghiên Cứu Định Tính
  • Data Preprocessing In Machine Learning: 7 Easy Steps To Follow
  • Quá Trình Xử Lý Dữ Liệu

    --- Bài mới hơn ---

  • Sáng Kiến Kinh Nghiệm Phương Pháp Phân Tích Đa Thức Thành Nhân Tử Trong Giải Toán Ở Thcs
  • Chuyên Đề: Một Số Phương Pháp Phân Tích Đa Thức Thành Nhân Tử
  • Các Phương Pháp Niêm Yết Tỷ Giá
  • Làm Kế Toán: Phương Pháp Yết Giá
  • Các Phương Pháp Y Học Cổ Truyền Giúp Hỗ Trợ Điều Trị Ung Thư
  • Quá trình xử lý dữ liệu

    Tùy theo mục đích xử lý, tính chất dữ liệu, lĩnh vực hoạt động, quá trình xử lý dữ liệu có thể tiến hành theo nhiều cách khác nhau, bằng nhiều phương pháp khác nhau. Một cách tổng quát, ta có thể xem quá trình xử lý dữ liệu bao gồm các giai đoạn sau:

    • xác định vấn đề, mục đích,
    • thiết kế và thu thập dữ liệu,
    • chuẩn bị, biên tập dữ liệu,
    • khảo sát thăm dò,
    • phân tích dữ liệu,
    • kiểm định kết quả,
    • diễn giải, trình bày,
    • khai thác kết quả.

    Trong thực tế đường ranh giới giữa các giai đoạn không hoàn toàn rõ ràng mà tương đối linh động, hai giai đoạn có thể gộp với nhau, giai đoạn này chưa chấm dứt vẫn có thể tiến hành giai đoạn khác. Ngoài ra kết quả một giai đoạn nào đó buộc ta phải xem xét, thực hiện lại một vài giai đoạn trước đó, thậm chí phải thu hẹp, hay mở rộng phạm vi xử lý.

    Xác định vấn đề và mục đích

    Công việc đầu tiên là ta phải xác định thực chất của vấn đề là gì: giảm chi phí sản xuất? cải thiện hình ảnh công ty? tìm hiểu thị hiếu khách hàng? Xác định đúng vấn đề có tầm quan trọng đặc biệt, giúp chúng ta đi đúng hướng, giải quyết đúng trọng tâm. Đôi khi, vấn đề thực lại ở dạng tiềm ẩn, bị che lấp, khó xác định. Vấn đề cần được trình bày một cách cô đọng và rõ ràng, bằng ngôn ngữ thông thường, hạn chế sử dụng các thuật ngữ chuyên môn.

    Sau khi nắm bắt được vấn đề, ta xác định mục đích cần đạt được: xác định các yếu tố có ảnh hưởng đến hình ảnh công ty, phân nhóm khách hàng, xác định yếu tố được khách hàng quan tâm hơn cả trong cách trình bày sản phẩm. Mục đích cũng cần được trình bày rõ ràng và cụ thể, tốt nhất là các mục đích có thể được lượng hóa, có thể đo lường, tính toán được.

    Xác định mục đích là một phần quan trọng của quá trình xử lý dữ liệu vì mục đích ấy sẽ quyết định rất lớn đến việc tiến hành các giai đoạn sau này: mức độ phức tạp, chi phí, thời gian, …

    Thiết kế & Thu thập dữ liệu

    Sau khi xác định được vấn đề và mục đính, ta có thể hình dung được các công việc tiếp theo cần được thực hiện, phương pháp thực hiện các công việc ấy. Từ đó ta có thể quyết định được các đặc điểm của dữ liệu: cần có những thông tin gì, phương pháp thu thập, đo lường những thông tin ấy, khối lượng của dữ liệu cần có.

    Dữ liệu cần để xử lý có thể được thu thập từ nhiều nguồn khác nhau, từ nội bộ công ty, từ tài liệu tham khảo, từ internet, và trong một số trường hợp phải mua từ các công ty hay tổ chức khác. Dù xuất xứ của dữ liệu ở đâu, khối lượng chất lượng phải đầy đủ, chất lượng dữ liệu phải được đảm bảo, có độ chính xác và tin cậy cần thiết, được đo đạc, tính toán theo các phương pháp thích hợp. Trong một số trường hợp, dữ liệu cần được thu thập trong thời gian dài như một số nghiên cứu về lâm nghiệp hay y học.

    Trong trường hợp, đơn vị xử lý dữ liệu được thuê, thì việc thu thập dữ liệu có thể gặp một số khó khăn. Có một số dữ liệu nhạy cảm mà bên thuê không muốn chia sẻ. Khi ấy hai phía phải trao đổi, bàn bạc với nhau để tìm biện pháp phù hợp.

    Chuẩn bị & Biên tập dữ liệu

    Thông thường, dữ liệu thu thập (dữ liệu thô) chưa đáp ứng được các yêu cầu của xử lý số liệu, đặc biệt là những số liệu thu thập từ thực địa. Một số dũ liệu bị thiếu, một số có chênh lệch rất đáng kể so với phần còn lại (outlier: ngoại lệch), dữ liệu lấy từ các nguồn khác nhau có đơn vị không giống nhau, cách sắp xếp không hợp lý, … Vì vậy dữ liệu cần được chuẩn bị, biên tập lại.

    Tùy theo phương pháp xử lý dữ liệu mà cách biên tập có thể khác nhau. Phần tử có dữ liệu thiếu có thể bị loại bỏ hay không, số ngoại lệch có thể bị loại hay không, các dữ liệu được sắp xếp lại theo cách phù hợp, các biến có thể được liên kết lại hay tách riêng ra, … Có thể tiến hành một số kiểm tra để đánh giá độ chính xác hay tính phù hợp của dữ liệu (như kiểm tra chéo). Các thông tin nghi ngờ có thể cần được xem xét, đối chiếu lại ngay từ khi thu thập.

    Khảo sát thăm dò dữ liệu

    Trước hết, ta cần thực hiện một số khảo sát sơ bộ về dữ liệu để có một nhận định khái quát về đối tượng, như khoảng biến thiên,mức độ tập trung, phân tán của các giá trị, tương quan (khái quát) của các biến, các nét đặc thù.

    Trong kháo sát thăm dò, các biểu đồ là phương tiện hiệu quả. Chúng giúp cho ta có một nhận định tương đối trực quan, rõ ràng về các đặc điểm của đối tượng, các điểm đặc thù, các biểu hiện bất thường.

    Trong giai đoạn này, đôi khi ta cũng phải kiểm tra một số điều kiện của dữ liệu để phù hợp với phương pháp phân tích sẽ sử dụng trong bước kế tiếp: dữ liệu có phân phối chuẩn hay không? phương sai có đồng nhất hay không? …

    Phần lớn các phần mềm cung cấp cho ta các công cụ phù hợp để làm việc này. Các công cụ này thường đơn giản, dễ dùng, chỉ gồm một lệnh hay một vài lệnh.

    Phân tích dữ liệu

    Tùy theo mục đích của việc xử lý cũng như tính chất của dữ liệu mà ta sử dụng một hay một số phương pháp phân tích dữ liệu thích hợp. Hiện nay công việc này thường được thực hiện bằng máy tính với sự hỗ trợ của các phần mềm. Nhờ đó việc thực hiện được nhanh gọn, kết quả thu được phong phú với nhiều bảng số, biểu đồ có chất lượng tốt. Thậm chí ta có thể cho thực hiện một số phương án khác nhau và từ đó chọn ra phương án phù hợp nhất.

    Khả năng ứng dụng của kết quả cần được xem xét. Mô hình thu được không nên đơn thuần là một hay một số phương trình toán học mà phải có ý nghĩa nhất định, có thể giải thích được, diễn giải được.

    Kiểm định kết quả

    Kết quả thu được, thường là một hay một số mô hình, cần được kiểm định lại. Có hai nội dung kiểm định: tính tương thích với dữ liệu dùng để phân tích và khả năng ứng dụng kết quả ấy bên ngoài dữ liệu phân tích. Tùy theo đặc điểm của dữ liệu và phương pháp phân tích dữ liệu mà có cách kiểm định khác nhau. Dữ liệu kiểu số có cách kiểm định khác với dữ liệu định danh, phân tích phương sai có cách kiểm định khác với phân nhóm.

    Khi kiểm định, ta thường dựa và một tiêu chuẩn, một số thống kê nào đó (như R 2) để đánh giá kết quả. Trong nhiều trường hợp, các phương pháp đồ họa tỏ ra hữu ích để phát hiện các điểm không phù hợp của kết quả.

    Diễn giải & Trình bày

    Kết quả (hay quá trình xử lý) cần được diễn giải & trình bày sao cho người tiếp nhận hay sử dụng có thể hiểu được, úng dụng được. Vì thê cách diễn giải & trình bày tùy thuộc đáng kể vào các đối tượng ấy, và đôi khi cần sử dụng một số phiên bản khác nhau để có thể đáp ứng từng yêu cầu cụ thể.

    Nhìn chung, cần trình bày rõ ràng, có hình thức trình bày phù hợp, thẩm mỹ. Các phương tiện đồ họa (hình vẽ, màu sắc) nên được tận dụng (nhưng không lạm dụng) để bản trình bày thêm sinh động.

    --- Bài cũ hơn ---

  • Bạn Biết Gì Về Những Ứng Dụng Của Xét Nghiệm Pcr Trong Y Học?
  • Xét Nghiệm Pcr Có Những Ưu
  • Lựa Chọn Phương Pháp Tạo Hạt Ướt Để Điều Chế Viên Nén
  • Cách Tính Tần Số Hoán Vị Gen
  • Phương Pháp Xử Lý Số Liệu
  • Tiền Xử Lý Dữ Liệu Với Python

    --- Bài mới hơn ---

  • Yoga Thải Độc Shank Prakshalana – Thanh Lọc Cơ Thể
  • Các Bài Tập Yoga Giảm Cân Tại Nhà Dễ Áp Dụng Và Hiệu Quả Nhất
  • Chia Sẻ Kinh Nghiệm Tự Tập Yoga Tại Nhà Khi Bạn Không Thể Tham Gia Các Lớp Học Yoga • Purna
  • Tổng Hợp 4 Bài Tập Yoga Cơ Bản Cho Người Mới Bắt Đầu
  • Hướng Dẫn Tập Thở Cơ Bụng Đúng
  • Làm cho dữ liệu dễ hiểu

    Ảnh của Luke Chesser trên Unsplash

    Nó là một kỹ thuật chuyển đổi dữ liệu thô thành một định dạng dễ hiểu. Dữ liệu trong thế giới thực (dữ liệu thô) luôn không đầy đủ và dữ liệu đó không thể được gửi qua các mô hình vì nó sẽ gây ra một số lỗi nhất định. Đó là lý do tại sao chúng ta cần xử lý trước dữ liệu trước khi gửi nó qua một mô hình.

    Đây là các bước tôi đã làm theo;

    1. Nhập thư viện
    2. Đọc tập dữ liệu
    3. Tách tập dữ liệu thành độc lập và phụ thuộc
    4. Xử lý các giá trị bị thiếu
    5. Xử lý các giá trị phân loại
    6. Tiêu chuẩn hóa / Tỷ lệ tính năng

    Bước đầu tiên thường là nhập các thư viện sẽ cần thiết trong chương trình. Thư viện về cơ bản là một tập hợp các mô-đun có thể được gọi và sử dụng. Ở đây chúng tôi sẽ sử dụng

    Gấu trúc : Chúng tôi sử dụng gấu trúc để thao tác dữ liệu và phân tích dữ liệu.

    Numpy : Đây là một gói cơ bản cho tính toán khoa học với Python.

    Hầu hết các tập dữ liệu có định dạng .csv (giá trị được phân tách bằng dấu phẩy). Điều quan trọng là phải giữ tập dữ liệu trong cùng một thư mục với chương trình của bạn và đọc nó bằng một phương thức gọi là read_csv có thể được tìm thấy trong thư viện có tên là pandas .

    Chúng tôi sẽ tạo một ma trận các tính năng trong tập dữ liệu của mình bằng cách tạo một biến Độc lập (X) và một biến phụ thuộc (Y). Để đọc các cột, chúng tôi sẽ sử dụng iloc of pandas có hai tham số – [chọn hàng, chọn cột].

    : như một tham số, nó chọn tất cả các hàng trong dữ liệu. Đối với các cột, chúng ta có -1, có nghĩa là tất cả các cột sẽ được chọn ngoại trừ cột cuối cùng.

    Ảnh của Myriam Jessier trên Unsplash

    Đôi khi chúng tôi thấy một số dữ liệu bị thiếu trong tập dữ liệu. Các giá trị bị thiếu cần được xử lý cẩn thận vì chúng làm giảm chất lượng của bất kỳ ma trận hiệu suất và dự đoán nào của chúng tôi. Không có mô hình nào có thể tự xử lý các giá trị NULL hoặc NaN này vì vậy chúng ta cần phải xử lý nó. Đầu tiên, chúng ta cần kiểm tra xem chúng ta có giá trị null trong tập dữ liệu hay không. Chúng ta có thể làm điều đó bằng phương thức isnull ().

    Xử lý các giá trị bị thiếu là một trong những thách thức lớn nhất mà các nhà phân tích phải đối mặt vì việc đưa ra quyết định đúng về cách xử lý nó sẽ tạo ra các mô hình dữ liệu mạnh mẽ. Chúng ta hãy xem xét các cách khác nhau để bổ sung các giá trị còn thiếu.

    Xóa hàng

    Đây là phương pháp được sử dụng phổ biến nhất. Chúng tôi xóa một hàng có giá trị null và một cột cụ thể nếu nó có hơn 60% giá trị bị thiếu. Phương pháp này chỉ được sử dụng khi cột đó không ảnh hưởng đến dự đoán của mô hình tức là đặc điểm đó có ít ý nghĩa hơn hoặc không có ý nghĩa đối với việc dự đoán mô hình.

    Thay thế bằng Trung bình / Trung vị / Chế độ

    Phương pháp này có thể được áp dụng cho các đối tượng địa lý bao gồm dữ liệu số. Chúng tôi có thể tính giá trị trung bình, giá trị trung bình hoặc chế độ của đối tượng địa lý và thay thế nó bằng các giá trị bị thiếu. Phương pháp này cho kết quả tốt hơn so với việc loại bỏ hàng và cột.

    Để thực hiện điều này, chúng tôi nhập một thư viện có tên là LabelEncoder từ scikit-learning mà chúng tôi sẽ sử dụng cho tác vụ . Chúng ta sẽ tạo một đối tượng của lớp đó. Chúng tôi sẽ gọi đối tượng của chúng tôi là labelencoder_X. Phương thức fit_transform trong lớp LabelEncoder sẽ giúp chúng ta.

    Chúng tôi sẽ nhập một lớp khác có tên OneHotEncoder từ scikit learning. chúng ta sẽ tạo một đối tượng của lớp đó và xem xét một tham số có tên là categorical_features, tham số này nhận một giá trị là chỉ mục của cột và sử dụng fit_transform () cho OneHotEncoding.

    ColumnTransformer cho phép chuyển đổi đầu vào một cách riêng biệt và các tính năng được tạo ra được nối với nhau để tạo thành một không gian duy nhất. Nó hữu ích cho việc chuyển đổi dữ liệu không đồng nhất

    Nó được sử dụng để chuẩn hóa các giá trị của các biến Độc lập. Nó là một phương pháp được sử dụng để giới hạn phạm vi của các biến để chúng có thể dễ dàng so sánh.

    Tại sao nó lại cần thiết?

    Hầu hết các mô hình học máy đều dựa trên khoảng cách Euclide. Chênh lệch bình phương với giá trị thấp hơn so với giá trị lớn hơn gần như sẽ được coi như thể nó không tồn tại. Chúng tôi không muốn điều đó xảy ra. Đó là lý do tại sao cần phải chuyển đổi tất cả các biến của chúng ta vào cùng một thang đo.

    Hầu hết các mô hình Học máy đều dựa trên khoảng cách Euclide. Hãy xem xét nếu giá trị căn bậc hai của (x2-x1) lớn hơn (y2-y1) thì (y2-y1) sẽ bị bỏ qua. Chúng tôi không muốn điều này xảy ra. Đó là lý do tại sao cần phải chuyển đổi tất cả các biến của chúng ta vào cùng một thang đo. Có hai cách bạn có thể làm điều này.

    Với sự trợ giúp của Chuẩn hóa, chúng tôi chia tỷ lệ các giá trị tính năng trong khoảng từ 0,0 đến 1,0

    Nó chia tỷ lệ các tính năng để có giá trị trung bình bằng 0 và độ lệch chuẩn.

    chúng ta cần nhập StandardScaler từ thư viện tiền xử lý scikit và tạo một đối tượng của lớp đó.

    Đã đến lúc phù hợp và biến đổi bộ X_train của chúng tôi. Khi chúng tôi áp dụng Standard Scaler cho các bộ đào tạo và thử nghiệm của mình. Chúng ta chỉ cần phù hợp và biến đổi với tập huấn luyện, Trong trường hợp tập kiểm tra, chúng tôi cần biến đổi, không cần phải phù hợp với tập kiểm tra. Điều này sẽ chuyển đổi tất cả các giá trị sang một thang đo tiêu chuẩn hóa.

    Giới thiệu về thuật toán học máy-Hồi quy tuyến tính

    Giới thiệu về KNN (K-Nearest Neighbors)

    Giới thiệu về thuật toán học máy-Hồi quy tuyến tính Giới thiệu về KNN (K-Nearest Neighbors)

    --- Bài cũ hơn ---

  • Tiền Xử Lý Dữ Liệu (Horse Colic Dataset)
  • Sự Nguy Hại Của Excel, Phân Tích Dữ Liệu Thủ Công Và Các Biện Pháp Giải Quyết Vấn Đề
  • Data Cleaning – Làm Sạch Dữ Liệu: Xử Lý Missing Values (P1)
  • Các Bước Phân Tích Dữ Liệu Bạn Nên Biết
  • Big Data: Những Vấn Đề, Giải Pháp & Thách Thức
  • Xử Lý Dữ Liệu Trong Bảng Tính Excel

    --- Bài mới hơn ---

  • Hướng Dẫn Cách Xử Lý Lỗi Dữ Liệu Dạng Số Trong Excel
  • Hướng Dẫn Cách Xử Lý Lỗi Dữ Liệu Dạng Số Trong Excel Nhanh Chóng
  • Dữ Liệu Thứ Cấp Là Gì? Ứng Dụng Và Cách Thu Thập Dữ Liệu Thứ Cấp
  • Chi Tiết Bài Học Tiền Xử Lý Dữ Liệu Trong Lĩnh Vực Học Máy (Phần 3)
  • Chương 2: Các Vấn Đề Tiền Xử Lý Dữ Liệu
  • Các thao tác làm việc với khối dữ liệu trong bảng tính Excel được chúng tôi tổng hợp và chia sẻ kiến thức cho người mới làm quen với phần mềm Microsoft Excel. Các thao tác xử lý dữ liệu trong Excel được giới thiệu trong bộ Tài liệu tự học Excel từ cơ bản đến nâng cao. Các phương pháp xử lý dữ liệu được định nghĩa chi tiết và minh họa bằng hình ảnh. Từ đó giúp bạn có cái nhìn rõ ràng và dễ dàng thực hành làm theo.

    Xử lý dữ liệu trên bản tính Excel gồm có các thao tác làm việc cơ bản và quan trọng sau:

    1. Chọn khối (Select Cells)

    – Chọn ô

    Nhấp chuột vào ô cần chọn. Ô được chọn được tô đậm và có kẻ viền đậm xung quanh.

    – Chọn nhiều ô liền kề nhau/vùng làm việc

    Nhấp chuột, giữ và kéo dịch chuyển đến ô bạn cần chọn rồi thả chuột. Khi đó các ô bạn chọn được kẻ viền màu xanh đậm, các ô đó gọi là vùng chọn (vùng làm việc)

    Lưu ý:

    Bạn có thể chọn vùng làm việc với nhiều ô liền kề nhau trong bảng tình Excel bằng cách: Nhấp chuột chọn 1 ô dữ liệu đầu tiên, giữ phím Shift trên bàn phím và nhấp chuột chọn ô cuối cùng bạn cần chọn. Kết quả cũng chọn được vùng chọn gồm các ô mà bạn muốn.

    – Chọn cột

    Nhấp chuột vào tên cột (A, B, C, D,…). Các ô trong cột đã chọn được phân biệt với các ô (cột) khác bằng đường viền màu xanh đậm.

    – Chọn hàng

    Nhấp chuột vào số thứ tự là tên hàng. Các ô trong hàng được tô đậm và phân biệt với các ô (hàng) khác bằng đường viền màu xanh đậm.

    – Chọn nhiều vùng làm việc không liên kề nhau

    Nhấn chuột, chọn vùng làm việc đầu tiên, sau đó thả chuột và giữ phím Ctrl, tiếp tục chọn vùng làm việc tiếp theo. Khi đó ta chọn được 2 vùng làm việc tách biệt nhau được hiển thì đậm hơn các ô khác trên trang tính.

    2. Sao chép và dán (Copy and Paste)

    Giống như soạn thảo văn bản trên Word, trên phần mềm Excel cũng cho phép bạn sao chép, cắt, dán nội dung sang các ô khác nhau trên bảng tính.

    Để sao chép và dán nội dung lên các ô chúng ta làm như sau:

    1: Chọn (các) ô bạn muốn sao chép.

    2: Nhấp vào lệnh Copy trên tab Home hoặc nhấn Ctrl + C trên bàn phím để thực hiện sao chép. Khi nhấp lệnh Copy, (các) ô được chọn được bao quanh bằng đường kẻ viền nét đứt màu xanh đậm.

    3: Chọn (các) ô mà bạn muốn dán nội dung.

    4: Nhấp vào lệnh Paste trên tab Home hoặc nhấn Ctrl + V để dán nội dung đã sao chép vào các ô đã chọn

    Hoặc thay vì chọn các lệnh từ Ribbon, bạn có thể truy cập các lệnh nhanh chóng bằng cách: Chọn vị trí (các) ô bạn muốn dán dữ liệu vừa sao chép, sau đó nhấp chuột phải. Một danh sách menu thả xuống, bạn sẽ tìm đến lệnh Paste tương tự như trên thanh Ribbon.

    Các phương thức chèn thêm ô vào trong bảng tính gồm có:

    Shirt cells right: tất cả dữ liệu bên phải ô chọn (cả dữ liêu ô được chọn) dịch sang phải 1 ô

    Shirt cells down: tất cả dữ liệu bên dưới ô chọn (cả dữ liêu ô được chọn) dịch xuống dưới 1 ô

    Entire row: Chèn thêm 1 hàng

    Entire column: Chèn thêm 1 cột

    4. Chèn thêm hàng, cột

    Bạn cũng có thể chèn thêm (các) hàng vào bảng tính bằng cách.

    1. Chọn (các) hàng tại vị trí bạn cần chèn thêm hàng

    2. Nhấp chuột vào lệnh Insert trên tab Home của thanh Ribbon hoặc nhấn chuột phải chọn lệnh Insert

    3. Hiển thị (các) hàng bạn vừa thêm

    – Chèn thêm (các) cột cũng tương tự với chèn thêm (các) hàng.

    1. Trỏ chuột vào tên (các) cột (A, B, C, D,..)

    2. Nhấp chuột vào lệnh Insert trên tab Home của thanh Ribbon hoặc nhấn phải chuột chọn Insert

    3. Hiển thị (các) cột bạn vừa thêm

    Lưu ý:

    Để chèn thêm nhiều hàng (nhiều cột) bạn có thể chọn số lượng hàng (cột) tương ứng và nhấn chọn Insert. Kết quả đạt được là bạn sẽ thêm được nhiều hàng (nhiều cột) cùng một lúc mà không mất quá nhiều thao tác.

    Trong đó:

    Shift cells left: Xóa ô đã chọn và dịch chuyển các ô bên phải ô bị xóa sang trái

    Shifft cells up: Xóa ô đã chọn và dịch chuyển các ô bên dưới ô bị xóa lên trên

    Entire row: Xóa hàng

    Entire column: Xóa cột

    4. (Các) ô được chọn xóa khỏi bảng tính

    6. Xóa hàng, cột

    Để thực hiện xóa (các) hàng hoặc xóa (các) cột trong bảng tính

    1. Nhấp chuột vào số thứ tự chỉ tên hàng (tên cột) cần xóa

    2. Chọn lệnh Delete từ tab Home trên Ribbon

    3. Chọn lệnh Delete Sheet rows hoặc Delete sheet columns

    4. Các hàng (cột) vừa chọn ngay lập tức được xóa khỏi bảng tính. Các hàng bên dưới sẽ dịch lên trên (đối với xóa hàng), các cột bên phải sẽ dịch chuyển sang trái (đối với xóa cột) để thay thế (các) hàng/cột vừa bị xóa trước đó.

    3. Chọn (các) ô cần di chuyển dữ liệu tới ô đó

    4. Nhấp vào lệnh Paste trên tab Home để dán nội dung đã sao chép vào các ô đã chọn. (Thực hiện lệnh Paste tương tự như lệnh Paste trên phần Copy dữ liệu)

    Lưu ý:

    Để di chuyển nội dung của ô (hàng, cột) trong bảng tính Excel, bạn có thể sử dụng phím tắt Ctrl + X để tách đối tượng cần di chuyển. Để dán dữ liệu ô (hàng, cột) vừa chọn, bạn nhấp chuột đến ô cần dán dữ liệu sau đó sử dụng phím tắt Ctrl + V để thực hiện lệnh dán. Thực hiện phím tắt giúp bạn thao tác nhanh hơn trong quá trình làm việc với bảng tính Excel.

    8. Kéo và thả dữ liệu trong ô

    Một cách để di chuyển dữ liệu của ô trong Excel, thay vì Copy, CutPaste, bạn có thể kéo và thả các ô trong cùng một trang tính (Sheet) để di chuyển nội dung của chúng.

    1. Chọn (các) ô bạn muốn di chuyển.

    2. Di chuột qua biên giới của (các) ô được chọn cho đến khi con trỏ thay đổi từ một chữ thập màu trắng sang một chữ thập màu đen với bốn mũi tên.

    3. Bấm, giữ và kéo các ô đến vị trí mong muốn.

    4. Thả chuột và các ô sẽ bị xóa ở vị trí đã chọn

    Trong bài này hướng dẫn cho bạn các thao tác cơ bản xử lý dữ liệu trong bảng tính Excel. Các thao tác này được thường xuyên sử dụng trong quá trình làm việc với ứng dụng Microsoft Excel. Nó giúp bạn soạn thảo văn bản trên bảng tính và xử lý khối dữ dữ liệu nhanh chóng, đạt hiệu quả cao.

    --- Bài cũ hơn ---

  • Feature Engineering (Phần 4): Phương Pháp Xử Lý Truyền Thống Với Dữ Liệu Dạng Văn Bản (Text Data)
  • Cách Xử Lý Dữ Liệu Lớn Với Xử Lý Ngôn Ngữ Tự Nhiên
  • Các Phương Pháp Và Công Cụ Kiểm Thử Dữ Liệu Lớn (Big Data Testing)
  • Các Phương Pháp Thu Thập Dữ Liệu Sơ Cấp, Dự Liệu Thứ Cấp
  • Tổng Quan Về Hệ Thống Thông Tin
  • Phương Pháp Xử Lý Số Liệu

    --- Bài mới hơn ---

  • Cách Tính Tần Số Hoán Vị Gen
  • Lựa Chọn Phương Pháp Tạo Hạt Ướt Để Điều Chế Viên Nén
  • Xét Nghiệm Pcr Có Những Ưu
  • Bạn Biết Gì Về Những Ứng Dụng Của Xét Nghiệm Pcr Trong Y Học?
  • Quá Trình Xử Lý Dữ Liệu
  • Published on

    Phuong phap xu ly so lieu

    1. 1. 1 PHƯƠNG PHÁP XỬ LÝ VÀ PHÂN TÍCH SỐ LIỆU NGHIÊN CỨU chúng tôi Võ Bảo Dũng Xử lý và phân tích số liệu hay dữ liệu nghiên cứu là một trong các bước cơ bản của một nghiên cứu, bao gồm xác định vấn đề nghiên cứu; thu thập số liệu; xử lý số liệu; phân tích số liệu và báo cáo kết quả. Xác định rõ vấn đề nghiên cứu giúp việc thu thập số liệu được nhanh chóng và chính xác hơn. Để có cơ sở phân tích số liệu tốt thì trong quá trình thu thập số liệu phải xác định trước các yêu cầu của phân tích để có thể thu thập đủ và đúng số liệu như mong muốn. Điều cốt lõi của phân tích số liệu là suy diễn thống kê, nghĩa là mở rộng những hiểu biết từ một mẫu ngẫu nhiên thành hiểu biết về tổng thể, hay còn gọi là suy diễn quy nạp. Muốn có được các suy diễn này phải phân tích số liệu dựa vào các test thống kê để đảm bảo độ tin cậy của các suy diễn. Bản thân số liệu chỉ là các số liệu thô, qua xử lý phân tích trở thành thông tin và sau đó trở thành tri thức. Đây chính là điều mà tất cả các nghiên cứu đều mong muốn. Trong khuôn khổ của bài viết này, tác giả muốn trình bày với người đọc một số khái niệm và kỹ thuật cơ bản khi xử lý và phân tích số liệu. Bên cạnh đó, tác giả giới thiệu một số thao tác cơ bản khi xử lý số liệu trên phần mềm SPSS, một phần mềm xử lý thông kê được sử dụng nhiều nhất hiện nay. 1. Xử lý số liệu nghiên cứu Ngày nay, hầu hết các nghiên cứu đều xử lý số liệu trên các phần mềm máy tính. Do vậy, việc xử lý số liệu phải qua các bước sau: – Mã hóa số liệu: Các số liệu định tính (biến định tính) cần được chuyển đổi (mã hóa) thành các con số. Các số liệu định lượng thì không cần mã hóa. – Nhập liệu: Số liệu được nhập và lưu trữ vào file dữ liệu. Cần phải thiết kế khung file số liệu thuận tiện cho việc nhập liệu. – Hiệu chỉnh: Là kiểm tra và phát hiện những sai sót trong quá trình nhập số liệu từ bảng số liệu ghi tay vào file số liệu trên máy tính. 2. Phân loại các số liệu (biến số) trong nghiên cứu Có 2 loại biến số chính trong hầu hết các nghiên cứu đố là biến số định tính và biến số định lượng. – Biến định tính: là loại biến số phản ảnh tính chất, sự hơn kém. Có thể biểu diễn dưới dạng định danh (ví dụ: nam/nữ) hay thứ bậc (tốt/khá/trung bình/yếu)…Đối với loại biến số này ta không tính được giá trị trung bình của số liệu. – Biến định lượng: Thường được biểu diễn bằng các con số. Các con số này có thể ở dưới dạng biến thiên liên tục (ví dụ: huyết áp của bệnh nhân theo thời gian) hoặc rời rạc (ví dụ: chiều cao, cân nặng của người bệnh lúc vào viện). Dạng
    2. 3. 3 + Tỷ suất chênh OR: trong nghiên cứu bệnh chứng không ghép cặp. + Nguy cơ tương đối RR (Relative Risk): trong nghiên cứu thuần tập. – Tương quan giữa 2 biến định lượng: + Hệ số tương quan r. + Phương trình hồi quy tuyến tính: Y = a + bX – Tương quan giữa 3 biến định tính trở lên: phân tích tầng. – Tương quan hồi quy tuyến tính bội 5. Phân tích số liệu với phần mềm SPSS: Một số thao tác cơ bản CÁCH THỨC TIẾN HÀNH LỆNH FREQUENCIES (Tính tần số) 1. Sau khi mở file dữ liệu, vào menu Analyze  Descriptive Statistics  Frequencies Màn hình sẽ xuất hiện hộp thoại sau: Vẽ biểu đồ

    --- Bài cũ hơn ---

  • Top 7 Methods To Fix Computer Won’t Wake Up From Sleep Or Hibernate After Windows 10 Update
  • Các Phương Pháp Xác Định Cod, Bod, Do
  • Hội Chứng Prader Willi Là Gì? Nguyên Nhân Và Phương Pháp Điều Trị
  • Kỹ Thuật Tập Trung Ký Sinh Trùng Trong Phân
  • Ứng Dụng Và Nguyên Lý Của Kỹ Thuật Western Blot
  • Tiền Xử Lý Dữ Liệu (Horse Colic Dataset)

    --- Bài mới hơn ---

  • Tiền Xử Lý Dữ Liệu Với Python
  • Yoga Thải Độc Shank Prakshalana – Thanh Lọc Cơ Thể
  • Các Bài Tập Yoga Giảm Cân Tại Nhà Dễ Áp Dụng Và Hiệu Quả Nhất
  • Chia Sẻ Kinh Nghiệm Tự Tập Yoga Tại Nhà Khi Bạn Không Thể Tham Gia Các Lớp Học Yoga • Purna
  • Tổng Hợp 4 Bài Tập Yoga Cơ Bản Cho Người Mới Bắt Đầu
  • Tập dữ liệu: horse-colic

    Notebooks: python.

    Chuyển đổi định dạng file

    Tập dữ liệu ban đầu chỉ chứa các giá trị của các thuộc tính.

    2 1 530101 38.50 66 28 3 3 ? 2 5 4 4 ? ? ? 3 5 45.00 8.40 ? ? 2 2 11300 00000 00000 2 1 1 534817 39.2 88 20 ? ? 4 1 3 4 2 ? ? ? 4 2 50 85 2 2 3 2 02208 00000 00000 2 2 1 530334 38.30 40 24 1 1 3 1 3 3 1 ? ? ? 1 1 33.00 6.70 ? ? 1 2 00000 00000 00000 1 1 9 5290409 39.10 164 84 4 1 6 2 2 4 4 1 2 5.00 3 ? 48.00 7.20 3 5.30 2 1 02208 00000 00000 1 2 1 530255 37.30 104 35 ? ? 6 2 ? ? ? ? ? ? ? ? 74.00 7.40 ? ? 2 2 04300 00000 00000 2 2 1 528355 ? ? ? 2 1 3 1 2 3 2 2 1 ? 3 3 ? ? ? ? 1 2 00000 00000 00000 2 1 1 526802 37.90 48 16 1 1 1 1 3 3 3 1 1 ? 3 5 37.00 7.00 ? ? 1 1 03124 00000 00000 2 1 1 529607 ? 60 ? 3 ? ? 1 ? 4 2 2 1 ? 3 4 44.00 8.30 ? ? 2 1 02208 00000 00000 2 2 1 530051 ? 80 36 3 4 3 1 4 4 4 2 1 ? 3 5 38.00 6.20 ? ? 3 1 03205 00000 00000 2 2 9 5299629 38.30 90 ? 1 ? 1 1 5 3 1 2 1 ? 3 ? 40.00 6.20 1 2.20 1 2 00000 00000 00000 1

    Ta tiến hành chuyển dữ liệu từ tập tin chúng tôi sang bảng tính Excel. Sau đó, dựa vào mô tả dữ liệu để đặt tên cho các thuộc tính (tức là dòng đầu tiên của sheet).

    1. TItle: Horse Colic database 2. Source Information -- Creators: Mary McLeish & Matt Cecile Department of Computer Science University of Guelph Guelph, Ontario, Canada N1G 2W1 [email protected] -- Donor: Will Taylor ([email protected]) -- Date: 8/6/89 3. Past Usage: -- Unknown 4. Relevant Information: -- 2 data files -- horse-colic.data: 300 training instances -- horse-colic.test: 68 test instances -- Possible class attributes: 24 (whether lesion is surgical) -- others include: 23, 25, 26, and 27 -- Many Data types: (continuous, discrete, and nominal) 5. Number of Instances: 368 (300 for training, 68 for testing)

    Cuối cùng, lưu lại theo định dạng csv với tên chúng tôi (Weka có thể mở được định dạng csv).

    Quan sát tập dữ liệu

    Trong tập dữ liệu huấn luyện (training set) tải về, ta quan sát thấy có 300 mẫu dữ liệu, 28 thuộc tính, và 30% dữ liệu bị thiếu giá trị. Thông tin các thuộc tính được tổng hợp trong file chúng tôi Gồm các thông tin như tên thuộc tính, loại thuộc tính, giá trị trung bình, giá trị độ lệch chuẩn, số mẫu bị thiếu giá trị trên thuộc tính này.

    Làm sạch dữ liệu

    Trong tập dữ liệu chúng tôi có cả thuộc tính số (numeric) và thuộc tính rời rạc (nominal) tuy nhiên tất cả đều biểu diễn dưới dạng số. Yêu cầu đặt ra là phải rời rạc hóa các thuộc tính số để các thuộc tính được mô tả đúng như ý nghĩa của nó. Bên cạnh đó dữ liệu còn có giá trị thiếu, nảy sinh một yêu cầu nữa là phải điền giá trị cho các ô bị thiếu dữ liệu. Giải quyết 2 vấn đề trên ta sẽ sử dụng đến một số bộ lọc (filter) của Weka (nằm trong thư mục Unsupervised/Attribute).

    Trước tiên, ta chuẩn hóa các thuộc tính số về đoạn [0, 1] bằng bộ lọc Normalize. Sau đó, dùng bộ lọc ReplaceMissingValue để thay thế tất cả các giá trị thiếu bằng giá trị trung bình của thuộc tính.

    Tiếp đến, ta dùng bộ lọc Discretize: là bộ lọc dùng để rời rạc hóa các thuộc tính numeric thành nomial. Việc rời rạc đơn giản bằng cách chia giỏ (binning), sắp xếp và chia dữ liệu vào các giỏ có cùng độ rộng (equal-width). Chia vùng giá trị thành N khoảng cùng kích thước, Độ rộng của từng khoảng = (giá trị lớn nhất – giá trị nhỏ nhất)/N. Mặc định, Weka gán N=10.

    Cuối cùng, ta dùng bộ lọc NumericToNominal: là bộ lọc dùng để chuyển các thuộc tính dạng numeric thành nomial. Không như discretization (rời rạc hóa), bộ lọc này gom các mẫu có cùng giá trị vào cùng một nhóm nomial.

    Kết quả sau cùng được lưu thành file horse-colic.arff.

    Rút gọn dữ liệu

    Dữ liệu có thể quá lớn đối với 1 số chương trình khai thác dữ liệu: tốn nhiều thời gian. Ta rút gọn dữ liệu (kích thước) sao cho vẫn thu được cùng (hoặc gần như cùng) kết quả phân tích. Ta dùng phương pháp giảm số chiều dữ liệu bằng thuật toán cây quyết định.

    Đầu tiên, ta xây dựng cây quyết định J48. Trong tab Classify, ta chọn Classifier J48 decision tree.

    Tiếp theo, ta loại các thuộc tính không xuất hiện trên cây.

    Như vậy các thuộc tính được thu gọn chỉ còn 5 thuộc tính thay vì 28 thuộc tính như ban đầu.

    Kết luận

    Qua bài viết này, khi thao tác với tập dữ liệu Horse Colic, ta có thể thấy dữ liệu trong thực tế có chất lượng xấu (dữ liệu bị thiếu và không đầy đủ). Sau các bước làm sạch dữ liệu và rút gọn dữ liệu, ta có thể tiến hành khai thác dữ liệu ở những bước sau này.

    Like this:

    Số lượt thích

    Đang tải…

    --- Bài cũ hơn ---

  • Sự Nguy Hại Của Excel, Phân Tích Dữ Liệu Thủ Công Và Các Biện Pháp Giải Quyết Vấn Đề
  • Data Cleaning – Làm Sạch Dữ Liệu: Xử Lý Missing Values (P1)
  • Các Bước Phân Tích Dữ Liệu Bạn Nên Biết
  • Big Data: Những Vấn Đề, Giải Pháp & Thách Thức
  • Xi Măng Việt Nam Với Công Nghệ 4.0
  • Chuẩn Bị Dữ Liệu Và Xử Lí Dữ Liệu

    --- Bài mới hơn ---

  • Cách Đối Diện Với Dữ Liệu Bị Thiếu Missing Values Khi Phân Tích Dữ Liệu
  • Cách Định Giá Cổ Phiếu Công Ty & Bài Tập Định Giá Cổ Phiếu
  • Thanh Lọc Cơ Thể Trong 1 Ngày Bằng Phương Pháp Yoga Shank Prakshalana (P1)
  • Yoga Shank Prakshalana Thanh Lọc Cơ Thể Trong 1 Ngày
  • Thanh Lọc Cơ Thể Trong 1 Ngày Bằng Phương Pháp Yoga Shank Prakshalana (P2)
  • Chương này đề cập đến các nội dung chính sau:

    – Chuẩn bị dữ liệu để xử lý

    – Các phương pháp và nguyên tắc mã hoá dữ liệu

    – Bảng phân phối tần suất và bảng so sánh

    – Ước lượng tham số

    – Ứng dụng tin học vào phân tích dữ liệu nghiên cứu Marketing

    – Phân tích thống kê mô tả

    Để dữ liệu chuyển thành thông tin theo mục tiêu nghiên cứu, cần phải xử lý và phân tích dữ liệu. Tuy nhiên, vì dữ thu thập từ hiện trường về còn ở dạng “thô” nên cần thiết phải thực hiện khâu chuẩn bị dữ liệu. Chuẩn bị dữ liệu là làm cho dữ liệu có giá trị, hiệu chỉnh dữ liệu, cấu trúc và mã hoá dữ liệu. Làm cho dữ liệu có giá trị là kiểm tra các dữ liệu để đảm bảo chúng có giá trị đối với việc xử lý và phân tích. Hiệu chỉnh dữ liệu là sửa chữa các sai sót về ghi chép hoặc ngôn từ phát hiện được qua kiểm tra. Mã hóa dữ liệu là nhận diện và phân loại mỗi câu trả lời trên một ký hiệu (bằng số hoặc bằng chữ). Có 3 cách cơ bản để xử lý các dữ liệu xấu đó là quay trở lại người phỏng vấn hoặc người trả lời để làm sáng tỏ vấn đề; suy luận từ các câu trả lời khác hoặc loại toàn bộ câu trả lời.

    Dữ liệu sau khi đã được chuẩn bị tốt sẽ tiến hành phân tích và diễn giải để tìm hiểu và rút ra ý nghĩa của các dữ liệu, cung cấp thông tin làm căn cứ đề xuất các giải pháp rõ ràng và khoa học hơn. Phân tích và diễn giải dữ liệu là hai công việc gắn kết với nhau. Phân tích dữ liệu đúng là

    điều kiện để đạt được sự diễn giải đúng. Tuy nhiên nếu phân tích đúng nhưng kết quả được giải thích sai lệch thì cũng không có được thông tin đúng.

    Quy trình phân tích và xử lí bắt đầu sau khi dữ liệu đã được thu thập. Nhưng trước khi xử lí phải diễn giải các dữ liệu ra một dạng thích hợp vì những dữ liệu mới được thu thập vẫn còn ở dạng ”thô” chưa thể xử lí ngay được mà chúng cần được sắp xếp, được mã hóa theo những cách thức nhất định để dễ dàng cho việc sử dụng máy vi tính trợ giúp xử lí dữ liệu sau này.

    Làm cho dữ liệu có giá trị

    Sau khi thu thập dữ liệu phải kiểm tra các dữ liệu để bảo đảm chúng có ý nghĩa, tức là có giá trị đối với việc xử lý và phân tích. Việc làm cho dữ liệu có giá trị tiến hành theo hai bước:

    – Bước thứ nhất: Tiến hành xem xét một cách kỹ lưỡng các phương pháp và các biện pháp đã được sử dụng để thu thập dữ liệu (tức kiểm tra các công cụ dùng để thu thập dữ liệu)

    – Bước thứ hai: Tiến hành nghiên cứu kỹ các bảng câu hỏi đã được phỏng vấn và những chỉ dẫn về thủ tục phỏng vấn để phát hiện ra những nguyên nhân dẫn đến các sai sót.

    Hiệu chỉnh dữ liệu

    Do những nguyên nhân khách quan và chủ quan, quá trình thu thập dữ liệu dù được chuẩn bị chu đáo vẫn còn có thể tồn tại những sai sót, vì vậy phải hiệu chỉnh để dữ liệu có ý nghĩa đối với quá trình nghiên cứu. Hiệu chỉnh dữ liệu là sửa chữa các sai sót về ghi chép hoặc ngôn từ phát hiện được qua kiểm tra. Trong khi hiệu chỉnh cần sửa chữa những sai sót phổ biến sau:

    – Những cuộc phỏng vấn giả tạo do người đi phỏng vấn “phịa” ra

    – Như câu trả lời không đầy đủ (là những câu trả lời không rõ ý hoặc trả lời nửa chừng)

    – Những câu trả lời thiếu nhất quán.

    – Những câu trả lời không thích hợp.

    – Những câu trả lời không đọc được.

    Có 3 cách tiếp cận được sử dụng để xử lí các dữ liệu ”xấu” từ các tình huống đó.

    Quay trở lại người đi phỏng vấn hay người trả lời câu hỏi để làm sáng tỏ vấn đề

    Việc liên hệ với các cá nhân để tìm câu trả lời đúng làm nảy sinh hai vấn đề:

    – Làm tăng chi phí và sẽ quá đắt nếu cuộc khảo sát có quy mô vì chi phí phỏng vấn này đã được tính trong dự án nghiên cứu. Theo kinh nghiệm, ngwời nghiên cứu có thể không cần tìm cách thu thập thêm dữ liệu nếu tỉ lệ các câu hỏi nghi vấn tương đối nhỏ và / hoặc quy mô của mẫu tương đối lớn (tỉ lệ các câu hỏi nghi vấn nhỏ hơn 20% và mẫu lớn hơn 500).

    Suy luận từ những câu trả lời khác

    Theo cách này, người hiệu chỉnh phỏng đoán từ các dữ liệu khác để làm rõ câu trả lời nào đúng. Nhưng đây là cách làm đầy rủi ro. Khó có thể minh định được các quy luật để suy luận các câu trả lời. Do đó để an toàn khi hiệu chỉnh dữ liệu, người nghiên cứu cần hết sức thận trọng với phương pháp này, và không nên suy luận một câu trả lời trừ phi biết tương đối chắc chắn về ý định của người trả lời.

    Loại toàn bộ câu trả lời

    Đây là việc dễ thực hiện nhất. Theo cách này, người hiệu chỉnh chỉ việc loại đi những câu trả lời có nghi vấn. Trong trường hợp quy mô của mẫu tương đối lớn, người hiệu chỉnh có thể loại bỏ toàn bộ các câu trả lời nếu thông tin thiếu nhất quán và người hiệu chỉnh không thể giải quyết vấn đề thiếu nhất quán đó trong các dữ liệu được thu thập từ các đối tượng phỏng vấn. Tuy nhiên, khuyết điểm trong cách tiếp cận này là sự thiên vị trong kết quả nếu những người trả lời thiếu nhất quán đó bị loại ra khỏi cuộc nghiên cứu, khi đó kết quả đạt được sẽ bị lệch nếu ý kiến những người trả lời bị loại này khác với những người còn được giữ lại trong mẫu điều tra.

    Một cách giải quyết khác là tập hợp một báo cáo riêng các loại dữ liệu bị thiếu hoặc không nhất quán, không rầng nếu người nghiên cứu thật sự tin rằng các dữ liệu đó có thể có ích cho việc ra quyết định của các nhà lãnh đạo.

    --- Bài cũ hơn ---

  • Chương 2: Các Vấn Đề Tiền Xử Lý Dữ Liệu
  • Chi Tiết Bài Học Tiền Xử Lý Dữ Liệu Trong Lĩnh Vực Học Máy (Phần 3)
  • Dữ Liệu Thứ Cấp Là Gì? Ứng Dụng Và Cách Thu Thập Dữ Liệu Thứ Cấp
  • Hướng Dẫn Cách Xử Lý Lỗi Dữ Liệu Dạng Số Trong Excel Nhanh Chóng
  • Hướng Dẫn Cách Xử Lý Lỗi Dữ Liệu Dạng Số Trong Excel
  • Cách Xử Lý Dữ Liệu Lớn Với Xử Lý Ngôn Ngữ Tự Nhiên

    --- Bài mới hơn ---

  • Feature Engineering (Phần 4): Phương Pháp Xử Lý Truyền Thống Với Dữ Liệu Dạng Văn Bản (Text Data)
  • Xử Lý Dữ Liệu Trong Bảng Tính Excel
  • Hướng Dẫn Cách Xử Lý Lỗi Dữ Liệu Dạng Số Trong Excel
  • Hướng Dẫn Cách Xử Lý Lỗi Dữ Liệu Dạng Số Trong Excel Nhanh Chóng
  • Dữ Liệu Thứ Cấp Là Gì? Ứng Dụng Và Cách Thu Thập Dữ Liệu Thứ Cấp
  • Bắt đầu với những điều cơ bản

    Quá trình xử lý cơ bản mà chúng ta đang tìm kiếm là làm thế nào để biến văn bản thông thường, hàng ngày thành thứ gì đó dễ hiểu bởi máy tính. Từ đó, chúng ta có thể trích xuất những thứ như biệt ngữ, tiếng lóng và thậm chí là phong cách nói của người khác. Những điều cơ bản của quá trình xử lý này sẽ đưa các ký tự Unicode và phân tách chúng thành các từ, cụm từ, câu và các phân định ngôn ngữ khác như token hóa, giải mã và từ vựng . Sử dụng tất cả các chiến lược này, chúng ta có thể bắt đầu phân tách ngôn ngữ và thậm chí xác định ngôn ngữ đó là gì bởi các từ và chính tả hiện diện bên cạnh dấu câu. Trước khi chúng ta có thể xây dựng ngôn ngữ để sử dụng, trước tiên chúng ta phải chia nhỏ nó và phân tích các bộ phận cấu thành của nó để chúng ta có thể hiểu cách thức hoạt động của nó.

    Tìm ra phạm vi

    Nhìn vào một khối lớn văn bản có thể gây khó khăn cho việc xác định chính xác văn bản nói về cái gì, ngay cả đối với một con người. Chúng ta có cần biết ý chính chung của văn bản không hay là khôn ngoan hơn khi tìm hiểu những gì được nói trong chính nội dung văn bản? Đây là những gì chúng tôi thuật ngữ hiểu biết vĩ môhiểu biết vi mô . NLP bị giới hạn bởi các yếu tố chi phí và thời gian và mức độ xử lý nhất định đơn giản là không có sẵn vì những hạn chế này. Khi chúng tôi có ý tưởng về phạm vi mà chúng tôi hướng đến, bây giờ chúng tôi có thể chuyển sang khai thác.

    Trích xuất nội dung để xử lý

    Trở lại dấu vết có sẵn

    Khi chúng tôi trích xuất dữ liệu từ một tài liệu cụ thể, chúng tôi sẽ muốn đảm bảo rằng chúng tôi biết dữ liệu đó đến từ đâu. Có một liên kết đến nơi tài liệu nguồn có thể tiết kiệm rất nhiều thời gian trong thời gian dài. Theo dõi này có thể giúp theo dõi các lỗi có thể có trong văn bản và nếu một trong những tài liệu nguồn đó được cập nhật lên phiên bản mới hơn, những thay đổi trong tương lai có thể được phản ánh trên thông tin được trích xuất với mức tối thiểu xử lý lại, sẽ tiết kiệm thời gian và sức mạnh xử lý.

    Phản hồi của con người

    Phương pháp tốt nhất để phát triển NLP để thích nghi là dạy nó cách lắng nghe phản hồi đến từ những người tạo ra ngôn ngữ: chính con người. Phản hồi từ mọi người về cách thức thực hiện một hệ thống NLP để giúp điều chỉnh nó phù hợp với những gì chúng tôi muốn nó làm.

    Giữ trước đường cong

    Phân tích chất lượng không đổi là rất quan trọng để đảm bảo rằng một NLP hoàn thành vai trò của nó và thích nghi với thế giới xung quanh nó. Tạo một NLP về cơ bản là dạy cho máy tính cách học hỏi từ những sai lầm của nó và cách thu thập phản hồi để cải thiện bản thân. Chính nó, dữ liệu lớn là đáng ngại và lặp đi lặp lại và có thể có rất nhiều cái nhìn sâu sắc được chôn giấu bên trong nó. Bằng cách phát triển NLP, bạn giao cho máy tính một nhiệm vụ phù hợp để thực hiện đồng thời dạy nó suy nghĩ như một con người trong quá trình trích xuất. Đó là điều tốt nhất của cả hai thế giới.

    --- Bài cũ hơn ---

  • Các Phương Pháp Và Công Cụ Kiểm Thử Dữ Liệu Lớn (Big Data Testing)
  • Các Phương Pháp Thu Thập Dữ Liệu Sơ Cấp, Dự Liệu Thứ Cấp
  • Tổng Quan Về Hệ Thống Thông Tin
  • Chuong 2 Tổ Chức Dữ Liệu Trong Httt Kế Toán
  • Cong Nghe San Xuat Xi Mang Lo Quay Kho
  • Chương 2: Các Vấn Đề Tiền Xử Lý Dữ Liệu

    --- Bài mới hơn ---

  • Chuẩn Bị Dữ Liệu Và Xử Lí Dữ Liệu
  • Cách Đối Diện Với Dữ Liệu Bị Thiếu Missing Values Khi Phân Tích Dữ Liệu
  • Cách Định Giá Cổ Phiếu Công Ty & Bài Tập Định Giá Cổ Phiếu
  • Thanh Lọc Cơ Thể Trong 1 Ngày Bằng Phương Pháp Yoga Shank Prakshalana (P1)
  • Yoga Shank Prakshalana Thanh Lọc Cơ Thể Trong 1 Ngày
  • Presentation on theme: “Chương 2: Các vấn đề tiền xử lý dữ liệu”- Presentation transcript:

    Nội dung 2.1. Tổng quan về giai đoạn tiền xử lý dữ liệu

    2.2. Tóm tắt mô tả về dữ liệu 2.3. Làm sạch dữ liệu 2.4. Tích hợp dữ liệu 2.5. Biến đổi dữ liệu 2.6. Thu giảm dữ liệu 2.7. Rời rạc hóa dữ liệu 2.8. Tạo cây phân cấp ý niệm 2.9. Tóm tắt

    2.1. Tổng quan về giai đoạn tiền xử lý dữ liệu

    2.1. Tổng quan về giai đoạn tiền xử lý dữ liệu

    Các kỹ thuật tiền xử lý dữ liệu Làm sạch dữ liệu (data cleaning/cleansing) Tóm tắt hoá dữ liệu: nhận diện đặc điểm chung của dữ liệu và sự hiện diện của nhiễu hoặc các phần tử kì dị (outliers) Xử lý dữ liệu bị thiếu (missing data) Xử lý dữ liệu bị nhiễu (noisy data) Tích hợp dữ liệu (data integration) Tích hợp lược đồ (schema integration) và so trùng đối tượng (object matching) Vấn đề dư thừa (redundancy) Phát hiện và xử lý mâu thuẫn giá trị dữ liệu (detection and resolution of data value conflicts)

    2.2. Tóm tắt mô tả về dữ liệu Xác định các thuộc tính (properties) tiêu biểu của dữ liệu về xu hướng chính (central tendency) và sự phân tán (dispersion) của dữ liệu Các độ đo về xu hướng chính: mean, median, mode, midrange Các độ đo về sự phân tán: quartiles, interquartile range (IQR), variance Làm nổi bật các giá trị dữ liệu nên được xem như nhiễu (noise) hoặc phần tử biên (outliers), cung cấp cái nhìn tổng quan về dữ liệu

    2.2. Tóm tắt mô tả về dữ liệu Dữ liệu mẫu về đơn giá của các mặt hàng đã được bán

    2.2. Tóm tắt mô tả về dữ liệu Q1 Q2 Q3

    Tóm tắt mô tả về sự phân bố dữ liệu gồm năm trị số quan trọng: median, Q1, Q3, trị lớn nhất, và trị nhỏ nhất (theo thứ tự: Minimum, Q1, Median, Q3, Maximum).

    2.3. Làm sạch dữ liệu Xử lý dữ liệu bị thiếu (missing data)

    Nhận diện phần tử biên (outliers) và giảm thiểu nhiễu (noisy data) Xử lý dữ liệu không nhất quán (inconsistent data)

    2.3. Làm sạch dữ liệu Nhận diện phần tử biên (outliers) và giảm thiểu nhiễu (noisy data) Định nghĩa Outliers: những dữ liệu (đối tượng) không tuân theo đặc tính/hành vi chung của tập dữ liệu (đối tượng). Noisy data: outliers bị loại bỏ (rejected/discarded outliers) như là những trường hợp ngoại lệ (exceptions). Nguyên nhân Khách quan (công cụ thu thập dữ liệu, lỗi trên đường truyền, giới hạn công nghệ, …) Chủ quan (tác nhân con người) Outliers are data points that are highly inconsistent with the remaining data (e.g. they may be way out of the expected value range). (7.11 outlier analysis)

    2.3. Làm sạch dữ liệu Nhận diện phần tử biên (outliers) và giảm thiểu nhiễu (noisy data) Giải pháp nhận diện phần tử biên Dựa trên phân bố thống kê (statistical distribution-based) Dựa trên khoảng cách (distance-based) Dựa trên mật độ (density-based) Dựa trên độ lệch (deviation-based) Giải pháp giảm thiểu nhiễu Binning Hồi quy (regression) Phân tích cụm (cluster analysis) Outliers are data points that are highly inconsistent with the remaining data (e.g. they may be way out of the expected value range). (7.11 outlier analysis) Noise is a random error or variance in a measured variable.

    2.3. Làm sạch dữ liệu Nhận diện phần tử biên (outliers) và giảm thiểu nhiễu (noisy data) Giải pháp giảm thiểu nhiễu Hồi quy (regression) x y y = x + 1 X1 Y1 Y1′ Outliers are data points that are highly inconsistent with the remaining data (e.g. they may be way out of the expected value range). (7.11 outlier analysis) Noise is a random error or variance in a measured variable.

    2.3. Làm sạch dữ liệu Xử lý dữ liệu không nhất quán

    Định nghĩa của dữ liệu không nhất quán Dữ liệu được ghi nhận khác nhau cho cùng một đối tượng/thực thể  discrepancies from inconsistent data repsentations 2004/12/25 và 25/12/2004 Dữ liệu được ghi nhận không phản ánh đúng ngữ nghĩa cho các đối tượng/thực thể Ràng buộc khóa ngoại Nguyên nhân Sự không nhất quán trong các qui ước đặt tên hay mã dữ liệu Định dạng không nhất quán của các vùng nhập liệu Thiết bị ghi nhận dữ liệu, …

    2.5. Biến đổi dữ liệu Biến đổi dữ liệu: quá trình biến đổi hay kết hợp dữ liệu vào những dạng thích hợp cho quá trình khai phá dữ liệu Làm trơn dữ liệu (smoothing) Kết hợp dữ liệu (aggregation) Tổng quát hoá (generalization) Chuẩn hoá (normalization) Xây dựng thuộc tính/đặc tính (attribute/feature construction)

    2.5. Biến đổi dữ liệu Tổng quát hóa (generalization)

    Chuyển đổi dữ liệu cấp thấp/nguyên tố/thô sang các khái niệm ở mức cao hơn thông qua các phân cấp ý niệm  Thu giảm dữ liệu (data reduction)

    2.5. Biến đổi dữ liệu Chuẩn hóa (normalization) min-max normalization

    z-score normalization Normalization by decimal scaling Các giá trị thuộc tính được chuyển đổi vào một miền trị nhất định được định nghĩa trước.

    2.6. Thu giảm dữ liệu Tập dữ liệu được biến đổi đảm bảo các toàn vẹn, nhưng nhỏ/ít hơn nhiều về số lượng so với ban đầu. Các chiến lược thu giảm Kết hợp khối dữ liệu (data cube aggregation) Chọn một số thuộc tính (attribute subset selection) Thu giảm chiều (dimensionality reduction) Thu giảm lượng (numerosity reduction) Rời rạc hóa (discretization) Tạo phân cấp ý niệm (concept hierarchy generation)  Thu giảm dữ liệu: lossless và lossy

    2.6. Thu giảm dữ liệu Kết hợp khối dữ liệu (data cube aggregation)

    Dạng dữ liệu: additive, semi-additive (numerical) Kết hợp dữ liệu bằng các hàm nhóm: average, min, max, sum, count, … Dữ liệu ở các mức trừu tượng khác nhau. Mức trừu tượng càng cao giúp thu giảm lượng dữ liệu càng nhiều. Sum() W.H Inmon, Building the data warehouse, Fourth Edition, Wiley Publishing, Inc., 2005. cube: Sale

    2.6. Thu giảm dữ liệu Chọn một số thuộc tính (attribute subset selection) Giảm kích thước tập dữ liệu bằng việc loại bỏ những thuộc tính/chiều/đặc trưng (attribute/dimension/feature) dư thừa/không thích hợp (redundant/irrelevant) Mục tiêu: tập ít các thuộc tính nhất vẫn đảm bảo phân bố xác suất (probability distribution) của các lớp dữ liệu đạt được gần với phân bố xác suất ban đầu với tất cả các thuộc tính  Bài toán tối ưu hóa: vận dụng heuristics

    2.6. Thu giảm dữ liệu Chọn một số thuộc tính (attribute subset selection)

    2.6. Thu giảm dữ liệu Thu giảm chiều (dimensionality reduction)

    Biến đổi wavelet (wavelet transforms) Phân tích nhân tố chính (principal component analysis)  đặc điểm và ứng dụng?

    2.7. Rời rạc hóa dữ liệu Giảm số lượng giá trị của một thuộc tính liên tục (continuous attribute) bằng các chia miền trị thuộc tính thành các khoảng (intervals) Các nhãn (labels) được gán cho các khoảng (intervals) này và được dùng thay giá trị thực của thuộc tính Các trị thuộc tính có thể được phân hoạch theo một phân cấp (hierarchical) hay ở nhiều mức phân giải khác nhau (multiresolution)

    2.8. Tạo cây phân cấp ý niệm Các phương pháp tạo phân cấp ý niệm cho dữ liệu rời rạc (categorical/discrete data) Đặc tả thứ tự riêng phần (partial ordering)/thứ tự toàn phần (total ordering) của các thuộc tính tường minh ở mức lược đồ bởi người sử dụng hoặc chuyên gia Đặc tả một phần phân cấp bằng cách nhóm dữ liệu tường minh

    2.8. Tạo cây phân cấp ý niệm Các phương pháp tạo phân cấp ý niệm cho dữ liệu rời rạc (categorical/discrete data) Đặc tả một tập các thuộc tính, nhưng không bao gồm thứ tự riêng phần của chúng Đặc tả chỉ một tập riêng phần các thuộc tính (partial set of attributes) Tạo phân cấp ý niệm bằng cách dùng các kết nối ngữ nghĩa được chỉ định trước

    2.9. Tóm tắt Dữ liệu thực tế: không đầy đủ (incomplete/missing), nhiễu (noisy), không nhất quán (inconsistent) Quá trình tiền xử lý dữ liệu làm sạch dữ liệu: xử lý dữ liệu bị thiếu, làm trơn dữ liệu nhiễu, nhận dạng các phần tử biên, hiệu chỉnh dữ liệu không nhất quán tích hợp dữ liệu: vấn đề nhận dạng thực thể, vấn đề dư thừa, vấn đề mâu thuẫn giá trị dữ liệu biến đổi dữ liệu: làm trơn dữ liệu, kết hợp dữ liệu, tổng quát hóa, chuẩn hóa, xây dựng thuộc tính/đặc tính thu giảm dữ liệu: kết hợp khối dữ liệu, chọn một số thuộc tính, thu giảm chiều, rời rạc hóa và tạo phân cấp ý niệm

    2.9. Tóm tắt Rời rạc hóa dữ liệu Tạo cây phân cấp ý niệm

    Thu giảm số trị của một thuộc tính liên tục (continuous attribute) bằng cách chia miền trị thành các khoảng (interval) có dán nhãn. Các nhãn này được dùng thay cho các giá trị thực. Tiến hành theo hai cách: trên xuống (top down) và dưới lên (bottom up), có giám sát (supervised) và không có giám sát (unsupervised). Tạo phân hoạch phân cấp/đa phân giải (multiresolution) trên các trị thuộc tính  phân cấp ý niệm cho thuộc tính số (numerical attribute) Tạo cây phân cấp ý niệm Hỗ trợ khai phá dữ liệu ở nhiều mức trừu trượng Cho thuộc tính số (numerical attributes): binning, histogram analysis, entropy-based discretization, 2-merging, cluster analysis, discretization by intuitive partitioning Cho thuộc tính phân loại/rời rạc (categorical/discrete attributes): chỉ định tường minh bởi người sử dụng hay chuyên gia, nhóm dữ liệu tường minh, dựa trên số lượng trị phân biệt (khác nhau) của mỗi thuộc tính

    --- Bài cũ hơn ---

  • Chi Tiết Bài Học Tiền Xử Lý Dữ Liệu Trong Lĩnh Vực Học Máy (Phần 3)
  • Dữ Liệu Thứ Cấp Là Gì? Ứng Dụng Và Cách Thu Thập Dữ Liệu Thứ Cấp
  • Hướng Dẫn Cách Xử Lý Lỗi Dữ Liệu Dạng Số Trong Excel Nhanh Chóng
  • Hướng Dẫn Cách Xử Lý Lỗi Dữ Liệu Dạng Số Trong Excel
  • Xử Lý Dữ Liệu Trong Bảng Tính Excel
  • Feature Engineering (Phần 4): Phương Pháp Xử Lý Truyền Thống Với Dữ Liệu Dạng Văn Bản (Text Data)

    --- Bài mới hơn ---

  • Xử Lý Dữ Liệu Trong Bảng Tính Excel
  • Hướng Dẫn Cách Xử Lý Lỗi Dữ Liệu Dạng Số Trong Excel
  • Hướng Dẫn Cách Xử Lý Lỗi Dữ Liệu Dạng Số Trong Excel Nhanh Chóng
  • Dữ Liệu Thứ Cấp Là Gì? Ứng Dụng Và Cách Thu Thập Dữ Liệu Thứ Cấp
  • Chi Tiết Bài Học Tiền Xử Lý Dữ Liệu Trong Lĩnh Vực Học Máy (Phần 3)
  • Xin chào mọi người, trong phần trước của series mình đã giới thiệu với mọi người một số phương pháp xử lý với dữ liệu dạng phân loại (Categorical Data). Trong phần tiếp theo này chúng ta sẽ tiếp tục với series Understanding Feature Engineering của Dipanjan (DJ) Sarkar để tìm hiểu về một số phương pháp xử lý truyền thống với dạng dữ liệu văn bản (Text Data).

    Giới thiệu

    Trong hai phần trước chúng ta đã đề cập đến các phương pháp xử lý cho 2 dạng dữ liệu có cấu trúc là: dữ liệu dạng số liên tục (continuous numeric data) và dữ liệu dạng phân loại (categorical data). Trong phân tiếp theo này, chúng ta sẽ xem xét cách làm việc với dữ liệu dạng văn bản, đây chắc chắn là một trong những dạng dữ liệu phi cấu trúc phong phú nhất mà bạn sẽ thường xuyên gặp phải. Dữ liệu văn bản thường bao gồm các tài liệu, có thể là dạng các từ, câu, thậm chí là các đoạn văn bản dài ngắn khác nhau. Dữ liệu dạng văn bản là dạng dữ liệu phi cấu trúc (không có các cột được định nghĩa rõ ràng) và các dữ liệu dạng văn bản thường rất nhiễu khiến các phương pháp học máy khó có thể làm việc trực tiếp trên dữ liệu thô. Do đó, trong bài viết này, chúng ta sẽ tiếp cận thực tes để tìm hiểu một số phương pháp phổ biến và hiệu quả để trích xuất các đặc trưng có ý nghĩa từ dữ liệu dạng văn bản. Những đặc trưng này sau đó có thể sử dụng trong việc xây dựng mô hình học máy hoặc mô hình học sâu một cách dễ dàng.

    Sự cần thiết

    Như chúng ta đã biết, feature engineering được gọi là các công thức bí mật để tạo ra các mô hình học máy hiệu suất cao hơn và tốt hơn. Chỉ cần có một đặc trựng tuyệt vời là bạn có thể dành được chiến thắng trong các challenge của Kaggle. Tầm quan trọng của các kỹ thuật xử lý dữ liệu thậm chí còn quan trọng hơn đối với dữ liệu dạng văn bản, bởi vì như đã nhắc đến ở trên, dữ liệu dạng văn bản là dữ liệu không có cấu trúc và các thuật toán học máy hầu như không thể làm việc được với dữ liệu thô, bởi vậy chúng ta cần chuyển đổi văn bản thành các dạng biểu diễn số học mà thuật toán học máy có thể hiểu được. Ngay cả với sự ra đời của các kỹ thuật xử lý tự động thì bạn vẫn cần hiểu các khái niệm cốt lõi đằng sau các kỹ thuật trước khi áp dụng chúng trong các mô hình black box. Hay luôn nhớ rằng, nếu bạn được tặng một hộp công cụ để sửa chữa nhà cửa, bạn nên biết khi nào nên sử dụng máy khoan và khi nào nên sử dụng búa!

    Dữ liệu dạng văn bản là gì

    Trước tiên, chúng ta cần phải có một ý tưởng hợp lý và dữ liệu dạng văn bản. Hãy nhớ rằng bạn luôn có thể có dữ liệu dạng văn bản ở dạng thuộc tính dữ liệu có cấu trúc, thường là văn bản ở dạng những đặc trưng của dữ liệu dạng phân loại (Categorical Data).

    Tuy nhiên, trong trường hợp này chúng ta đang nói về văn bản tự do dưới dạng từ, cụm từ, câu hoặc toàn bộ đoạn văn. Về cơ bản, chúng ta có một số cấu trục cú pháp như từ tạo ra cụm từ, cụm từ tạo thành câu, câu tạo thành đoạn văn. Tuy nhiện, không có cấu trúc vốn có nào cho dữ liệu dạng văn bản vì bạn có thể có nhiều từ có thể khác nhau giữa các đoạn dữ liệu và mỗi câu cũng sẽ có độ dài thay đổi. Và bài viết này chính là một ví dụ cho dữ liệu dạng văn bản.

    Feature Engineering cho dữ liệu dạng văn bản

    Tiếp theo chúng ta hãy lấy một đoạn văn bản corpus mà chúng ta sẽ sử dụng trong bài viết này. Một corpus có thể hiểu là một tập hợp các văn bản thuộc về một hoặc nhiều đối tượng.

    Bạn có thể thấy rằng chúng ta đã có được một vài đoạn văn bản từ những category khác nhau. Trước khi chúng ta nói về các kỹ thuật xử lý dữ liệu, như mọi khi, chúng ta cần thực hiện một số bước tiền xử lý hoặc sắp xếp lại để loại bỏ các ký tự, ký hiệu không cần thiết.

    Tiền xử lý văn bản

    • Xóa thẻ tags: Văn bản chúng ta gặp thường chứa nội dung không cần thiết như các thẻ HTML, không có giá trị khi phân tích. Thư viện BeautifulSoup là một công cụ tuyệt vời và cần thiết để xử lý trong trường hợp này.
    • Xóa các ký tự có dấu: Trong bất kỳ văn bản nào, đặc biệt nếu bạn đang xử lý ngôn ngữ tiếng Anh, thường các bạn cần phải xử lý các ký tự có dấu. Do đó, chúng ta vần đảm bảo rằng các ký tự này cần được chuyển đổi và chuẩn hóa thành các ký tự ASCII. Một ví dụ đơn giản là chúng ta sẽ chuyển đổi ký tự é thành e.
    • Xóa các ký tự đặc biệt: Các ký tự đặc biệt thường là các ký tự không phải là chữ và số, thường gây “nhiễu” cho dữ liệu của chúng ta. Thông thường, regular expssions (regexes) có thể được sử dụng để xử lý vấn đề này.
    • Từ gốc và ngữ pháp: Trong các ngữ cảnh khác nhau, các từ gốc thường được gắn thêm các tiền tố và hậu tố vào để đúng với ngữ pháp. Ví dụ các từ: WATCHES, WATCHING, and WATCHED. Chúng ta có thể thấy rằng chúng đều có chung từ gốc là WATCH
    • Xóa các stopwords: stopwords là các từ có ít hoặc không có ý nghĩa gì đặc biệt khi xây dựng các đặc trưng. Đây thường là những từ giới từ, trợ từ có tần suất xuất hiện tương đối cao trong một văn bản thông thường ví dụ như: a, an, the… Chúng ta không có một danh sách chung tác stopwords tuy nhiên bạn có thể sử dụng thư viện nltk. Hoặc bạn cũng có thể tự xây dựng được các thư viện stopwords cho riêng ngôn ngữ bạn đang xử lý. Việc này cũng có ý nghĩa tương đối quan trọng trong xử lý ngôn ngữ tự nhiên.

    Bên cạnh đó bạn cũng có thể thực hiện một số biện pháp tiêu chuẩn khác như tokenization, xóa bỏ các khoảng trắng thừa, chuẩn hóa chữ cái viết hoa, các biện pháp sửa lỗi chính tả, sửa lỗi ngữ pháp, xóa các ký tự lặp lại… Bạn có thể tham khảo source code từ notebook của tác giả.

    Vì trọng tâm của bài viết này là về các kỹ thuật feature engineering nên chúng ta sẽ xây dựng một đoạn tiền xử lý văn bản hết sức đơn giản sau đây, chủ yếu tập trung vào loại bỏ các ký tự đặc biệt, xóa khoảng trắng thừa, xử lý các ký tự số, stopwords và xử lý chữ cái viết hoa.

    Khi đã có một pipeline tiền xử lý cơ bản, chúng ta hãy áp dụng nó cho đoạn văn bản mẫu ở trên:

    Từ Output chúng ta có thẩy có được cái nhìn rõ ràng về đoạn văn bản sau khi được xử lý. Bây giờ, hãy tiếp tục với các kỹ thuật feature engineering!

    Bag of Words Model

    Đây có lẽ là mô hình biểu diễn không gian vecto đơn giản nhất cho các văn bản phi cấu trúc. Mô hình không gian vecto chỉ đơn giản là một mô hình toán học để biểu diễn, đại diện cho văn bản (hoặc bất kỳ dạng dữ liệu nào khác) dưới dạng vecto số sao cho mỗi chiều của vecto là một đặc trưng của dữ liệu. Mô hình Bag of words biểu diễn cho mỗi mẫu dữ liệu văn bản dưới dạng một vecto số trong đó mỗi chiều là một từ cụ thể trong kho dữ liệu và giá trị có thể là tần số của nó xuất hiện trong đoạn văn bản (giá trị có thể là 0 hoặc 1) hoặc thậm chí là các giá trị có trọng số. Tên mô hình này là Bag of words thể hiện theo đúng nghĩa đen của nó nghĩa là một túi các từ, không quan tâm đến trật tự, trình tự, ngữ pháp.

    Như kết quả trên bạn có thể thấy rằng các văn bản của chúng ta đã được chuyển đổi thành các vecto số sao cho mỗi mẫu đầu vào đã được biểu diễn bằng một vecto (hàng) trong một ma trận đặc trưng. Đoạn source code sau đây có thể giúp bạn hiểu rõ hơn cách biểu diễn này:

    Bạn có thể thấy rõ ràng rằng mỗi cột trong ma trận đặc trưng trên đại diện cho một từ trong kho dữ liệu và mỗi hàng đại diện cho một mẫu. Giá trị trong mỗi ô biểu thị số lần từ đó xuất hiện trong một mẫu cụ thể. Do đó, nếu tập hợp các mẫu bao gồm N từ duy nhất trên toàn bộ không gian mẫu chúng ta sẽ có một vecto N chiều cho mỗi mẫu.

    Bag of N-Grams

    Như vậy chúng ta đã có các vecto đặc trưng cho các mẫu văn bản, trong đó mỗi đặc trưng bao gồm một Bi-grams đại diện cho một từ 2 âm tiết và giá trị cũng là số lần bi-grams xuất hiện trong các mẫu.

    TF-IDF

    Có một vấn đề tiềm ẩn có thể phát sinh với mô hình Bag of words đó là khi nó được sử dụng trên một văn bản lớn. Vì các vecto đặc trưng dựa trên tần số tuyệt đối, có thể sẽ có một số từ xuất hiện thường xuyên trên tất cả các mẫu và chúng sẽ có xu hướng làm lu mờ các từ khác. Và mô hình TF-IDF cố gắng giải quyết vấn đề này bằng cách sử dụng hệ số tỷ lệ hoặc chuẩn hóa trong tính toán của nó. TF-IDF là viết tắt của Term Frequency-Inverse Document Frequency. Hiểu một cách đơn giản nó là sự kết hợp của tần số xuất hiện của một từ trong một mẫu và nghịch đảo của tần số của từ đó trong toàn bộ tập dữ liệu. Kỹ thuật này được phát triển để đánh giá kết quả cho các truy vấn trong công cụ tìm kiếm và hiện tại nó là một phần không thể thiếu trong xử lý ngôn ngữ tự nhiên. Về mặt toán học có thể định nghĩa TF-IDF = tf x idf, công thức cụ thể như sau:

    Document Similarity

    Document Similarity (hay độ tương tự của văn bản) là quá trình sử dụng số liệu dựa trên khoảng cách hoặc độ tương tự có thể sử dụng để xác định mức độ tương đương của một văn bản với bất kỳ văn bản nào khác dựa trên các đặc trưng được trích xuất ra từ bag of words hoặc tf-idf.

    Chúng ta có thể xây dựng được các đặc trưng mới hữu ích được sử dụng trong các công cụ tìm kiếm, phân cụm văn bản, truy xuất thông tin từ các đặc trưng có được từ tf-idfDocument Similarity. Sự tương tự giữa các mẫu dữ liệu trong một kho văn bản cũng được hiểu là sự tương tự giữa từng cặp mẫu trong toàn bộ kho văn bản đó. Ví dụ, nếu ta có n mẫu trong kho văn bản thì output sẽ là một ma trận n * n tương ứng là score đột tương tự giữa từng cặp mẫu. Có rất nhiều công thức có thể sử dụng để tính toán độ tương tự này như khoảng cách cosin, khoảng cách euclide, khoảng cách manhattan… Trong ví dụ sau đây, chúng ta sẽ sử dụng khoảng cách phổ biến nhất – khoảng cách cosin để tính toán độ tương tự của các cặp mẫu dựa trên vecto đặc trưng TF-IDF đã có ở trên.

    from sklearn.metrics.pairwise import cosine_similarity similarity_matrix = cosine_similarity(tv_matrix) similarity_df = pd.DataFrame(similarity_matrix) similarity_df

    Nhìn vào ma trận độ tương tự (similarity matrix) các bạn có thể thấy rõ ràng rằng các mẫu (0, 1 và 6), (2, 5 và 7) rất giống nhau và các mẫu (3 và 4) hơi giống nhau nhưng cường độ không mạnh lắm. Điều này chỉ ra rằng các mẫu đó một số đặc trưng tương tự nhau. Đây chính là một ví dụ hoàn hảo về việc nhóm hoặc phân cụm văn bản có thể giải quyết được bằng cách học không giám sát (unsupervised learning). Đặc biệt chúng có thể áp dụng xử lý trên khối lượng lớn mẫu văn bản.

    Phân cụm tài liệu sử dụng đặc trưng tương tự

    Việc lựa chọn tiêu chí để hợp nhất các liên kết quyết định rất lớn đến kết quả của bài toán. Một vài tiêu chuẩn liên kết như Ward, liên kết hoàn chỉnh (Complete linkage), liên kết trung bình (Average linkage)… Các tiêu chí này nhằm mục đích chọn các cặp cụm dữ liệu ở tầng thấp nhất và ở các cụm cao hơn để hợp nhất dựa trên giá trị tối ưu của hàm mục tiêu. Trong ví dụ sau đây, chúng ta sẽ chọn phương pháp phương sai tối thiểu Ward để làm tiêu chí liên kết các cặp cụm với mục đích giảm thiểu tổng phương sai trong cụm đó. Sử dụng similarity matrix có được ở trên chúng ta cùng xem xét ví dụ sau để hiểu rõ hơn về việc liên kết các mẫu dữ liệu.

    Bạn có thể thấy rằng mỗi điểm dữ liệu ban đầu đều thuộc các cụm riêng lẻ và sẽ được hợp nhất với các điểm dữ liệu khcas để tạo thành cụm. Từ màu sắc và sự phân nhánh bạn có thể thấy rằng mô hình đã xác định được ba cụm chính nếu bạn sử dụng một thước đo khoảng cách từ 1.0 trở lên (trong biểu đồ là đường chấm đứt). Sử dụng khoảng cách này chúng ta sẽ có nhãn của các cụm bằng cách sau.

    Như vậy, chúng ta đã xác định được chính xác 3 cụm khác nhau của các tài liệu trong kho văn bản. Hi vọng điều này đã cung cấp cho các bạn một ý tưởng tốt về cách sử dụng đặc trưng TF-IDF và đặc trưng tương tự của văn bản để phâm cụm các tài liệu,

    Topic Models

    Phân cụm văn bản dựa trên Topic models

    Các bạn đã xây dựng được topic model dựa trên bag of wordsLDA. Bây giờ, chúng ta sẽ tận dụng kết quả trên để phân cụm các mẫu tài liệu trong kho văn bản bằng thuật toán phân cụm không giám sát để thử xem kết quả có giống như những gì làm trước đó với thuật toán phân cụm sử dụng Document Similarity hay không?

    Chúng ta sẽ sử dụng một thuật toán phân cụm phổ biến nhất là K-means clustering để phân nhóm các mẫu tài liệu dựa trên các đặc trưng thu được từ topic model ở trên. Trong K-means clustering, tham số k chỉ định số lượng phân nhóm sẽ được tạo ra. Phương pháp phân cụm này dưa trên centroid, nghĩa là thuật toán sẽ cố gắng tạo ra các cụm mà tổng bình phương khoảng cách của các điểm dữ liệu trong cụm đến tâm của cụm đó là nhỏ nhất và phương sai của các cụm bằng nhau.

    Như vậy chúng ta đã có được kết quả phân cụm và gán nhãn cho các mẫu văn bản bằng phương pháp topic model

    Các phương pháp nâng cao

    Tài liệu tham khảo

    --- Bài cũ hơn ---

  • Cách Xử Lý Dữ Liệu Lớn Với Xử Lý Ngôn Ngữ Tự Nhiên
  • Các Phương Pháp Và Công Cụ Kiểm Thử Dữ Liệu Lớn (Big Data Testing)
  • Các Phương Pháp Thu Thập Dữ Liệu Sơ Cấp, Dự Liệu Thứ Cấp
  • Tổng Quan Về Hệ Thống Thông Tin
  • Chuong 2 Tổ Chức Dữ Liệu Trong Httt Kế Toán
  • Web hay
  • Links hay
  • Push
  • Chủ đề top 10
  • Chủ đề top 20
  • Chủ đề top 30
  • Chủ đề top 40
  • Chủ đề top 50
  • Chủ đề top 60
  • Chủ đề top 70
  • Chủ đề top 80
  • Chủ đề top 90
  • Chủ đề top 100
  • Bài viết top 10
  • Bài viết top 20
  • Bài viết top 30
  • Bài viết top 40
  • Bài viết top 50
  • Bài viết top 60
  • Bài viết top 70
  • Bài viết top 80
  • Bài viết top 90
  • Bài viết top 100