Posted in Khác

Recommender systems

  1. Introduction to Recommender Systems

Recommender Systems (RSs) là một software tools hay một kĩ thuật cung cấp gợi ý cho items tùy mục đích sử dụng của user . Gợi ý cung cấp mục đích để hỗ trợngười dùng trong rất nhiều quá trình quyết định , như là items nào nên mua , bài nhạc nào nên nghe . Phát triển một RSs là một nỗ lực đa ngành trong đó bao gồm các chuyên gia từ nhiều lĩnh vực như Artificial intelligence, Human Computer Interaction, Information Technology, Data Mining, Statistics, Adaptive User Interfaces, Decision Support Systems, Marketing, or Consumer Behavior.

Trong trường hợp của một book RSs , nó sẽ hỗ trợ người dùng chọn sách để đọc . Trong một trang Web rất phổ biến , Amazon.com , trang nay triển khai một RS để cá nhân hoá của hàng online cho từng khách hàng . Hệ thống recommendations thường là được cá nhân hoá , các người dùng hay nhóm người dùng khác nhau thường nhận được các gợi ý khác nhau . Cũng có những hệ thống gợi ý non-personalized . Điển hình là 10 bài hát đang phổ biến nhất hay , 10 quyển sách đang bán chạy nhất . Hệ thống non-personalized có thể hữu dụng trong các trường hợp nhất định , tuy nhiên trong RS research nó không được qua tâm nhiều lắm .

Recommender systems have proven to be valuable means for online users to cope with the information overload and have . Trong những năm gần đây , hệ thống recommender đã được phát triển đáng kể . RSs đóng vai trò quan trọng trong các trang web có xếp hạng cao như Amazonlcom , Youtube , Netflix , Yahoo , Tripadvisor , IMDb . Các công ty media phát triển và triển khai các RSs như một phần của dịch dụ cung cấp cho người dùng , Ví dụ Netflix , hệ thống dịch vụ thuê phim trực tuyến , trao giải thưởng 1 triệu đô cho team đầu tiên mà cải tiến đáng kể so với hệ thống RSs của họ ( 10% với RSME) . Tương ứng , có rất nhiều kĩ thuộc cho recommendation đã được đề xuất trong thập kỉ vừ qua , rất nhiều trong số đó đã thực thi thành công trong môi trường thương mại

  1. Data Mining Methods for Recommender Systems

Real-life data cần được tiền xử lý để làm sao có thể sử dụng các kĩ thuật machine learning để làm tiếp . 3 vấn đề mà đặc biệt quan trọng khi thiết kế một RS . Đầu tiên sẽ là các similarity hoặc distance meansures . Rồi vấn đề lấy mấu dữ liệu để làm giảm số lượng itesm trong tập lớn giữ liệu mà vẫn giữ được đặc điểm chính của nó . Cuối cùng là một số kĩ thuật để reduce dimensionality

  • Similarity Meansures

Một trong những phương pháp ưa thích để collaborative filtering recommenders là sử dụng phân loại kNN . Phương pháp phân loại này – hay các phương pháp phân loại và phân cụm khác phụ thuộc rất nhiều vào định nghĩa một độ đo khoảng cách hay độ tương tự thích hợp . Distane meansure đơn giản và phổ biến nhất đó là Eucidean distane :

euclidean-distance

với n là số chiều (hay số features) và  và  là attributes thứ k của data objects x và y

Minkowski Distance là phương trình tổng quát của Euclidean Distance

minkowski-distance

Phụ thuộc vào giá trị của r , khoảng cách Minkowski sẽ được gọi với những tên gọi riêng : Với r=1 , là city block ( Manhattan , taxicab hay L1 norm ) . Với r=2 , khoảng cách Euclidean …

Một phương pháp rất phổ biến khác xem xét các items như các vector không gian n-chiều , và tính toán độ tương tự của chúng như là cosine giữa các góc :

cosine-distance

với . là vector dot product và ||x|| là độ lớn của vector x . Độ tương tự này được biết đến như là cosine similarity hay L2 Norm

  • Sampling

Sampling là kĩ thuật chính được sử dụng trong Data mining để chọn một tập các dữ liệu liên quan từ một tập lớn dữ liệu . Sampling có thể được sử dụng bởi vì xử lý toàn bộ dataset tốn kém mặt tính toán . Nó cũng có thể được sử dụng để tạo ra training testing datasets .

Vấn đề chủ yếu của sampling đó là tìm được tập con từ tập dữ liệu gốc làm sao mà tượng trưng cho toàn bộ bộ dữ liệu . Kĩ thuật sampling đơn giản nhất đó là random sampling  , xác suất chọn bất kì 1 item nào là như nhau . Có những phương pháp phức tạp hơn như stratified sampling

  • Reducing Dimensionality

Features trong data set có thể được định nghĩa trong một không gian có số chiều lớn , và thông tin thì rất rải rác , chỉ có môt số features trong mỗi object là có giá trị . Những khái niệm về mật độ và khoảng cách giữa các điểm, mà quan trọng cho clustering và phát hiện outlier, trở nên ít ý nghĩa trong không gian rất chiều . Điều này được biết đến là Curse of Dimensionality . Kĩ thuật giảm chiều sẽ giúp chúng ta vượt qua được vấn đề này bằng cách chuyển không gian nhiều chiều ban đầu sang không gian có số chiều nhỏ hơn .

Hai phương pháp giảm chiều được sử dụng nhiều nhất trong ngữ cảnh RS là : Principal Component Analysis (PCA) Singular Value Decomposition (SVD) .

  1. Content-based RS

Hệ thống sẽ học cách gợi ý items mà tương tự với items mà user đã từng thích trong quá khứ . Độ tương tự của các items được tính toán dựa vào features . Ví dụ , nếu một user từng đánh giá một phim hài cao , thì hệ thống sẽ có thể sẽ gợi ý các phim hài khác cho người dùng . Quá trình recommendation đơn giản có thể là nối giữa attributes của user profile và các attributes của content object

3.1. Kiến trúc của Content-based RS

content-based-recommender

Content-based RSs cần một kĩ thuật đúng đắn để biểu diễn item , sinh ra user profile và một phương pháp để so sánh giữa user profile và item . Quá trình recommendation sẽ được thực thi qua 3 bước :

– CONTENT ANALYZER : Với những thông tin không có cấu trúc ( như text ) , một số bước tiền xử lý la cần thiết để thu được các thông tin có cấu trúc liên quan

– PROFILE LEARNER : Module này sẽ thu thập thông tin tượng trưng cho sở thích của user , cố gắng từ dữ liệu này , xây dựng user profile .

– FILTERING COMPONENT

Advertisements

Trả lời

Mời bạn điền thông tin vào ô dưới đây hoặc kích vào một biểu tượng để đăng nhập:

WordPress.com Logo

Bạn đang bình luận bằng tài khoản WordPress.com Đăng xuất / Thay đổi )

Twitter picture

Bạn đang bình luận bằng tài khoản Twitter Đăng xuất / Thay đổi )

Facebook photo

Bạn đang bình luận bằng tài khoản Facebook Đăng xuất / Thay đổi )

Google+ photo

Bạn đang bình luận bằng tài khoản Google+ Đăng xuất / Thay đổi )

Connecting to %s