Việc phân loại tài liệu và đánh số mục trong thông tin học
Phân loại là một công đoạn mô tả nội dung tài liệu, qua đó người ta xác định được nội dung chính của tài liệu và thể hiện nó bằng một thuật ngữ của khung phân loại.
Phân loại tài liệu
Công đoạn này được tiến hành ở giữa dây chuyền tư liệu, trước khi đưa tài liệu vào hệ thống lưu trữ và tìm tin.
Mục đích của phân loại là: Sắp xếp các thông tin thành một số lớp tương đối hẹp, mà mỗi lớp đó có thể tương ứng với một lĩnh vực quan tâm đặc biệt của một nhóm người dùng tin. Nó đồng thời giúp cho việc tổ chức các bộ phiếu hệ thống và sắp xếp các tài liệu trên giá tạo điều kiện thuận lợi cho việc sử dụng vốn tài liệu.
Lợi ích của phân loại là nó cho phép: Phối hợp việc sắp xếp tài liệu trên giá với việc tổ chức các bộ phiếu, tạo điều kiện cho việc sử dụng vốn tài liệu; Sắp xếp các thông tin thành một số lớp tương đối hẹp, mà mỗi lớp đó có thể tương ứng với một lĩnh vực quan tâm đặc biệt của một nhóm người dùng tin.
Các bướctiến hành phân loại
Công tác phân loại được tiến hành theo các bước như mô hình chung của việc mô tả nội dung tài liệu. Nó bao gồm các bước chính sau: Xác định chủ đề chính của tài liệu; Xác định lớp của chủ đề chính; Tìm chỉ số tương ứng với lớp đã chọn; Xây dựng một mã số làm ký hiệu xếp giá cho tài liệu, ngoài chỉ số phân loại; Dán ký hiệu xếp giá lên tài liệu; Biểu thị chỉ số phân loại trên bản chỉ dẫn thư mục của tài liệu hay trên một bản kê.
Việc lựa chọn các chỉ số phân loại cho tài liệu là một công việc có tính chất phiên dịch, nó đòi hỏi phải có hiểu biết và kinh nghiệm.
Trường hợp đơn giản nhất là các thuật ngữ lựa chọn để mô tả nội dung chính của tài liệu có ngay trong khung phân loại đang dùng. Tuy nhiên nhiều khi thuật ngữ cần lựa chọn không có trong khung phân loại. Khi đó ta phải tìm một từ chuẩn tương ứng với mức độ chính xác nhất. Muốn vậy phải có hiểu biết về chủ đề, tra cứu thêm ở các từ điển, các bách khoa thư để hiểu biết thêm về chủ đề đó, sau đó tìm trong bảng danh mục hệ thống một từ chuẩn thích hợp nhất. Việc kiểm tra lại thông qua bản danh mục hệ thống xem từ chuẩn đang xét có thể hiện đúng ý nghĩa và nội dung của tài liệu hay không là rất cần thiết.
Đánh chỉ số
Đánh chỉ số là một dạng mô tả nội dung tài liệu, mà ở đó người ta chọn ra những thuật ngữ thích hợp nhất để trình bày nội dung và những khái niệm mà tài liệu đề cập tới.
Nội dung của tài liệu được thể hiện bằng một tập hợp các từ vựng của ngôn ngữ tư liệu mà hệ thống đó sử dụng như từ điển từ chuẩn, danh mục các từ khóa. Các thuật ngữ chọn ra được sắp xếp sao cho nó tạo thành như một dãy các chỉ dẫn giúp cho việc tìm tin.
Đánh chỉ số là một việc trung tâm của mọi hệ thống thông tin, nó cho phép ta có thể lưu trữ và tìm kiếm thông tin. Nó được tiến hành ở giữa dây chuyền tư liệu.
Sản phẩm của đánh chỉ số là một bản chỉ mục (index). Đó là một danh mục các thuật ngữ có ý nghĩa.
Các bản chỉ mục phục vụ cho việc tìm tin và lựa chọn ra các thông tin để trả lời yêu cầu của người dùng tin.
Việc đánh chỉ số có thể tiến hành ở nhiều mức độ khác nhau, có mức độ trung binh, có mức độ sâu sắc. Cũng như mọi hình thức mô tả nội dung, việc đánh chỉ số đôi khi cũng có tính chọn lọc, tức là nó chỉ giữ lại những nội dung của tài liệu mà người dùng tin quan tâm.
Các cán bộ được giao nhiệm vụ đánh chỉ số phải là những người có chuyên môn và kinh nghiệm, đồng thời phải am hiểu lĩnh vực chuyên môn mà tài liệu đề cập tới. Mặt khác cũng phải quan tâm nắm bắt được nhu cầu của người dùng tin.
Các bước tiến hành đánh chỉ số
Theo mô hình chung của mô tả nội dung tài liệu, đánh chỉ số được tiến hành theo các bước sau: Làm quen với tài liệu để có những hiểu biết tổng quát về tài liệu;
Xác định nội dung chính của tài liệu, đồng thời phải đi đến phát hiện ra những khái niệm mà tài liệu đề cập tới. Tên tài liệu, lời nói đầu, bảng mục lục, các tóm tắt của tác giả, các bảng biểu và minh họa giúp ta rất nhiều để phát hiện ra các khái niệm đó.
Rút ra những khái niệm thể hiện bằng ngôn ngữ tự nhiên. Các khái niệm rút ra phải có tính chất chọn lọc, tức là chỉ giữ những khái niệm mà người dùng tin quan tâm. Mặt khác lại phải có tính chất đặc trưng, tức là nó thể hiện những đặc trưng chủ yếu của nội dung tài liệu.
Thể hiện các khái niệm đã rút ra bằng ngôn ngữ tư liệu. Nói chung ta phải cố gắng tìm những thuật ngữ có trong từ điển từ chuẩn hoặc danh mục các từ khóa. Người ta thường dùng danh từ số ít để diễn tả một khái niệm.
Kiểm tra tính tương thích của các từ chuẩn đã chọn ra; Hình thành bản chỉ mục theo quy tắc trình bày đã quy định. Một bản chỉ mục thường bao gồm từ 10 đến 15 từ chuẩn.
Chất lượng của việc đánh chỉ số được đánh giá theo những tiêu chuẩn sau đây: Tính đầy đủ, tức là mọi chủ đề nội dung, mọi khái niệm mà tài liệu đề cập tới đều được trình bày đầy đủ trong bản chỉ mục;
Tính chọn lọc, tức là chỉ giữ lại những thông tin mà người dùng tin quan tâm;
Tính đặc trưng, tức là các từ chuẩn thể hiện sát nhất nội dung tài liệu và ít dùng các từ chuẩn quá chung hoặc quá riêng đối với những khái niệm thể hiện trong tài liệu;
Tính đồng nhất, tức là nếu có một người nào khác cũng đánh chỉ số tài liệu ấy thì cũng theo một cách như vậy.
Về sau việc tự động hóa công việc đánh chỉ số bằng máy tính điện tử đang được thực hiện ở nhiều nước và thể hiện ưu thế vượt trội. Việc số hóa tài liệu giúp việc đánh chỉ số trở nên thông minh và hiệu quả.