Chủ YếU Công nghệ

Công nghệ nhận dạng giọng nói

Công nghệ nhận dạng giọng nói
Công nghệ nhận dạng giọng nói

Video: Đồ Án Tốt Nghiệp - Nhận dạng giọng nói - Voice Recognition System 2024, Tháng BảY

Video: Đồ Án Tốt Nghiệp - Nhận dạng giọng nói - Voice Recognition System 2024, Tháng BảY
Anonim

Nhận dạng giọng nói, khả năng đáp ứng các lệnh nói. Nhận dạng giọng nói cho phép điều khiển rảnh tay các thiết bị và thiết bị khác nhau (một lợi ích cụ thể cho nhiều người khuyết tật), cung cấp đầu vào cho bản dịch tự động và tạo ra chính tả in sẵn. Trong số các ứng dụng sớm nhất để nhận dạng giọng nói là hệ thống điện thoại tự động và phần mềm đọc chính tả y tế. Nó thường được sử dụng để đọc chính tả, truy vấn cơ sở dữ liệu và đưa ra các lệnh cho các hệ thống dựa trên máy tính, đặc biệt là trong các ngành nghề dựa trên các từ vựng chuyên ngành. Nó cũng cho phép trợ lý cá nhân trong xe cộ và điện thoại thông minh, chẳng hạn như Siri của Apple.

Trước khi bất kỳ máy nào có thể diễn giải lời nói, micrô phải dịch các rung động của giọng nói của người đó thành tín hiệu điện giống như sóng. Lần lượt, tín hiệu này được chuyển đổi bởi phần cứng của hệ thống, ví dụ, card âm thanh của máy tính thành tín hiệu số. Đó là tín hiệu kỹ thuật số mà một chương trình nhận dạng giọng nói phân tích để nhận ra các âm vị riêng biệt, các khối xây dựng cơ bản của lời nói. Các âm vị sau đó được kết hợp lại thành các từ. Tuy nhiên, nhiều từ nghe có vẻ giống nhau và để chọn từ thích hợp, chương trình phải dựa vào ngữ cảnh. Nhiều chương trình thiết lập bối cảnh thông qua phân tích bát quái, một phương pháp dựa trên cơ sở dữ liệu của các cụm ba từ thường xuyên trong đó xác suất được gán rằng bất kỳ hai từ nào sẽ được theo sau bởi một từ thứ ba nhất định. Ví dụ: nếu một người nói nói là ai, thì từ tiếp theo sẽ được công nhận là đại từ chỉ ra tôi chứ không phải là một âm thanh tương tự nhưng ít có khả năng là mắt. Tuy nhiên, sự can thiệp của con người đôi khi là cần thiết để sửa lỗi.

Các chương trình nhận dạng một vài từ riêng lẻ, chẳng hạn như hệ thống điều hướng bằng giọng nói điện thoại, hoạt động cho hầu hết mọi người dùng. Mặt khác, các chương trình nói liên tục, như chương trình đọc chính tả, phải được đào tạo để nhận ra các mẫu giọng nói của một cá nhân; đào tạo liên quan đến người dùng đọc to các mẫu văn bản. Ngày nay, với sức mạnh ngày càng tăng của máy tính cá nhân và thiết bị di động, độ chính xác của nhận dạng giọng nói đã được cải thiện rõ rệt. Tỷ lệ lỗi đã giảm xuống còn khoảng 5 phần trăm trong các từ vựng có chứa hàng chục ngàn từ. Thậm chí độ chính xác cao hơn đạt được trong các từ vựng giới hạn cho các ứng dụng chuyên ngành như đọc chính tả chẩn đoán X quang.