Khả năng nói của Jules Rodriguez, người đàn ông 40 tuổi sống tại Miami, suy giảm dần kể từ khi được chẩn đoán mắc bệnh xơ cứng teo cơ một bên (ALS) vào năm 2020. Năm 2024, các bác sĩ lo ngại rằng Rodriguez không thể tự thở lâu hơn nữa. Vì vậy, anh được đặt một ống nhỏ vào khí quản để giúp hô hấp. Phẫu thuật mở khí quản giúp kéo dài cuộc sống, nhưng cũng lấy đi giọng nói.
Rodriguez cùng vợ, Maria Fernandez, nghĩ rằng họ sẽ không bao giờ nghe thấy giọng nói của anh nữa. Tuy nhiên, trí tuệ nhân tạo (AI) đã mang đến một điều kỳ diệu, cho phép Rodriguez có thể giao tiếp bằng giọng nói cũ.
"Được nghe lại giọng nói của mình sau một thời gian dài giúp tôi phấn chấn hơn", Rodriguez chia sẻ. Hiện tại, anh giao tiếp bằng cách gõ các câu nhờ một thiết bị theo dõi chuyển động mắt. Những câu này sau đó được cất lên bằng bản sao giọng nói của Rodriguez, giúp nâng cao khả năng tương tác và kết nối với người khác. Anh thậm chí sử dụng nó để biểu diễn hài kịch trên sân khấu.
Rodriguez là một trong hơn 1.000 người gặp khó khăn về giọng nói đã sử dụng công cụ nhân bản giọng nói mà công ty Mỹ ElevenLabs phát triển và cung cấp miễn phí cho người bệnh. Giống như nhiều công nghệ mới khác, các bản sao giọng nói AI này chưa hoàn hảo và một số người thấy chúng không thiết thực trong cuộc sống hàng ngày.
Tuy nhiên, chúng là sự cải tiến rất lớn so với công nghệ giao tiếp cũ và đang cải thiện cuộc sống của những người mắc bệnh thần kinh vận động, theo Richard Cave, nhà trị liệu ngôn ngữ và giọng nói tại Hiệp hội Bệnh thần kinh vận động ở Anh. "Đây thực sự là AI vì mục đích tốt đẹp", Cave nói.
Bản sao giọng nói AI giúp Jules Rodriguez tìm lại giọng nói đã mất. Video: MIT Technology Review
Rodriguez bắt đầu có các triệu chứng của ALS vào mùa hè năm 2019. Giống như những bệnh nhân ALS khác, anh được khuyên nên "lưu trữ" giọng nói của mình - nói hàng trăm cụm từ và ghi âm lại. Những bản ghi âm này được sử dụng để tạo ra "giọng nói lưu trữ" cho các thiết bị giao tiếp. Tuy nhiên, giọng nói này bị giật cục và máy móc.
ElevenLabs thành lập vào năm 2022 và bắt đầu phát triển giọng nói AI để dùng cho phim, chương trình truyền hình, podcast. Mục tiêu ban đầu là tăng chất lượng lồng tiếng, khiến giọng lồng tiếng bằng ngôn ngữ khác có vẻ tự nhiên hơn, theo Sophia Noel, người giám sát quan hệ hợp tác giữa công ty với các tổ chức phi lợi nhuận.
Nhưng sau đó, trưởng nhóm kỹ thuật của Bridging Voice - tổ chức hỗ trợ bệnh nhân ALS giao tiếp - nói rằng bản sao giọng nói của ElevenLabs rất hữu ích với họ. Tháng 8/2024, ElevenLabs triển khai chương trình cung cấp công nghệ miễn phí cho những người gặp khó khăn khi nói.
Công nghệ giúp việc tái tạo giọng nói của các bệnh nhân trở nên nhanh và dễ dàng hơn nhiều. Thay vì phải ghi âm hàng trăm cụm từ, người dùng có thể tải lên các bản ghi âm giọng nói từ tin nhắn thoại hoặc video cũ. "Cần ít nhất một phút để tạo ra bất kỳ thứ gì, nhưng lý tưởng nhất là khoảng 30 phút. Bạn tải nó lên ElevenLabs. Sau khoảng một tuần, giọng nói sẽ được tạo ra", Noel nói.
Trong khi giọng nói lưu trữ nghe máy móc, bản sao giọng nói nghe rất tự nhiên. Dù từ ngữ phát ra vẫn hơi nhanh và chất lượng cảm xúc hơi thiếu, nhưng đó đã là một bước tiến khổng lồ.
Cave giới thiệu công nghệ này cho những người mắc bệnh neuron vận động (MND) vài tháng trước. 130 người trong số họ đã bắt đầu sử dụng công nghệ này và phản hồi tốt. Các bản sao giọng nói nghe giống thật hơn nhiều so với giọng nói lưu trữ. "Chúng có những khoảng dừng để thở, tiếng ừm, ờ, đôi khi còn lắp bắp. Với tôi, điều đó có vẻ rất chân thật vì tôi cũng muốn có giọng nói tổng hợp lắp bắp. Đó chính là con người tôi", Cave, người bị nói lắp nhẹ, cho biết.
Ý kiến ()