Common Voice Sprint 中文語料松 ||
Initiative Community Spaces program
Category Evangelism Product
URL https://www.facebook.com/events/398783250875510/
Hashtag moztw-cv-sprint-2019-tpe
Description 這一個下午,我們將一同收集整理公眾領域的對話語料,目標是增加一倍以上的句子,讓未來的語音資料更完整,更豐富,錄音體驗更有趣。
我們要做些什麼?
尋找、收集、整理公領域授權的對話資料,使之成為網站使用的資料庫。
誰能參加?
任何對於語言、語音辨識、開放內容,或者劇本、小說等媒材有興趣的人都歡迎參加。不需特殊程式技能。
所需裝備
帶著你的筆電來吧。
1) https://discourse.mozilla.org/t/multi-language-dataset-beta-release/34373 2) https://github.com/irvin/voice-text-tools#calculate-the-phonetics-coverage-of-sentences-with-input-method-table
-
Common Voice 是 Mozilla 的自由語音資料收集計劃,目前提供全世界第二大的自由英文語音資料庫,讓大家可以用以訓練語音辨識系統、或任意自由運用。
經過半年的收集,我們終於釋出了第一批 40 小時的台灣中文語音資料*1 (beta!)
目前 Common Voice 網站上供公眾錄音的中文對話句庫,共有 3750 句,涵蓋中文 55% 的發音 *2。
Events like this
-
30