Common Voice Sprint 中文語料松 ||

23
FEB 2019
Saturday
13:00
17:00

Initiative Community Spaces program

Category Evangelism Product

URL https://www.facebook.com/events/398783250875510/

Hashtag moztw-cv-sprint-2019-tpe

Description 這一個下午,我們將一同收集整理公眾領域的對話語料,目標是增加一倍以上的句子,讓未來的語音資料更完整,更豐富,錄音體驗更有趣。

Venue 摩茲工寮 Mozilla Community Space Taipei

City Taipei

Area Taiwan

Country or Region Taiwan

我們要做些什麼?

尋找、收集、整理公領域授權的對話資料,使之成為網站使用的資料庫。

誰能參加?

任何對於語言、語音辨識、開放內容,或者劇本、小說等媒材有興趣的人都歡迎參加。不需特殊程式技能。

所需裝備

帶著你的筆電來吧。

1) https://discourse.mozilla.org/t/multi-language-dataset-beta-release/34373 2) https://github.com/irvin/voice-text-tools#calculate-the-phonetics-coverage-of-sentences-with-input-method-table

-

Common Voice 是 Mozilla 的自由語音資料收集計劃,目前提供全世界第二大的自由英文語音資料庫,讓大家可以用以訓練語音辨識系統、或任意自由運用。

經過半年的收集,我們終於釋出了第一批 40 小時的台灣中文語音資料*1 (beta!)

目前 Common Voice 網站上供公眾錄音的中文對話句庫,共有 3750 句,涵蓋中文 55% 的發音 *2。

1 attending, including...