119

參賽隊伍

總獎金 新台幣 23.00 萬元

看見你的聲音-語音辨識後修正

進行中

競賽說明

近年來,金融與科技的結合應用越來越緊密:無紙化、無人化、智能化的金融服務體驗,正是目前各家銀行積極布局的領域。其中,語音導航(IVR)客服,於導入人工智慧語音辨識技術後,非但大幅降低顧客的等待時間,更透過語音與意圖的辨識,提供顧客最佳的服務選擇與體驗,取代過往聆聽答錄聲音及輸入服務項目代碼的漫長過程。

但在模型開發及應用實際落地的過程中,碰到最棘手的挑戰就是:語音辨識模型有時候聽不懂顧客在講什麼!語言博大精深,同音不同字、同字不同音,再加上各式各樣的腔調,都大幅阻礙了模型辨識的精準程度,導致辨識結果有時詞不達意、甚至無法理解。

玉山銀行現正發出英雄帖!我們要找尋能夠拯救人工智慧世界的你!

本次競賽我們將提供給參賽者玉山語音模型辨識後去識別化的語句,讓參賽者挑戰將辨識結果修正成正確的語句。總獎金上看二十三萬,準備等你來挑戰!

競賽將以「模型訓練(2022/04/14 – 2022/06/13)」、「線上對決 – 模型準度 爭霸戰(測試賽:2022/05/30 – 2022/06/01,正式賽:2022/06/14 – 2022/06/17)」兩階段進行。

「模型訓練」階段進行方式如下:

  • 參賽隊伍於 T-Brain 平台上註冊比賽(請各隊隊長妥善保存收到的手機簡訊驗證碼,將作為模型準度爭霸戰階段使用之驗證資料)。
  • 參賽隊伍於 T-Brain 平台 Dataset Download 區下載訓練資料集,主辦單位將提供各大新聞內容微幅節錄之文字,並利用玉山語音合成模型產生的音檔,以及真實情境下的語音資料,再透過玉山語音模型辨識後所產生的至多Top 10最有可能的語句、音素符號(phoneme sequence)和正確語句作為訓練資料(注意:訓練資料為文字檔而非音檔)。為模擬真實情境下,語音雜訊較多造成人工標記困難,以及部分的人為疏失,資料集中的正確語句,仍可能包含人工標記錯誤的狀況,請參賽者務必做資料清理,以進行文字後修模型訓練。
  • 參賽隊伍須加入玉山人工智慧公開挑戰賽 Slack Workspace 社群,掌握競賽第一手資訊(請參閱Dataset Download區:Slack Workspace連結)。
  • 開始模型訓練!
  • 參賽隊伍須提供 RESTful API Server 並將模型部署於此 API Server,並依照規範的API 服務形式開發,供「線上對決 – 模型準度爭霸戰」使用(請參閱Dataset Download區:API 開發及規格說明文件)。
  • API 驗證期間(2022/05/10 - 2022/06/17)請透過Slack 與 E.SUN bot 對話進行 API 驗證。
    註 1:請務必於 Slack 進行驗證,才能於測試賽與正式賽進行答題。
    註 2:測試賽與正式賽期間,主辦方系統皆會以每日發題前「最後一次驗證且成功」之 API URL 做為隊伍的 API URL,故於比賽日期間,仍可於每日發題前認證 API。(發題中無法進行API驗證)
  • 需注意,各隊伍最後一次測試成功的 URL 將自動做為「線上對決 – 模型準度爭霸戰」認定之 API Endpoint(請參閱Dataset Download區:API 開發及規格說明文件)。
「線上對決 – 模型準度爭霸戰」階段進行方式如下:
前置作業:參賽者須將「模型訓練」階段產出之模型打包成 API 並部署於 API Server 並完成驗證測試。

  • 爭霸戰為期七天,包含三天測試賽(2022/05/30-2022/06/01),與四天正式賽(2022/06/14-2022/06/17),並將於每天的 18:00 舉行。測試賽會提供分數但不計入最終計分。
  • 主辦單位將會使用 HTTP Request 方式驗證參賽者模型成效,每日多輪提問,提問步驟如下:
    • 每輪提問一題 Inference API 呼叫,即為一個Request。
    • 主辦單位將發送 HTTP request(POST 方法)提供題目(Inference),參賽者 API 需回傳模型運算結果,timeout 時間為 1 秒。題目與回傳的資料格式請詳見 Dataset Download區:API 開發及規格說明文件
    • 同時會多輪發送,最多10題,即同時發出10個Requests。
  • 若參賽者 API Server 無回應,包含timeout或HTTP status_code不為200的情況,主辦方會嘗試重新呼叫,每輪提供題目皆最多重新呼叫 2 次(共呼叫3次),若無回應或逾時則該輪以 0 分計算。
  • 將以模型進行文字後修正的準確度作為積分(詳見下方評分方式),並於每日24:00 前於活動 Slack(channel # 公告區)公布當日累積積分排名,每日加總後積分為最終排名依據。
  • 最終名次將於 2022/06/23 公布,需注意參賽隊伍之模型針對正式賽資料集的評分,需優於正式賽資料集未修正前的評分,尚具領獎資格。

 


預測說明

  • 於測試及正式賽時,參賽者將收到玉山語音模型辨識後的至少Top1、至多Top 10最有可能的語句和音素符號(phoneme sequence),參賽者需回傳模型後修正的語句。
  • 音素符號(phoneme sequence)使用拓展音標字母評估法(X-SAMPA)。
  • 正確答案之語句均為繁體字字串,且不會有符號、英文。
  • 若為數字字串,請以「一二三四五六七八九十」回覆,正確語句的數字字串不會有阿拉伯數字或大寫數字,如123或壹貳參。
  • 為模擬真實情境下,語音雜訊較多造成人工標記困難,以及部分的人為疏失,資料集中的正確語句,仍可能包含人工標記錯誤,或是第3、4點說明不應出現的狀況,請參賽者務必做資料清理。


報名規範

  1. 參賽隊伍人數1至8人。
  2. 學生(大專以上,含碩博士生)或業界人士皆可報名參加(玉山現職同仁及趨勢科技公司現職員工除外)。
  3. 報名時每位成員皆須完成手機驗證。
  4. 報名截止後,不可再新組隊報名或是報名加入既有隊伍。
  5. 比賽期間,隊伍不可分割。
  6. 參賽者只能加入一個參賽隊伍(主辦單位將不定期檢查參賽者是否有違規加入多個隊伍的情形)。
  7. 「線上對決 – 模型準度爭霸戰」將使用各隊隊長報名時收到之手機驗證碼 作為驗證資料,各隊隊長請妥善保管。倘若團隊保管不慎遺失,遭他人使用 而影響正式賽成績,主辦單位恕不負責。


領獎資格與方式:

  1. 隊員至少有一半以上(含)須具備中華民國國籍或具備中華民國工作簽證,該隊伍才具領獎資格。
  2. 得獎隊伍除提交結果之外,比賽結束後需提供主辦單位實作程式及相關說明文件供主辦單位審核以決定名次,且同意於頒獎典禮簡報建模手法並接受提問,否則不具領獎資格。
  3. 參賽者如加入多個隊伍,將不具或喪失領獎資格。
  4. 獎金以新台幣匯款方式發放,發放對象僅限於符合報名規範及具領獎資格之隊伍,得獎隊伍應推派有台灣本地新台幣帳戶之隊員代表受領獎金,並以該隊員為台灣稅務申報人。
  5. 參賽隊伍之模型針對正式賽資料集的評分,需優於正式賽資料集未修正前的評分,尚具領獎資格。


評分標準

  1. API 接收題目及傳回之答案內容格式需符合比賽格式規定(請參閱 Dataset Download區:API 開發及規格說明文件)
  2. 正式賽期間,參賽者須透過 API 傳回模型結果,由玉山 Leaderboard 系統進行計分,並於每日 24:00 前於活動 Slack(channel # 公告區)公告最新排名。


評分方式


本次比賽將以 CER (Character-Error Rate) 進行評分,CER為音檔文字辨識錯誤的比例,即一個音檔中有多少比例的文字辨識錯誤,公式如下:


競賽規則

  1. 務必使用Machine Learning來進行預測,禁止使用任何人工標記。
  2. 禁止使用非開源 AutoML 相關之自動建模服務。
  3. 不可私下共享程式及特徵值,但可在官方交流社群討論區公開討論。
  4. 資料集僅限於此次比賽使用,參賽者不得為自己或他人利益而洩漏或交付資料集予非參賽者。如有違反,參賽者應賠償主辦單位因此所生之一切損失(包括但不限於律師費)及相當於賠償金額三倍之懲罰性違約金。
  5. 若有使用非主辦單位提供之資料集,需於比賽結束後將該資料集額外提供予主辦單位。
  6. 如有需要,主辦單位有權在比賽途中調整資料集。
  7. 如有下列情事,主辦單位得無需告知參賽者,逕行取消參賽者資格或領獎資格;如已獲獎,則撤銷獲得之獎項,並追回獎金及獎狀:
    • 已有具體事證,所屬隊伍有任何抄襲、作弊、或詐欺等行為。
    • 已有具體事證,所屬隊伍有侵害他人智慧財產權之情事。
    • 已有具體事證,所屬隊伍有對Leaderboard系統進行攻擊。
    • 已有具體事證,所屬隊伍影響其他參賽隊伍導致不公平事例發生。
    • 已有具體事證,所屬隊伍違反本比賽活動辦法、或「T-Brain AI實戰吧平台服務」 使用條款、或「肺腺癌病理切片影像之腫瘤氣道擴散偵測競賽」參賽者使用條款。
  8. 正式賽比賽期間,主辦單位將會呼叫參賽者 API Server,參賽者須確保自身使用 API Server 之網路連線品質並於規定秒數內回覆,若未在限制時間內回覆,主辦方每輪將會重新呼叫參賽者 API Server,最多重新呼叫 2 次(共呼叫3次),若皆無回應或逾時,則該輪以 0 分計算,並繼續發送下一輪題目。倘有因連線品質因素導致結果回傳失敗,主辦單位恕不負責,亦不會提供再次答題的機會。
  9. 參賽者使用本活動Slack需遵守下列規範,如違反下列規範,主辦單位得無需告知參賽者,逕行取消使用活動Slack之權利,或取消其參賽資格:
    • 不得於活動Slack洩漏他人機敏資訊。
    • 不得發表脅迫、不雅、猥褻或挑釁等影響他人觀感之文字。
    • 不得張貼與本次競賽無關、違法或具商業性等不適宜內容。
    • 其他經主辦單位認定其言論或行為不符合本次競賽目的或影響他人參賽權益者。
  10. 主辦單位保有對競賽規則解釋及裁決的權利。
  11. 主辦單位(下稱被授權人即玉山銀行)將於頒獎典禮和分享交流會等活動期間進行攝影及錄影,並將相關影片或照片使用在包含但不限於新聞稿、宣傳文宣等範圍。參賽者(下稱授權人)報名參加比賽即視為已於合理期間閱覽、瞭解、聲明及同意下列事項:
    • 被授權人得於活動期間對授權人進行攝影及錄影。
    • 被授權人於活動期間對授權人所攝影及錄影之內容(含授權人之肖像)得永久使用、公開展示或予以編輯、刪除或為其他必要之修改。
    • 被授權人於活動期間對授權人所攝影及錄影之著作(含授權人之肖像)之著作權由被授權人原始取得,被授權人為其著作人,享有完整之著作人格權與著作財產權。
    • 授權人經被授權人告知「玉山銀行蒐集、處理及利用個人資料法定告知事項」,已明確瞭解上述聲明及告知事項之內容,茲同意上開個人資料蒐集之特定目的、蒐集項目(類別)、利用期間、地區、對象及方式、應完整及確實揭露,以及查閱、請求複製本、更正資料、要求停止處理利用或刪除及告知家屬成員等之相關要求,並同意被授權人於上開特定目的必要範圍內蒐集、處理及利用本人之個人資料。
  12. 本活動期間參賽者不得使用任何不雅文字、辭意或是損及他人名譽或商譽的言論及行為,經主辦單位認定其行為不符合本次競賽目的或影響他人參賽權益者,主辦單位有權取消參賽資格。


獎項說明

  • 第一名 新台幣 12.00 萬元 + 獎狀一只 + 獎牌一個
  • 第二名 新台幣 5.00 萬元 + 獎狀一只 + 獎牌一個
  • 第三名 新台幣 3.00 萬元 + 獎狀一只 + 獎牌一個
  • 第四名 新台幣 1.00 萬元 + 獎狀一只 + 獎牌一個
  • 第五名 新台幣 1.00 萬元 + 獎狀一只 + 獎牌一個
  • 第六名 新台幣 1.00 萬元 + 獎狀一只 + 獎牌一個
  • 佳作 獎狀一只 + 獎牌一個
  • 佳作 獎狀一只 + 獎牌一個
  • 佳作 獎狀一只 + 獎牌一個
  • 佳作 獎狀一只 + 獎牌一個
備註:除以上獎項外,獲獎之參賽者玉山銀行亦將優先安排面試機會。


競賽時程

項目 時程 說明
報名時程 2022/04/11 - 2022/05/09
  • 註冊T-Brain帳號。
  • 報名玉山人工智慧公開挑戰賽,並完成手機驗證。
  • 註冊Slack帳號並加入玉山人工智慧公開挑戰賽活動Slack Workspace。
取得建模資料集、訓練模型(賽前準備) 2022/04/14 – 2022/06/13
  • 競賽隊伍可下載訓練資料集及API規格。
  • 本次建模階段將不提供測試樣本供測試,參賽者可根據自身需要使用訓練資料作為驗證資料集。
  • 同時完成 API 開發。
API測試 2022/5/10 – 2022/06/17 開放競賽隊伍架好API Server供主辦單位Request並於活動 Slack 進行 API 測試與問題諮詢與討論(請參閱 Dataset Download區:Slack Workspace 連結)
註 1:請務必於 Slack 進行驗證,才能於測試賽與正式賽進行答題。
註 2:測試賽與正式賽期間,主辦方系統皆會以每日發題前「最後一次驗證且成功」之 API url 做為隊伍的 API url,故於比賽日期間,仍可於每日發題前認證 API。
線上對決 – 模型準度爭霸戰(測試賽) 2022/05/30 - 2022/06/01 與正式賽相同形式進行,主辦方呼叫參賽者的 HTTP RESTful API Server 提供題目,以確保正式賽順利進行。測試賽會提供分數但不計入最終計分。
線上對決 – 模型準度爭霸戰(正式賽) 2022/06/14 - 2022/06/17
  • 將分為 4 個工作日,每日於 18:00 開始呼叫各參賽者的 API Server,每日多輪提問。
  • 每輪提問為一題 Inference API 呼叫,即為一個Request。若 timeout時間1秒過後參賽者的 API 無回應或是HTTP status_code不為200,主辦方將會嘗試重新呼叫,最多重新呼叫 2 次(共呼叫3次)。若無回應或逾時則該輪以 0 分計算,並繼續發送下一輪題目。
  • 同時會多輪發送,最多10題,即同時發出10個Requests。
  • 每日將結算各組成績並於當天 24:00 前公布於活動 Slack(channel # 公告區)。
公布名次 2022/6/23
  • 將於T-brain平台公布得獎名次,包含競賽總積分前6名及佳作4名。
  • 前6名得獎隊伍需準備頒獎典禮競賽作法分享投影片與當天報告素材。
頒獎典禮 2022/7/16
  • 頒獎典禮詳細資訊後續將再公告於活動Slack(channel # 公告區)。
  • 前6名得獎者將於頒獎典禮簡報比賽心得與做法。

備註:以上時程皆為UTC + 08:00時區。

 


主辦單位



玉山銀行成立於1992年。以建立制度、培育人才、發展資訊為三大主軸持續在金融圈快速成長。

  • 獨家與PayPal推出提領服務「玉山全球通」
  • 首家與螞蟻金服旗下支付寶推出「手機掃碼付」服務的銀行
  • 亞洲首創AI認知運算結合金融產品銷售諮詢應用
  • 以chatbot合作應用開發成為LINE企業標竿案例且成為Facebook台灣首家導入chatbot應用銀行,榮獲《The Asset》台灣最佳社群體驗銀行大獎肯定
  • 以Amazon Web Service專案榮獲《The Asset》台灣最佳雲端創新專案大獎
  • 連續3年協辦「Google Ignite 數位火星計劃」並高度發展行銷科技,成為Google在金融業的企業標竿案例


Q&A

【報名相關】
Q:我該如何報名這個比賽?
A:詳讀上方相關資訊並按下報名比賽,並前往資料下載區加入專屬Slack workspace。報名截止日為2022/05/09,及早報名就可以早一點開始訓練模型啦!

Q:報名參賽時設定的隊伍名稱之後可以更改嗎?
A:隊伍名稱設定後就無法更改,所以建議報名的時候隊名就要想好喔!

Q:報名完成後我還可以新增隊員嗎?
A:可以的,登入T-Brain 帳號後,點擊Team Management即可新增調整隊員。提醒參賽者,根據比賽報名規範,每個參賽者只能加入一組隊伍,比賽期間,隊伍不可合併與分割,2022/05/09報名截止後,亦不可再新組隊報名或是報名加入既有隊伍。

【T-Brain 平台相關】
Q:註冊T-Brain 帳號或是操作平台時遇到狀況怎麼辦?
A:請寄信至 T-Brain 詢問。

Q:怎麼和和朋友/同學一起組隊參賽?有哪些需要注意的地方?
A:請隊長先加入比賽,並填寫希望一起組隊的隊員Email,系統將發送邀請信給受邀的對象。請務必確認受邀的隊員在報名截止前,必須完成以下兩個動作:

  • 在T-Brain平台註冊
  • 收到邀請信並於信件中點擊連結,此時會導入至T-Brain網站,並點擊「接受邀請」完成加入隊伍。

【Slack Workspace社群相關】
Q:我一定要加入玉山人工智慧公開挑戰賽Slack Workspace社群嗎?
A:一定要喔!主辦單位會在活動Slack上公告重要訊息、回答參賽者問題。

Q:無法成功加入Slack Workspace社群,怎麼辦?
A:請寄信至 玉山銀行智能金融處

Q:我的Slack帳號使用的Email需要跟註冊T-Brain的帳號一樣嗎?
A:可以不一樣喔!

Q:怎麼會一直收不到驗證碼? 該如何處理?
A: 以下幾種原因可能會導致無法收到驗證碼
  • 使用來電攔截APP(例如:whoscall),曾設置黑名單或廣告號碼攔截
  • 曾申請電信商「拒收企業簡訊」功能。
  • 使用多款APP接收簡訊。
  • 若有以上狀況,還請移除相關設定、洽電信商做服務變更或確保僅使用單一APP接收簡訊。

Loading . . .