T-Brain Machine Learning Competition

301

參賽隊伍

總獎金新台幣 31.00 萬元

【公告】
2023/07/07:
得獎名單公布，請參考Leaderboard或AI CUP官網：https://tinyurl.com/4wnfm3kt
2023/06/02:
1. 公佈Private Leaderboard，成績超過Baseline的隊伍將收到Email通知，請依規定於期限內繳交報告與程式碼，更多資訊可參考下載區的報告範本文件。
2. 請參賽者協助填寫「事實文字檢索與查核競賽-後測問卷」
2023/06/02:
補充Baseline資訊，設定Private Score的Baseline為0.375。詳如比賽辦法內容說明。
2023/05/29:
(1.) Private測試資料集、與Submission Template提供下載。
(2.) 5/29 (一)上午11:00 至 6/2 (五)下午14:00 間可上傳Private Dataset預測結果，逾時則不接受答案上傳。
(3.) Public Dataset與Private Dataset預測結果可合併上傳，參賽者可得到Public Score結果做為參考，Private Score則於比賽結束當日傍晚18點公布。
(4.) Public Dataset與Private Dataset預測結果合計每日可上傳次數上限為3次，僅上傳Public預測結果或僅上傳Private預測結果亦計算次數。
2023/05/25: 請注意！5/29(一) 0:00-10:59關閉答案上傳功能。
2023/05/22: 提供第二批訓練資料集，與第一批訓練資料集內容並無重複，歡迎下載以利進一步優化模型。
2023/04/06: 競賽主辦團隊提供參考用程式碼，歡迎使用，請至此下載：https://github.com/IKMLab/NCKU-AICUP2023-baseline
2023/03/30: 開放Public測試資料集下載與答案上傳功能。

真相只有一個: 事實文字檢索與查核競賽

已結束

競賽說明

近年來，新聞媒體及社群網路平台的資訊傳播速度越來越快，這也導致假資訊的問題越來越嚴重，混淆民眾的判斷。然而，目前絕大多數針對假資訊的處理都是基於人工辨識，驗證假資訊的過程繁複且耗時，往往跟不上假資訊的產生速度，如果能將驗證資訊的過程自動化，就能夠可以大幅降低一般民眾接觸到假資訊的頻率。
在AICUP2023中，本競賽將提供一個事實資料庫以及陳述句 (claim)，參賽者需要建立自動化的事實檢索與查核系統，以驗證陳述句的真偽。如果陳述句能夠「支持」或「反對」事實，系統也必須透過檢索資料庫中的文章來提供證據句。需要注意的是，由於事實有可能會隨時間推移而產生變化，參賽者只能使用我們提供的資料庫進行事實驗證。

報名規範

年滿18歲皆可報名參加，未滿18歲之未成年人經法定監護人同意後可報名參加。（趨勢科技公司員工除外）
參賽隊伍人數1至4人。
參賽者只能加入一個參賽隊伍，一旦加入隊伍後則無法更換隊伍。
報名截止後，不可再變更團隊成員名單及人數。
比賽期間，隊伍不可合併與分割。
基於學校課程要求而參與比賽的參賽者，隊伍命名方式請依循學校課程之規定，以利課堂評分。

報名方式

報名隊伍每位隊員皆須於『T-Brain AI實戰吧』(https://tbrain.trendmicro.com.tw/) 以 Google 或 Facebook 帳號註冊會員。
報名隊伍每位成員須於『AI CUP報名系統』(https://go.aicup.tw/)登入報名，並依照報名頁面所示項目，逐項填寫每位隊員之資料(註1)，並完成組隊流程，以進行競賽登錄。
隊伍於『AI CUP報名系統』完成競賽登錄的1~2個工作日後，各隊伍成員即可於『T-Brain AI實戰吧』參與本次競賽。
參賽組別分為學生組、社會人士組。學生組需要全隊皆為學生身分；隊伍內只要有一名非學生身分者，則全隊列為社會人士組。
報名後，請每位參賽者協助填寫「事實文字檢索與查核競賽-前測問卷」。
比賽結束後，請各位參賽者協助填寫「事實文字檢索與查核競賽-後測問卷」。

AI CUP

領獎資格與方式

本次獎項包括「學生組排名獎」十五名、「趨勢科技潛力獎」六名。
學生組排名獎：得獎隊伍同意協助主辦單位下列安排，否則喪失領獎資格。
- 隊伍內所有成員於報名當日，皆須符合中華民國各大專校院在學學生身分，該參賽隊伍方具學生組領獎資格，並於敘獎時檢附相關證明。
- 獎金以新台幣匯款方式發放，得獎隊伍應配合中華民國稅法繳交相關所得稅。
- 「學生組排名獎」得獎隊伍須於指定截止日前，提交可重現該模型的原始程式碼與最終報告，以驗證結果。
- 最終成績的評量項目包括兩部分：(1).該隊伍於Private Leaderboard之排名，佔100%比重；及(2).該隊伍於公告期限前繳交之文件與程式碼須能由主辦單位復現其實驗數據。兩者同為實際獲獎依據，惟後者依照「競賽規則：第6項」進行。
- 「學生組排名獎」得獎隊伍內任一成員，曾於「教育部人工智慧競賽與標註資料蒐集計畫辦公室」所運籌之「教育部全國大專校院人工智慧競賽 (AI CUP)」已獲得前三名之優秀成績達三次(含以上)者，若於比賽中再次得名，該隊伍將僅獲頒教育部獎狀、不發放獎金，獎金遞補予次一名隊伍，兩支隊伍將並列同一名次。此規定不溯及既往，獲獎次數累計自2022秋季賽起算。
- 「學生組排名獎」得獎隊伍相關指導成員，將提供教育部獎狀乙紙或教育部人工智慧競賽計畫辦公室電子版獎狀。惟指導教授不得與學生一同報名，請於最終報告內填寫指導教授名稱。獲頒「學生組排名獎」之得獎隊伍，經主辦單位之評審委員審定後將獲得教育部獎狀乙紙。
- 「學生組排名獎」各項獎勵名額得視參賽件數及成績酌予調整，參賽作品未達水準時，得由主辦單位之決選評審委員決定從缺，或不足額入選。
- 得獎隊伍需於比賽結束後的指定期限內，依本比賽辦法「競賽規則：第3~6項」規定之相關文件與程式公開及繳交之方式，交付完整實作程式及設計文件予主辦單位。
- 得獎隊伍需至少推派一員代表，依主辦單位通知參與後續頒獎活動，如無隊友協助，則可請親友一人代表出席領獎及進行簡報分享。
- 因報名資格審查及頒獎資料審核需求，請確認 T-Brain 註冊帳號之姓名為正確之中文姓名，如有需要可至 T-Brain 帳號之 My Profile 功能中進行修正。
趨勢科技潛力獎：得獎隊伍同意協助主辦單位下列安排，否則喪失領獎資格。
- 不分參賽者身份，依規定格式與時程提交構想與實作文件後，由教育部人工智慧競賽與標註資料蒐集計畫辦公室之專家委員組成評審團隊，進行優勝隊伍遴選。
- 獎勵宗旨：為鼓勵參賽者在建構效能優異之模型外，也能具備優秀的程式論述能力以及學術研究素養，懂得透過語言文字清楚向不同背景的人闡述建構模型的思維，平衡技術面與溝通面的能力，特設立此獎項，獎勵用心撰寫報告之隊伍。
- 評審原則：潛力獎最終成績的評分比重：Private Leaderboard之排名40％，報告60％。
- 報告寫作規定：需遵照「事實文字檢索與查核競賽_報告撰寫說明文件」規定撰寫，說明文件亦將提供優良報告範本供參。評審將依據報告完整流暢性、正確性、及原創性三大方向評分，並檢視是否具備發表研討會論文潛力。若未達評審標準，本獎項可從缺。
- 獲獎隊伍必須為Private Leaderboard排名之前30名隊伍，並依規定期限繳交報告、通過評審委員團隊的審查。獎項得由主辦單位之決選評審委員決定從缺，或不足額入選。
- 每一隊獲獎隊伍將各獲頒獎金1萬。隊伍內至少一人須具備中華民國國籍、或中華民國工作或學生簽證，該參賽隊伍方具領獎資格。
- 獎金以新台幣匯款方式發放，符合報名規範及具領獎資格之得獎隊伍應推派有本地新台幣帳戶之隊員代表受領獎金，並以該隊員為中華民國稅務申報人，依規定簽署包含稅務、個資使用等相關之文件。
- 得獎隊伍需於比賽結束後的指定期限內，依本比賽辦法「競賽規則：第3~6項」規定之相關文件與程式公開及繳交之方式，交付完整實作程式及設計文件予主辦單位。
- 得獎隊伍需至少推派一員代表，依主辦單位通知參與後續頒獎活動、進行簡報分享，如無隊友協助，則可請親友一人代表出席領獎及進行簡報分享。
Private Score位於排名前25%且成績超過 Baseline (0.375) 之隊伍 (不超過30隊)，依規定繳交報告後經主辦單位之評審委員審定，將獲頒教育部人工智慧競賽計畫辦公室電子獎狀。

評分標準

提交檔案請使用.jsonl檔，內容格式需符合比賽格式規定。上傳檔案內容請使用UTF-8(無BOM檔首) 編碼，並使用Unix系統換行字符。請勿使用其他Non-Printable Characters。並注意提交答案內之“文章名稱”，其文字應與主辦單位資料庫內使用之文字一致，以避免評分失誤的可能。
Leaderboard系統會對每次的提交結果進行評測，以最高分那一次呈現於Leaderboard。若出現參賽隊伍同分情形，以上傳繳交時間判斷排名順序。競賽期間參賽隊伍會得到 Public Leaderboard 評測的分數做為參考，Private Leaderboard排名與分數則於競賽結束後公布，並以Private Leaderboard之結果為最終排名參考依據。
競賽測試集Private Dataset將於5/29 (一) 上午11:00開放下載，同時可開始上傳答案。請注意！5/29(一)上午00:00至10:59:59之間，不提供答案上傳功能，5/29(一)上午11:00重新開放。
5/29 (一) 上午11:00至6/2 (五) 下午14:00之間，可上傳Private Dataset預測結果，每日上傳次數上限為3次，逾時則不予評分。此5日期間，每日上傳次數以檔案計算，若Public Dataset與Private Dataset預測結果合併於同一份檔案提交，則僅計算為1次提交。若Public Dataset與Private Dataset預測結果各自單獨一份檔案提交，則將計算為2次提交。

下載格式

提供參賽者下載之檔案共分三大類：1. 訓練資料集，包含「中文維基百科資料」與「公開訓練資料集」；2. Public測試資料集；3. Private測試資料集。說明如下：

中文維基百科資料 (封存的版本為Dec 2022 dump)
- 格式為 .jsonl，已被切分成數個檔案，每個檔案有50,000筆處理過的條目。
- 每一行 (row) 代表一個條目，每個條目都可以對應到維基百科的文章。
- “id”代表文章名稱，“text”代表處理後的文章，“lines”代表維基的原始資料。
公開訓練資料集：下載的檔案為public_train.jsonl，資料的內容包含
- 每一行 (row) 代表一個陳述句及其正確答案。
- 每一行 (row) 的資訊包含 “id”：樣本代號、“label”：陳述句的驗證類別、“claim”：陳述句文字、"evidence"：證據組。
- "evidence" 的格式為 [<annotation_id>, <evidence_id> , 文章名稱, 第幾句]，是由多層的lists所構成，代表一筆陳述句可能有多組證據，且每一組證據可能包含多個證據句 (可於資料集中最內層的list觀察到)。若一組證據包含多個證據句，則該組的每個證據句都會有相同的<evidence_id>。每一組證據句在資料的意義上表示可以單獨支持或反對陳述句，若一組證據有兩個以上的句子，即代表該兩句證據句需要合併才能夠支持或反對該筆陳述句。證據組中的每一個證據句都帶有相同的<annotation_id>，且若一筆陳述句的"label"是 "NOT ENOUGH INFO" 則<evidence_id>為None。
Public測試資料集 & Private測試資料集：
- 格式為 .jsonl，內含多個陳述句。
- 每一行 (row) 代表一個陳述句，每個陳述句的內容包含兩個欄位："id" 與 "claim"。其中 "id" 是該筆陳述句的代號，"claim" 則是陳述句內容。
- 提交之結果檔案格式請參考下述「上傳格式」說明。

上傳格式

提交檔案請使用.jsonl檔，檔案中的每一行 (row) 代表一個陳述句的樣本，且每一行必須包含"id"、 "predicted_label" 以及 "predicted_evidence"，如以下範例所示：
其中：

id代表樣本 (陳述句) 代號。每一個id只能上傳一個預測答案(row)，若一個id重複上傳超過一個預測答案(row)，則不予計分。
predicted_label 代表該樣本的3種預測類別，需與訓練資料集內所提供之類別相同，包含："SUPPORTS"、 "REFUTES"、以及"NOT ENOUGH INFO"，大寫或小寫不影響評分結果，但需注意拼字錯誤。
predicted_evidence是預測該樣本類別的證據句，格式為：[“文章名稱”, 第幾個句子]。其中，文章名稱請務必與中文維基百科資料內所提供的資訊一致，並請注意括號的使用，以避免造成評分上的錯誤。第幾個句子，請參考「中文維基百科資料」內之“lines” 行號。
須注意，上傳答案時predicted_evidence證據句的上限為5句，答案不符合規定則不予評分，請參賽者自行將最有可能的證據句進行排序。

評分方式

上傳預測答案可能分為幾種情況，各自會得到不同的評分結果，如下：

競賽規則

預測結果每日提交上限 3 次，上傳次數以檔案為單位計算。
參賽隊伍不可以使用自行製作的資料來進行文章和證據檢索，但不限於利用外部資料或額外的開源資源來增進模型訓練的成效，並且參賽隊伍必須使用機器學習/深度學習方式來進行事實驗證。事實驗證與證據檢索的結果禁止使用字典或任何人工修正，但可於比賽結束繳交的書面報告文件中討論使用字典或後處理的測試結果分析。若使用額外的開源資料，須於比賽結束繳交的書面報告文件中提供相關來源。如有爭議，主辦單位保有最終決定權。
競賽結束後須繳交可重現之實作程式，包含(但不限於)：前處理程式碼、訓練程式碼、辨識程式碼、各項參數之設定(包括訓練權重)、執行環境。實作程式繳交方式為：上傳至參賽者個人之GitHub，並提供主辦單位下載網址，該程式之可執行性及可驗證性將影響獲獎資格。
競賽結束後須繳交報告，並於其中詳加說明：執行系統、執行環境、程式執行的資源規模 (含CPU、GPU以及記憶體的規格與用量，或是雲端運算資源的容器資訊)、已經完成訓練的模型權重 (checkpoint) 之下載連結、所有在競賽中使用到的套件名稱、外部資源名稱以及其所對應的版本。以利主辦單位能成功執行程式並完整復現實驗結果。
參賽隊伍可以使用生成式語言模型 (如ChatGPT, Microsoft Bing Chat, Google Bard 等)，但禁止使用競賽開始 (112年3月17日) 後始公開釋出的生成式語言模型以及任何GPT-4加值的服務與應用。若獲獎隊伍於競賽過程中使用到任何生成式語言模型，需於競賽結束後繳交(1).輸入給生成式語言模型的提示詞 (Prompts; Input instructions; Prefix)、(2).完整的生成式語言模型預測結果、以及(3).應用生成式語言模型於本競賽任務之程式碼，並於繳交之報告中完整說明生成式語言模型的使用方式。對於使用生成式語言模型之規範，本競賽單位保有調整及最終解釋權之權利。
若獲獎隊伍所繳交的程式碼與文件缺少必要的程式執行資訊或是實驗結果無法重現，經主辦單位決議後得以調整敘獎資格。
參賽者所上傳的結果不得進行人為修正，以避免影響比賽公平性。
不可私下共享程式及特徵值，但可在官方討論區公開討論。
如有需要，主辦單位有權在比賽途中調整資料集。
如有下列情事，主辦單位得無需告知參賽者，逕行取消參賽者資格或領獎資格：
- 已有具體事證，所屬隊伍有任何抄襲、作弊、或詐欺等行為
- 已有具體事證，所屬隊伍有侵害他人智慧財產權之情事
- 已有具體事證，所屬隊伍有對Leaderboard系統進行攻擊
- 已有具體事證，所屬隊伍影響其他參賽隊伍導致不公平事例發生
- 已有具體事證，所屬隊伍違反本比賽活動辦法、或「T-Brain AI實戰吧平台服務」使用條款、或「事實文字檢索與查核競賽」參賽者使用條款
主辦單位保有對活動與競賽規則解釋及裁決的權利

[學生組排名獎] 第一名 新台幣 7 萬元
[學生組排名獎] 第二名 新台幣 5 萬元
[學生組排名獎] 第三名 新台幣 3 萬元
[學生組排名獎] 佳作獎 新台幣 1 萬元
[學生組排名獎] 佳作獎 新台幣 1 萬元
[學生組排名獎] 佳作獎 新台幣 1 萬元
[學生組排名獎] 佳作獎 新台幣 1 萬元
[學生組排名獎] 佳作獎 新台幣 1 萬元
[學生組排名獎] 佳作獎 新台幣 1 萬元
[學生組排名獎] 佳作獎 新台幣 1 萬元
[學生組排名獎] 佳作獎 新台幣 1 萬元
[學生組排名獎] 佳作獎 新台幣 1 萬元
[學生組排名獎] 佳作獎 新台幣 1 萬元
[趨勢科技潛力獎] 新台幣 1 萬元
[趨勢科技潛力獎] 新台幣 1 萬元
[趨勢科技潛力獎] 新台幣 1 萬元
[趨勢科技潛力獎] 新台幣 1 萬元
[趨勢科技潛力獎] 新台幣 1 萬元
[趨勢科技潛力獎] 新台幣 1 萬元

學生組前13名隊伍除獎金獎項外，並將獲頒"教育部獎狀"。Private Score位於排名前25%且成績超過 Baseline (0.375) 之隊伍 (不超過30隊)，不限身分依規定繳交報告後經主辦單位之評審委員審定後，將獲頒教育部人工智慧競賽計畫辦公室電子獎狀。

競賽時程

項目	時程	說明
報名開放時程	2023/03/17 – 2023/05/10	事實檢索與查核競賽開放報名
競賽訓練集Public Training Dataset下載	2023/03/17 – 2023/06/02 14:00 PM	公布競賽訓練資料集
競賽測試集Public Testing Dataset下載	2023/03/30 11:00 AM – 2023/06/02 14:00 PM	3/30早上11:00起競賽隊伍可下載競賽測試集Public Testing Dataset，並上傳答案，每一日曆日可上傳之次數上限為3次，此期間，參賽者可獲Public Testing Dataset之評分結果做為參考。
競賽測試集Private Testing Dataset下載與預測	2023/05/29 11:00 AM – 2023/06/02 14:00 PM	請注意！5/29 00:00-10:59關閉答案上傳功能。 5/29 11:00重新開放Private Testing Dataset答案上傳，期間Private Testing Dataset預測結果共計每日只能上傳3次，並且Private Testing Dataset評分結果暫不公布，最終分數將取自最高分的一次上傳結果。參賽者仍可於此期間上傳Public Testing Dataset預測結果，可上傳之每日次數上限為3次。 Private Testing Dataset答案上傳期限至2023/06/02下午14:00，逾期不接受上傳。競賽者需於規定時間內上傳檔案，答案檔案需依照規定之格式，以避免上傳失敗的問題。
結果發佈	2023/06/02 18:00	公佈 Private Leaderboard成績
上傳報告	2023/06/02 – 2023/06/08 23:59	優勝隊伍提交預測模型的說明文件、自製之訓練資料集、與程式碼
公佈最後名次	2023/07/07	公布最終排名
頒獎典禮	2024年初(暫訂第一季)	頒獎典禮將與初階賽及進階賽一同辦理，細節將另行公佈

文件與程式公開

得獎隊伍 (包含領取獎金與獎狀的組別) 需於比賽結束後，2023/06/16之前將實作程式及設計文件釋出至 GitHub，完成程式碼開源分享，並且程式碼必須註明授權規範為APGL或是SSPL。
用於存放程式碼與文件所建立的GitHub repository，其名稱必須以AICUP-2023作為開頭。
未於期限之前 (2023/06/16) 釋出並繳交所建立之 GitHub repository 連結的參賽隊伍將失去獲頒獎金或獎狀的資格。

競賽指導單位：教育部資訊及科技教育司

教育部資訊及科技教育司「結合資訊、科技與人文，引領學校邁向永續發展新世紀」之願景，規劃「前瞻人才培育」、「精緻數位學習」、「科研倫理素養」、「數位公義關懷」、「校園環境永續」五大目標，建構以「人」為中心的學習環境，培育具關懷社會與環境之現代公民，強化國家永續發展。

競賽運籌單位：教育部人工智慧競賽與標註資料蒐集計畫辦公室

本計畫【人工智慧競賽與標註資料蒐集】為教育部所發起的人工智慧技術及應用人才培育計畫中的其中一項子計畫，透過訂定競賽議題，並每年舉辦AI競賽，藉由搭配學期時間與學校課程合作，老師可審核學生學習一學期後將理論運用在實際問題上的能力，且因競賽資料較貼近生活實際狀況，而非針對教學方便所製作出簡單的數據，學生需要更深入思考才可達到標準，AI競賽將會經過競賽審查委員嚴格審查後頒發獎金及獎狀，以資鼓勵學生們參與培育更多AI人才。

議題提供單位：國立成功大學智慧型知識管理實驗室

國立成功大學智慧型知識管理實驗室 (Intelligent Knowledge Management Lab，簡稱IKMLab) 成立於 2004 年，指導教授為高宏宇教授，實驗室研究方向以自然語言處理 (Natural Language Processing)，資料探勘 (Data Mining) 以及機器學習 (Machine Learning) 為主，利用智慧運算方法進行非結構化資料的分析與理解，使文字與語言應用能夠更智慧化更實用化。主要研究議題包含自然語言處理與理解，醫學資訊分析，使用者生成資料分析，情緒分析與意見探勘，對話機器人以及假資訊偵測等。

平台贊助單位：趨勢科技

趨勢科技為資訊安全解決方案全球領導廠商，致力建立一個安全的資訊交換世界。我們專為消費者、企業及政府機構設計的創新解決方案，能為資料中心、雲端工作負載、網路、端點裝置提供多層式安全防護。我們的產品皆彼此整合、共享威脅情報，提供環環相扣的威脅防禦與集中式的掌握及調查能力，實現更好、更快的防護。趨勢科技全球共超過 6,000 名員工，遍及 50 個國家，並擁有全世界最先進的全球威脅研究及情報，是企業保護連網環境的最佳夥伴。

Q&A

若對於比賽有任何問題，歡迎在討論區提出，或是將問題透過 Email 寄到
ikm.ncku@gmail.com (比賽內容相關)
t_brain@trendmicro.com (平台相關)

巡迴課程

主辦單位將在全國開設 AI CUP 巡迴課程，有興趣的參賽者歡迎至 AI CUP 網站關注最新消息，或追蹤 FB 粉絲專頁。