รายละเอียดโครงการวิจัย
รหัสโครงการ : TRG5780220
ชื่อโครงการ : การจำแนกข้อมูลที่จัดได้ในหลายประเภท และประเภทหมวดหมู่มีความสัมพันธ์แบบเป็นลำดับชั้นบนฐานข้อมูลขนาดใหญ่
  Hierarchical Multi-Label Classification for Large Scale Data
หัวหน้าโครงการ : พีรพล เวทีกูล
ทีมวิจัย :
พีรพล เวทีกูล
หัวหน้าโครงการ
บุญเสริม กิจศิริกุล
นักวิจัยที่ปรึกษา
วันที่เริ่มโครงการ : 2 มิ.ย. 2557
วัตถุประสงค์ : This research project aims to propose a novel hierarchical multi-label classification (HMC) algorithm which supports very large scale data. It will focus on the domain of application in “text categorization”, particularly in the Wikipedia data set. The proposed solution must overcome 3 challenges posted in the targeting data including (1) prohibitive computational costs due to the gigantic size of data, (2) a complex class hierarchy with a directed acyclic graph (DAG) structure, and (3) imbalanced training set. As a result, this work is expected to achieve promising classification performance at reasonable induction time.

In order to save computational cost, only a set of small candidate classifiers is selected from the hierarchy. To be more specific, our approach is similar the flat HMC strategy, but the candidates can be any classes in the hierarchy, not only limited to the leaf nodes. In addition, since the number of features in text corpus is usually enormous, a feature selection technique will also be employed in this work.

It is common to process a DAG-structured hierarchy by inducing a separate binary classifier for each class in the hierarchy. Support Vector Machine (SVM) [15] is chosen to be a baseline classifier for each class because it has shown to remarkably well in text categorization.

To improve classification accuracy, it is necessary to address an issue in the imbalanced training set, a circumstance known to impair learning performance. This can be rectified by a technique called “threshold adjustment,” a process that translates the SVM hyperplane without changing the orientation.

สถิติการเปิดชม : 95 ครั้ง
ดาวน์โหลด : 6 ครั้้ง
  แจ้งปัญหาการดาวน์โหลดที่นี่
(* หากไม่สามารถดาวน์โหลดได้)
รายงานวิจัย ฉบับสมบูรณ์: รายงานวิจัยฉบับสมบูรณ์ (Full Paper)
บทคัดย่อ (Abstract) :
แสดงบทคัดย่อ


เลือกดาวน์โหลดแบบลิงค์
:
 

Telephone

02 278 8200

Address

ชั้น 14 อาคาร เอส เอ็ม ทาวเวอร์ 979/17-21 ถนนพหลโยธิน แขวงสามเสนใน เขตพญาไท กรุงเทพฯ 10400