



# รายงานวิจัยฉบับสมบรูณ์

โครงการ เทคนิคที่มีประสิทธิภาพสำหรับการสังเคราะห์ระดับสถาปัตยกรรมสำหรับระบบเรียลไทม์ VLSI

โดย นางสาวจันทนา จันทราพรซัย และคณะ

30 มิถุนายน พ.ศ. 2548





# รายงานวิจัยฉบับสมบรูณ์

โครงการ เทคนิคที่มีประสิทธิภาพสำหรับการสังเคราะห์ระดับสถาปัตยกรรมสำหรับระบบเรียลไทม์ VLSI

โดย นางสาวจันทนา จันทราพรซัย และคณะ

30 มิถุนายน พ.ศ. 2548

# รายงานวิจัยฉบับสมบรูณ์

โครงการ เทคนิคที่มีประสิทธิภาพสำหรับการสังเคราะห์ระดับสถาปัตยกรรมสำหรับระบบเรียลไทม์ **VLS**I

นางสาวจันทนา จันทราพรชัย มหาวิทยาลัยศิลปากร

ศ. ดร. วัลลภ สุระกำพลธร สถาบันเทคโนโลยีพระจอมเกล้าเจ้าคุณทหารลาดกระบัง

สนับสนุนโดยทบวงมหาวิทยาลัย และสำนักงานกองทุนสนับสนุนการวิจัย (ความเห็นในรายงานนี้เป็นของผู้วิจัย ทบวงฯ และ สกว. ไม่จำเป็นต้องเห็นด้วยเสมอไป)

### บทคัดย่อ

ในงานวิจัยนี้ได้นำเสนอ Framework สำหรับวิธีการสำรวจการออกแบบที่เหมาะสมซึ่ง พิจารณาปัจจัยความไม่แน่นอน (Impreciseness) ในข้อกำหนดของการออกแบบ ในการ สังเคราะห์วงจรระดับสถาปัดยกรรมนั้น มักจะมีความไม่แน่นอนเกี่ยวกับข้อมูลของข้อกำหนด ในงานวิจัยนี้ ผู้วิจัยได้พิจารณาประเภทของความไม่แน่นอนของประเภท ได้แก่ ความไม่แน่ นอนในด้านข้อกำหนดของหน่วยคำนวณ และความไม่แน่นอนในข้อกำหนดด้านเงื่อนไขด้าน เวลาและเงื่อนไขด้านจำนวนรีจิสเตอร์ ใน Framework นี้ จะอ้างอิงรูปแบบ iterative และอ้างอิง กับวิธีการจัดลำดับอันได้แก่ Register-Constrained Inclusion Scheduling ในบทความนี้ได้นำ เสนอตัวอย่างถึงวิธีการทำงานของการจัดลำดับแบบนี้ และได้ทดลองการใช้ Framework การ ออกแบบนี้กับตัวอย่าง benchmark อันได้แก่ Discrete Cosine Transform และ Voltera Filter แนวทางการออกแบบที่เลือกสำหรับการออกแบบทั้งสองนี้ได้เหมาะสมกับระดับการยอมรับได้ (Acceptability Criteria) และประหยัดจำนวนรีจีสเตอร์ทั้งหมดโดยประมาณด้วย

คำสำคัญ การสำรวจการออกแบบโดยอาศัยความไม่แน่นอน การจัดลำดับ คุณ ลักษณะการออกแบบหลายปัจจัย ข้อมูลความไม่แน่นอน เงื่อนไขด้านเวลา และ Inclusion Scheduling

<u>Keywords</u> Imprecise Design Exploration, Scheduling/Allocation, Multiple Design Attribute, Imprecise Information, Register Constraint, Inclusion Scheduling

#### **Abstract**

We propose a design exploration framework which consider impreciseness in design specipication. In high-level synthesis, imprecise information is often encountered. We consider two types of imprecesness: impreciseness underlying on functional unit specipications and on contraints: latency and register. The framework is iterative and based on a core scheduling called, *Register-Constrained Inclusion Scheduling*. An example how the scheduling algorithm work is shown. We demonstrate the effectiveness of our framework for imprecise specipication by exploring a design solution for a well-known benchmark, *Discrete Cosine Transform*, and *Voltera Filter*. The selected solution meets the acceptability criteria while minimizing the total number of registers.

### สัญญาเลขที่ MRG4680115

# โครงการ เทคนิคที่มีประสิทธิภาพสำหรับการสังเคราะห์ระดับสถาปัตยกรรมสำหรับระบบเรียลไทม์ VLSI แบบฟอร์มรายงานโครงการวิจัยประจำปี

| <b>ชื่อโครงการ</b> เทคนิคที่มีประสิทธิภ             | าพสำหรับ | บการสังเคราะห์ระดับสถาปัตยกรรมสำหรับระบบเรียลไทม์ VLSI |
|-----------------------------------------------------|----------|--------------------------------------------------------|
| <b>ระยะเวลาโครงการ 1</b> กรกฎาคม :                  | 2546- 30 | มิถุนายน 2548                                          |
| ชื่อหัวหน้าโครงการผู้ได้รับทุน น                    | างสาวจัน | ทนา จันทราพรชัย                                        |
| ชื่อห <b>ักวิจัยที่ปรึกษา</b> ศ. ดร. วัลลภ          | สุระกำพ  | តេចប                                                   |
| รายงานช่วงวันที่ 1 มกราคม 2548                      |          |                                                        |
| <ol> <li>สำหรับหัวหน้าโครงการผู้ได้รับทุ</li> </ol> |          | ,                                                      |
|                                                     |          | ได้ดำเนินการตามแผนที่วางไว้                            |
|                                                     |          | ได้ดำเนินการง่าซ้ากว่าแผนที่วางไว้                     |
|                                                     |          | ได้เปลี่ยนแผนงานที่วางไว้ดังนี้                        |
|                                                     |          |                                                        |

- 1.2 รายละเอียดผลการดำเนินงานของโครงการ
  - 1. สรุปย่อ (Summary)

### วัตถุประสงค์

- 1. เพื่อเป็นการสร้างนักวิจัยที่มีความรู้ความสามารถในทางเทคนิคการออกแบบวงจร VLSI
- 2. เพื่อเป็นการพัฒนาความรู้ที่เป็นพื้นฐานในการพัฒนาชอฟต์แวร์สำหรับการสังเคราะห์วงจร VLSI แบบ อัตโนมัติ
- 3. เพื่อเป็นการศึกษาเทคนิคที่อยู่ในปัจจุบันในการออกแบบวงจร VLSI และวิเคราะห์ข้อดีเสีย
- 4. เพื่อเป็นการพัฒนาเทคนิคใหม่เพื่อช่วยในการออกแบบวงจร VLSI ที่พิจารณาคุณลักษณะของวงจรหลาย อย่างพร้อมๆกัน และปัจจัยความไม่แน่นอน
- 5. เพื่อเป็นการนำเทคนิคไปใช้ในการสังเคราะห์วงจร VLSI แบบอัตโนมัติ ในการสังเคราะห์วงจรสำหรับ อุปกรณ์ทางอิเล็กทรอนิกส์ต่างๆ

#### การดำเนินงานวิจัย

### กิจกรรมที่ได้วางแผนไว้



- 1. ศึกษาเทคนิคอัตโนมัติในการสังเคราะห์วงจร ในด้าน scheduling, allocation, module selection ที่ได้ถูกพัฒนา ขึ้นมาก่อน และวิเคราะห์ข้อดีเสียของเทคนิคเหล่านี้
- 2. ศึกษาปัจจัยความไม่แน่นอนในการสังเคราะห์วงจรชั้นตัน
- 3. ศึกษาปัจจัยคุณลักษณะของวงจรผลลัพธ์ ในแง่ของเวลา ขนาด การใช้พลังงาน รวมถึงความสัมพันธ์ระหว่างกันและ กัน
- 4. ปรับปรุง model สำหรับการวิเคราะห์คุณลักษณะของวงจรผลลัพธ์ที่มีความไม่แน่นอนรวมอยู่ด้วย
- 5. พัฒนา หรือปรับปรุงเทคนิคในการสังเคราะห์วงจร VLSI ตามแบบ model ที่วางไว้ ที่พิจารณา scheduling, allocation พร้อมกันก่อน สำหรับ Functional และ Register allocation
- 6. พัฒนา ชอฟต์แวร์เพื่อจำลองการทำงานของเทคนิคดังกล่าว
- 7. เลือก Benchmark หรือตัวอย่าง Application ที่ใช้อยู่ทั่วไป เพื่อการทดลองเปรียบเทียบการทำงานของเทคนิคใหม่ ที่พัฒนาขึ้นและเทคนิคเก่า
- 8. ทดลองประสิทธิผลของเทคนิคที่คิดคันขึ้นจากโปรแกรมจำลองที่พัฒนาขึ้น
- 9. วิเคราะห์ผลการทดลองและศึกษาแนวทางการนำเทคนิคไปใช้ในการออกแบบจริง
- 10. เขียนรายงานสรุปผลการวิจัย เพื่อนำเสนอผลงานในวารสารทางวิชาการในสาขาที่เกี่ยวข้อง
- 11. ศึกษาวิธีการ Design Exploration ที่มีอยู่
- 12. นำเทคนิดข้อ 5 มาเป็นสร้างเป็น Design Framework ใหม่ที่มีปัจจัยความไม่แน่นอนมากเกี่ยวข้อง โดยอาศัยความ รู้ข้อ 11
- 13. แก้ไข และพัฒนาแบบจำลองการทำงานเพื่อหา Design Solution ที่ได้จากวีธิใหม่นี้
- 14. วัดประสิทธิผลของเทคนิคที่มีอยู่ และ เทคนิคใหม่ เปรียบเทียบกัน
- 15. เขียนรายงานสรุปผลการวิจัยทั้งหมด เพื่อประกอบการนำเสนอในการประชุมทางวิชาการ หรือตีพิมพ์ในวารสารทาง วิชาการ

### <u>กิจกรรมที่ได้ทำจริง</u>

ได้ดำเนินการกิจกรรมที่ 15 เสร็จสิ้นแล้ว

### สรุปการดำเนินงาน

- 1. ได้ทำการศึกษาค้นคว้างานวิจัยที่เกี่ยวข้องกับวิธีการทำ Register Allocation ที่ใกล้เคียงกัน และทบทวน วิธีการ Inclusion Scheduling ที่จะใช้สำหรับทำ Resource binding และ Allocation เมื่อพิจารณาปัจจัย ความไม่แน่นอนมาเกี่ยวข้องด้วยการใช้ Fuzzy Set โดยละเอียด และพิจารณาข้อเด่นของการนำ Register constraint ระหว่างการทำ Scheduling/Allocation เมื่อมีปัจจัยความไม่แน่นอน
- 2. วิเคราะห์ปัญหาที่เกิดขึ้นและนิยามปัญหาเมื่อต้องการพิจารณาปัจจัย Register constraint ในสภาวะที่มี ความไม่แน่นอน ด้วยฟัชชีเซท
- 3. ได้ทำการปรับปรุงเทคนิคเพื่อรองรับปัจจัยของความไม่แน่นอนในส่วนของริจีสเตอร์แล้ว
- 4. ได้ปรับปรุงและพัฒนาชอฟต์แวร์ตามข้อ 3 เรียบร้อยแล้ว
- 5. ได้ทำการทดลองกับ Benchmark เบื้องล้นแล้ว และได้ผลดีกว่าแบบดั้งเดิมที่ไม่ได้พิจารณาปัจจัย register ถึง 35%
- 6. ได้ปรับปรุงและพัฒนา Design Exploration Framework แบบ iterative ซึ่งนำปัจจัยความไม่แน่นอนด้าน Register Constraint มาเกี่ยวข้อง
- 7. ได้ทำการทดลองกับ Benchmark และเก็บข้อมูลเพิ่มเติมสำหรับ Design Exploration
- 8. ได้เขียนสรุปรายงาน และส่ง manuscript ไปยัง IEEE Transactions on Computer-Aided Design (Impact Factor 0.782) เมื่อวันที่ 30 เมษายน 2548

#### 3. ผลงานวิจัยที่ตีพิมพ์ในวารสารวิชาการระดับนานาชาติ

- ได้ตีพิมพ์เรื่อง Efficient Scheduling for Design Exploration with Imprecise Latency and Register Constraints ใน Lecture Notes in Computer Science (LNCS 3207) ปี 2004 หน้า 259-**270 impact** factor **0.413**
- ได้ดีพิมพ์เรื่อง Design Exploration Framdwork under Impreciseness based on Inclusion Scheduling ใน Lecture Notes in Computer Science (LNCS 3321) ปี 2004 หน้า 78-93 impact factor 0.413

### 4. กิจกรรมอื่นๆที่เกี่ยวข้อง

- ได้นำเสนอผลงานทางวิชาการเรื่อง Efficient Scheduling for Design Exploration with Imprecise Latency and Register Constraints ในการประชุมวิชาการ The 2004 International Conference on Embedded And Ubiquitous Computing (EUC04) ที่ University of Aizu ประเทศญี่ปุ่น ในวันที่ 25-27 สิงหาคม 2547
- ได้นำเสนอผลงานทางวิชาการเรื่อง Register-Constrained Inclusion Scheduling for Imprecise Specification ในงานประชุม IEEE Analog and Digital Techniques in Electrical Engineering ปี 2004 ณ โรงแรมโลตัสปางสวนแก้ว เชียงใหม่ วันที่ 20-24 พฤศจิกายน 2547 และลงตีพิมพ์ใน Proceeding ของงานประชุม หน้า 160-163
- ได้นำเสนอผลงานทางวิชาการเรื่อง Design Exploration Framdwork under Impreciseness based on Inclusion Scheduling ในงานประชุมวิชาการ 9<sup>th</sup> ASIAN Computing Science Conference ณ มหาวิทยาลัย เชียงใหม่ ในวันที่ 10-12 ธันวาคม 2548

#### ปัญหาและอุปสรรค

MRG4680115 30 มิถุนายน 2548

| ความเห็นและข้อเสนอแนะ                               |
|-----------------------------------------------------|
| <del>-</del>                                        |
|                                                     |
| งานที่จะทำในปีต่อไป<br>-                            |
| รับนักวิจัยที่ปรึกษา<br>จะส่งแบบประเมินตามมาภายหลัง |
| ลงนวม                                               |
|                                                     |

(หัวหน้าโครงการผู้ได้รับทุน)

2.

### บทคัดย่อ

ในงานวิจัยนี้ได้นำเสนอ Framework สำหรับวิธีการสำรวจการออกแบบที่เหมาะสมซึ่ง พิจารณาปัจจัยความไม่แน่นอน (Impreciseness) ในข้อกำหนดของการออกแบบ ในการ สังเคราะห์วงจรระดับสถาปัตยกรรมนั้น มักจะมีความไม่แน่นอนเกี่ยวกับข้อมูลของข้อกำหนด ในงานวิจัยนี้ ผู้วิจัยได้พิจารณาประเภทของความไม่แน่นอนของประเภท ได้แก่ ความไม่แน่ นอนในด้านข้อกำหนดของหน่วยคำนวณ และความไม่แน่นอนในข้อกำหนดด้านเงื่อนไขด้าน เวลาและเงื่อนไขด้านจำนวนรีจิสเตอร์ ใน Framework นี้ จะอ้างอิงรูปแบบ iterative และอ้างอิง กับวิธีการจัดลำดับอันได้แก่ Register-Constrained Inclusion Scheduling ในบทความนี้ได้นำ เสนอตัวอย่างถึงวิธีการทำงานของการจัดลำดับแบบนี้ และได้ทดลองการใช้ Framework การ ออกแบบนี้กับตัวอย่าง benchmark อันได้แก่ Discrete Cosine Transform และ Voltera Filter แนวทางการออกแบบที่เลือกสำหรับการออกแบบทั้งสองนี้ได้เหมาะสมกับระดับการยอมรับได้ (Acceptability Criteria) และประหยัดจำนวนรีจีสเตอร์ทั้งหมดโดยประมาณด้วย

คำสำคัญ การสำรวจการออกแบบโดยอาศัยความไม่แน่นอน การจัดลำดับ คุณ ลักษณะการออกแบบหลายปัจจัย ข้อมูลความไม่แน่นอน เงื่อนไขด้านเวลา และ Inclusion Scheduling

<u>Keywords</u> Imprecise Design Exploration, Scheduling/Allocation, Multiple Design Attribute, Imprecise Information, Register Constraint, Inclusion Scheduling

# สารบัญ

| บทคัดย่อ                                                              | 1  |
|-----------------------------------------------------------------------|----|
| บทที่ 1 บทนำ                                                          | 4  |
| บทที่ 2 งานวิจัยที่เกี่ยวข้อง                                         | 6  |
| บทที่ 3 Model และความรู้เกี่ยวกับทฤษฎีพัชซี่เชด                       | 8  |
| 3.1 การ model ระบบและคุณลักษณะของระบบ                                 | 8  |
| 3.2 ทฤษฎีฟัชชี่เชต                                                    | 11 |
| บทที่ 4 Iterative Design Framework                                    | 13 |
| บทที่ 5 Register-Constrained Inclusion Scheduling                     | 14 |
| 5.1 Latency-based Inclusion Scheduling                                | 14 |
| 5.2 อัลกอริทีม Register-Constrained Inclusion Scheduling              | 16 |
| 5.2.1 Imprecise Timing Attribute                                      | 16 |
| 5.2.2 การคำนวณการใช้งานรีจิสเตอร์                                     | 18 |
| 5.2.3 อัลกอริทึม                                                      | 19 |
| บทที่ 6 ตัวอย่างการทำงานของ Register-Constrained Inclusion Scheduling | 22 |
| บทที่ 7 ผลการทดลอง                                                    | 26 |
| 7.1 Discrete Cosine Transform                                         | 26 |
| บทที่ 8 สรุปผล                                                        | 30 |
| เอกสารอ้างอิง                                                         | 31 |

# สารบัญรูปและตาราง

| รูปที่ 3.1 โค้ดและตัวอย่าง DFG                                                               | 8    |
|----------------------------------------------------------------------------------------------|------|
| รูปที่ 3.2 การพล็อดของฟังก์ชัน Rai.azi - 1.249689aı - 2azi - 0.001242                        | g    |
| รูปที่ 3.3 Projection ของรูป 3.2                                                             | 10   |
| รูปที่ 3.4 (a) Z-Shaped acceptability function (b) projection                                | 10   |
| รูปที่ 3.5 การบวกตัวเลขฟัชชี่ A+B                                                            | 11   |
| รูปที่ 4.1 การหา design solution แบบ iterative                                               | 13   |
| รูปที่ 5.1 ค่า FST(u) และ FFT(u) สองกรณี                                                     | 17   |
| รูปที่ 5.2 ความสัมพันธ์ระหว่างโหนดที่ถูกจัดลำดับแล้วและ life time                            | 19   |
| รูปที่ 6.1 กราฟตัวอย่าง                                                                      | 22   |
| -<br>ตารางที่ 6.1 แสดงคุณลักษณะของหน่วยคำนวณ                                                 | 22   |
| รูปที่ 6.2 System Specification สำหรับกราฟตัวอย่าง                                           |      |
| -<br>รูปที่ 6.3  (a) ตารางจัดลำดับที่ได้จาก RCIS (b) ตารางจัดลำดับที่ได้ indusion scheduling | 23   |
| รูปที่ 6.4 (a) FLT (A) (b) FLT(B)                                                            | 23   |
| รูปที่ 6.5 FLT (A) และ FLT(B)                                                                | 24   |
| รูปที่ 6.6 FLT สำหรับทุกโหนดในกราฟ (a) FST (b) MFFT                                          | 24   |
| รูปที่ 6.7 Register count และค่าความเป็นไปได้ ณ เวลาต่างๆ                                    | 25   |
| รูปที่ 6.8 กราฟใหม่เมื่อเดิมโหนดเข้าไป                                                       | 25   |
| ตารางที่ 7.1 ลักษณะของ adder และ multiplier                                                  | 26   |
| ิตารางที่ 72 ผลการทดลองของ DCT เปรียบเทียบ RCIS และ IS สำหรับจำนวนหน่วยคำนวณต่าง ๆ กัน       | 27   |
| รูปที่ 7.1 system specification ของ DCT                                                      | 27   |
| ดารางที่ 7.3 ค่าความเป็นไปได้สำหรับการใช้งานจำนวนรีจิสเตอร์ต่างๆ กัน สำหรับ กรณี             |      |
| adder 7ตัว และ multiplier 5 ตัว ของ RCIS                                                     | 27   |
| ตารางที่ 7.4 ค่าความเป็นไปใัด้สำหรับการใช้งานจำนวนรีจิสเตอร์ต่างๆ กัน สำหรับ กรณี            |      |
| adder 7ตัว และ multiplier 5 ตัว ของ IS                                                       | 27   |
| รูปที่ 7.2 System Specification ของ Voltera filter                                           | 28   |
| -<br>ตารางที่ 7.5 ผลการทดลองของ Voltera filter  เปรียบเทียบ RC!S และ IS สำหรับจำนวนห         | น่วย |
| คำนวณต่างๆ กัน                                                                               | 29   |
| รูปที่ 7.3 ค่า acceptability degree ของแต่จะการออกแบบ                                        | 29   |

# บทที่ 1 บทนำ

ในการสังเคราะห์วงจรระดับสถาปัตยกรรม มักมีความไม่แน่นอนในข้อมูลต่างๆ ได้แก่ ในแง่ของการ implement การเลือกองค์ประกอบ (component) ของวงจรสำหรับการออกแบบ อาจจะยังไม่สามารถกำหนดได้เนื่องจากหลายสาเหตุ อาจจะเป็นเพราะมีหลาย ประเภทขององค์ประกอบให้เลือก เช่น มี module ที่ทำหน้าที่เป็น ตัวคูณ (multiplier) หลาย ประเภท หรืออาจจะเป็นเพราะ module บาง module ยังไม่ได้ถูกออกแบบในระดับ physical ทำ ให้คุณลักษณะบางอย่างของ module นั้นยังไม่แน่นอน หรือแม้ว่า module นั้นได้ถูกออกแบบ เรียบร้อยแล้ว คุณลักษณะบางอย่างอาจจะมีการเปลี่ยนแปลงเนื่องจากขั้นตอนการ fabricate ก็ ได้ อีกประเภทหนึ่งของความไม่แน่นอนได้แก่ ความไม่แน่นอนหรือความกำกวมในด้านระดับ การยอมรับได้ (acceptability level) หรือระดับความพึงพอใจของการออกแบบที่ได้ในระดับ สถาปัตยกรรม เช่นถ้ามีความพึงพอใจกับการออกแบบที่สามารถทำงานได้ภายในเวลา cycle และถ้าการออกแบบที่ได้ทำงานได้ในเวลา 51 cycle จะยังสามารถยอมรับได้หรือไม่ โดย เฉพาะอย่างยิ่งเมื่อมีปัจจัยการออกแบบหลายปัจจัยมาเกี่ยวข้องซึ่งปัจจัยเหล่านั้นอาจจะขัดแย้ง กันอยู่ในดัวเอง เช่นในแง่ประสิทธิภาพและการใช้พลังงาน ประสิทธิภาพความเร็วสูงอาจจะไม่ ประหยัดพลังงาน หรือ ในแง่ของจำนวนรีจิสเตอร์ที่ใช้กับเวลาในการทำงานของการออกแบบที่ ได้ ถ้าวงจรทำงานเร็วอาจจะใช้จำนวนรีจิสเตอร์มากขึ้น จะยอมรับได้หรือไม่ ถ้าวงจรนั้นทำงาน ช้าลง 1 หรือ 2 clock cycle แต่ประหยัดรีจิสเตอร์ได้ 1 ตัว หรือ ถ้าใช้เวลามากขึ้นกว่าเดิม 10 clock cycle จะยังยอมรับได้หรือไม่ มากน้อยเท่าไร ดังนั้นการพิจารณาปัจจัยความไม่แน่นอน อย่างเหมาะสมในการสังเคราะห์วงจรรวมระดับสถาปัตยกรรมจะมีผลต่อการออกแบบที่ได้ด้วย

ในงานวิจัยนี้ ได้มีการนำเสนอ framework สำหรับการสำรวจการออกแบบที่เหมาะสม ซึ่งพิจารณาปัจจัยความไม่แน่นอนทั้งในด้านข้อกำหนดของระบบผลลัพธ์และเงื่อนไข (requirement) ด้านเวลา (latency) และการใช้งานรีจิสเตอร์ อย่างไรก็ดีวิธีการดังกล่าวสามารถ ขยายต่อไปเพื่อพิจารณาความไม่แน่นอนในเงื่อนไขหลายๆ ด้านในการออกแบบด้วย ลักษณะ ข้อกำหนดของระบบถูก model อ้างอิงกับทฤษฎีพัชซี่เชต ในงานวิจัยนี้จะพิจารณาจำนวนรีจิส เตอร์ที่ใช้เป็นอีกมิติหนึ่งของเงื่อนไขของระบบงาน ผู้วิจัยได้คิดคันวิธีการจัดลำดับ (scheduling) เมื่อพิจารณาปัจจัยด้านเวลา[3,7] เพื่อใช้เป็นอัลกอริทึมหลักใน iterative design framework นี้ ตารางจัดลำดับที่ได้จะพยายามลดการใช้งานในแง่ของจำนวนริจิสเตอร์ ถ้าดารางจัดลำดับนั้น ยอมรับได้ ก็จะได้ผลลัพธ์การออกแบบ ถ้าไม่เช่นนั้น จะมีการปรับจำนวนทรัพยาการ หรือ หน่วยคำนวณและทดลองจัดลำดับด้วยวิธีดังกล่าวใหม่ จนกว่าได้ผลลัพธ์การออกแบบที่ยอมรับ ได้ ข้อมูลเข้าของ framework นี้ได้แก่ data flow graph ซึ่งประกอบด้วยพารามิเตอร์ด้านเวลาที่ มีความไม่แน่นอนอยู่ งานประยุกด์ของระบบประเภทดังกล่าวได้แก่ ระบบ digital signal processing หรือ communication switch และ งานประเภท real-time multimedia rendering เป็นตัน ข้อกำหนดที่ไม่แน่นอนทั้งในด้านพารามิเตอร์และเงื่อนไขนั้นจะมีผลอย่างมากต่อการจัด

สรรทรัพยาการ (resource allocation) และการจัดลำดับสำหรับการออกแบบงานประยุกด์เหล่า นี้ ดังนั้น การพัฒนาเทคนิคการสังเคราะห์และเทคนิคการ optimize วงจรรวม ซึ่งพิจารณาปัจจัย ความไม่แน่นอนเหล่านี้จึงมีความสำคัญอย่างยิ่ง

ในการสังเคราะห์วงจรและเครื่องมือต่างๆ ที่มีอยู่โดยทั่วไปจะไม่พิจารณาปัจจัยความไม่ แน่นอนในข้อกำหนดดังกล่าว ส่วนมากจะสมมติว่าข้อมูลต่างๆ ที่ได้จะได้จากพิจารณากรณี worst case หรือกรณีทั่วไป (typical case) แล้ว เช่นพิจารณาเวลาในการทำงานของ module ที่ ใช้ในแบบ worst case เงื่อนไขด้านเวลามักจะกำหนดมาในรูบ่แบบของค่าคงที่ (fixed value) ซึ่งแม้ว่าในความเป็นจริงอาจจะยืดหยุ่นได้บ้างเนื่องจากระดับความพึงพอใจของนักออกแบบแต่ ละคนมักจะแตกต่างกัน การตั้งสมมติฐานแบบดังกล่าวอาจจะเป็นแหล่งกำเนิดทำให้การต้องมี การปรับการออกแบบหลายครั้งกว่าจะได้ผลลัพธ์ หรืออาจจะนำมาซึ่งผลลัพธ์ของการออกแบบที่ ใช้ทรัพยากรต่างๆ มากเกินความจำเป็น การพิจารณาปัจจัยความไม่แน่อย่างเหมาะสมตั้งแต่ขั้น แรกๆ ของการออกแบบจะทำให้ได้การออกแบบเริ่มต้นที่ดี และทำให้การปรับการออกแบบทำ ได้เร็วกว่า

การใช้ตัวแปรสุ่มและความน่าจะเป็นเป็นอีกแนวทางหนึ่งซึ่งใช้ model ความไม่แน่นอน อย่างไรก็ดี การเก็บข้อมูลเกี่ยวกับความน่าจะเป็น บางครั้งก็ยากลำบากและใช้เวลาในการเก็บ ข้อมูล นอกจากนี้ความไม่แน่นอนบางอย่างเช่นระดับความพึงพอใจของการออกแบบที่ได้ก็ไม่ สามารถ model ได้ด้วยความน่าจะเป็น

ในงานวิจัยนี้ ผู้วิจัยได้พิจารณาทั้งปัจจัยความไม่แน่นอนด้านเวลาและการใช้งานรีจิส เตอร์ ผู้วิจัยได้พัฒนา framework สำหรับการสำรวจการออกแบบที่พิจารณาความไม่แน่นอนใน ข้อกำหนดคุณลักษณะของระบบผลลัพธ์และเงื่อนไข framework ดังกล่าวเป็นแบบ iterative ซึ่ง อาศัยวิธีการจัดลำดับที่ได้พัฒนาขึ้น ที่เรียกว่า RCIS (Register-Constrained Inclusion Scheduling) ซึ่งพิจารณาข้อมูลที่มีความไม่แน่นอน จากการทดลองพบว่าผู้วิจัยสามารถหาคำ ตอบสำหรับการออกแบบที่ลดจำนวนรีจิสเตอร์ได้

ในรายงานนี้ได้แบ่งออกเป็นบทต่างๆ ดังนี้

- -บทที่ 2 นำเสนองานวิจัยที่เกี่ยวข้อง
- -บทที่ 3 อธิบายถึง model ที่ใช้ในงานวิจัยทั้ง data flow graph และ model คุณ ลักษณะที่ไม่แน่นอน และนำเสนอความรู้พื้นฐานต่างๆเกี่ยวกับทฤษฎีฟัชซี่ที่จำเป็น
  - -บทที่ 4 อธิบายถึง iterative design framework ที่ได้พัฒนาขึ้น
- -บทที่ 5 นำเสนอวิธีการจัดลำดับแบบ RCIS ซึ่งใช้ในบทที่ 3 โดยละเอียด และ นำเสนอ นอกจากนี้ได้นำเสนอประเด็นต่างๆ ที่เกี่ยวข้องเมื่อพิจารณาการใช้งานรีจิสเตอร์ และการ คำนวณจำนวนรีจิสเตอร์ที่ใช้ระหว่างการจัดลำดับเมื่อมีปัจจัยความไม่แน่นอน
  - -บทที่ 6 นำเสนอตัวอย่างการทำงานของอัลกอริทึมดังกล่าวในบทที่ 4
  - -บทที่ 7 นำเสนอผลการทดลองเมื่อใช้ framework ดังกล่าวกับตัวอย่าง benchmark
  - -บทที่ 8 สรุปงานวิจัยและนำเสนอแนวทางการวิจัยต่อไปในอนาคต

# บุทที่ 2 งานวิจัยที่เกี่ยวข้อง

ได้มีนักวิจัยหลายๆ ท่านได้ใช้ตรรกะแบบพัชซี่เพื่อแก้ปัญญาการจัดลำดับในงาน ประยุกต์ต่างๆ กัน เช่น ฟิลด์ compiler optimization ได้มีการใช้ทฤษฎีพัชซี่เซตในการพิจารณา real-time event และ ความไม่แน่นอนเกี่ยวกับตัวแปร (variable) [18] Lee et. al ใช้การอนุมาน แบบพัชซีมาช่วยหาตารางจัดลำดับที่เป็นไปได้สำหรับระบบ real-time โดยให้แต่ละ task ทำได้ งานตาม deadline ภายใต้เงื่อนไขการใช้ทรัพยาการที่กำหนด [23] ในงานด้าน production management ได้มีการใช้กฎพัชซี่เพื่อทำการจัดลำดับสำหรับ job shop และ floor shop [27,33] Kaviani และ Vranesic ใช้กฎพัชซี่เพื่อตัดสินหาจำนวนโพรเชสเชอร์ที่เหมาะสมสำหรับ เชตของ task และ deadline ที่กำหนดให้สำหรับระบบ real-time [22] Soma et.al พิจารณาการทำ schedule optimization โดยใช้การอนุมานแบบพัชซี่ [32] งานวิจัยเหล่านี้ ไม่ได้พิจารณากรณีที่ว่าข้อกำหนดด้านเวลาของแต่ละ task อาจจะไม่ใช่คำแน่นอน หรือไม่ได้พิจารณาคุณ ลักษณะอื่นๆ นอกจากด้านเวลาของตารางการจัดลำดับ

งานวิจัยอื่นๆ เกี่ยวกับการสำรวจการออกแบบวงจร (design exploration) ได้แก่ [1,9,15,26] งานเหล่านี้แตกต่างกันในด้านเทคนิคที่ใช้ในการหาผลลัพธ์การออกแบบและการตัด สินใจเลือกผลลัพธ์การออกแบบ อย่างไรก็ดึงานเหล่านี้ไม่ได้พิจารณาปัจจัยความไม่แน่นอนใน คุณลักษณะของระบบเช่น เงื่อนไขด้านเวลา และความไม่แน่นอนเกี่ยวกับเวลาที่ใช้ในการรัน งานในหน่วยคำนวณ Karkowski และ Otten ได้เสนอ model ที่ใช้ในการจัดการความไม่แน่นอน ด้านเวลาของหน่วยคำนวณโดยใช้ทฤษฏีพัชชี่เชด วิธีการที่นำเสนอได้อ้างอิงวิธีการ possibilistic programming โดยอาศัย integer linear programming (ILP) เพื่อหาดารางจัด ลำดับและการจัดสรรทรัพยากรหน่วยคำนวณโดยภายใต้เงื่อนไขต้านเวลาและพื้นที่ โดยเงื่อนไข ก็ได้ใช้ฟัชซี่เซต model เช่นกัน อย่างไรก็ดีการใช้ ILP กับ fuzzy constraint และ fuzzy coefficient นั้น ใช้เวลาในการประมวลผลมาก นอกจากนี้งานวิจัยนี้ไม่ได้พิจารณาถึงระดับความ พึงพอใจที่เกิดขึ้นสำหรับผลลัพธ์การออกแบบที่ได้ ได้มีงานวิจัยหลายงานเกี่ยวกับการประมาณ การการใช้ทรัพยากร (resource estimation) [10,28,31] ซึ่งงานเหล่านี้ก็ไม่ได้พิจารณาคุณ ลักษณะของการแบบหลายปัจจัย หรือไม่ได้พิจารณาถึงความไม่แน่นอนในคุณลักษณะของ ระบบผลลัพธ์

งานวิจัยเกี่ยวกับการจัดลำดับและการจัดสรรการใช้รีจิสเตอร์มีอีกมากมายใน area ของ การสังเคราะห์วงจรระดับสถาปัตยกรรม และ compiler optimization สำหรับสถาปัตยกรรมของ VLIW เช่น Varatkar et. al. ได้นำเสนออัลกอริทึมการจัดลำดับสำหรับระบบมัลติโพรเซสเซอร์ ซึ่งพิจารณาการประหยัดพลังงานทั้งหมด [34] Shao et. al. ได้นำเสนอการจัดลำดับสำหรับ ระดับคำสั่ง (instruction level scheduling) สำหรับงานประยุกต์ที่มีลูปและพิจารณาประหยัด

พลังงานโดยการลด switching activity [30] Chen et. al. ได้เสนอการจัดลำดับสำหรับงาน ประยุกต์ที่มีลูปสำหรับการ optimize ระบบในด้านเวลาและจำนวน memory operation ภายใต้ เงื่อนไขข้อจำกัดด้านจำนวนรีจิสเตอร์ [16] เทคนิคดังกล่าวใช้เทคนิคของ multidimensional retiming Eichenerger et. al. เสนอวิธีการจัดสรรทรัพยากรรีจิสเดอร์สำหรับสถาปัดยกรรมแบบ VLIW และ superscalar โดยใช้ stage scheduling [13,14] Akturan และ Jacome นำเสนออัลก อริทึมการจัดลำดับที่พิจารณาการใช้จำนวนรีจิสเตอร์อย่างประหยัดโดยอาศัยเทคนิค pipelining [2] อัลกอริทึมนี้ใช้เทคนิค retiming และ force directed scheduling มาช่วย และ พิจารณาข้อดีข้อเสียระหว่างขนาดของโค้ดผลลัพธ์ ประสิทธิภาพการทำงานของโค้ดผลลัพธ์ และ การใช้รีจิสเตอร์ของโค้ดนั้นๆ Wong et. al. ได้พัฒนาวิธีการแทรก objective function เข้า ไประหว่างการจัดลำดับและการจัดสรรการใช้ทรัพยากร [35] อัลกอริทึมดังกล่าวชื่อย่อว่า FLOF จะพยายามลดจำนวนการใช้งานรีจิสเตอร์ภายใต้เงื่อนไขด้านเวลาและจำนวนทรัพยากรที่ กำหนดให้ Dani et. al. ได้นำเสนอ heuristic ในการใช้ stage scheduling เพื่อลดจำนวนรีจิส เตอร์ ซึ่งงานนี้ก็มุ่งไปยังการจัดลำดับสำหรับระดับคำสั่งเช่นกัน [11] Zalamea et. al. ได้นำ เสนอวิธีการทางด้านฮาร์ดแวร์และซอฟต์แวร์เพื่อลดการใช้งานรีจิสเตอร์โดยเน้นไปยัง สถาปัตยกรรมแบบ VLIW [24,25,38] ในส่วนของซอฟต์แวร์ งานวิจัยนี้ได้ทำการปรับปรุง modulo scheduling ให้พิจารณาเงื่อนไขด้านจำนวนรีจิสเตอร์ และ register spilling อย่างไรก็ดี งานวิจัยนี้เน้นไปยังการจัดลำดับสำหรับงานประยุกด์ที่มีลูปในโค้ดและไม่ได้พิจารณาปัจจัยความ ไม่แน่นอนในคุณลักษณะของระบบหรือข้อกำหนดของระบบผลลัพธ์

ในงานวิจัย [3] ได้มีการพัฒนา inclusion scheduling ซึ่งพิจารณาปัจจัยความไม่แน่ นอนคุณลักษณะของระบบขึ้น อัลกอริทึมนี้ได้ถูกปรับปรุงและนำมาใช้ในการสำรวจการออกแบบ ภายใต้เงื่อนไขความไม่แน่นอนต่างๆ ด้าน และใช้ในการประมาณขอบเขตในแง่ของจำนวน ทรัพยากร [5,6,8] อย่างไรก็ดีงานวิจัยดังกล่าวก็ไม่ได้พิจารณาปัจจัยของการใช้ทรัพยากรรีจิส เตอร์ในการจัดลำดับ

# บทที่ 3 Model และความรู้เกี่ยวกับทฤษฎีฟัชซี่เซต

ในบทนี้จะได้อธิบายถึง model ที่สำคัญๆ ที่ใช้ในการ model ระบบและคุณลักษณะ รวม ทั้งการ model ปัจจัยความไม่แน่นด้วยทฤษฎีฟัชชี่เซต และ operation ต่างๆ ของฟัชซี่เซตที่ เกี่ยวข้อง

### 3.1 การ model ระบบและคุณลักษณะของระบบ

ในการ model ระบบและคุณลักษณะของระบบส่วนใหญ่นั้น ในระดับสถาปัตยกรรมได้ อ้างอิงการใช้กราฟนั่นคือการใช้ data flow graph (DFG)  $G = (V, \mathcal{E}, \beta)$  ซึ่งในที่นี้จะพิจารณาเป็น แบบ directed acyclic graph ใน data flow graph นั้น จะประกอบด้วยโหนด V, edge  $\mathcal{E}$  และ weight function  $\beta$ บนตัวโหนด  $V \in V$ 

operation ในโค้ดจะหมายถึงโหนดในกราฟ และความสัมพันธ์ระหว่าง operation จะ หมายถึงการใหลของข้อมูลจาก operation หนึ่งไปยังอีก operation หนึ่งซึ่งจะหมายถึง directed edge ในกราฟ และ weight function จะ map จากเซตของโหนดในกราฟไปยังค่าคุณ ลักษณะของ operation ที่สัมพันธ์กับโหนดนั้น อันได้แก่ ประเภทของ operation ดังตัวอย่างใน รูป 3.1

A: R1 = R2+R3
B: R4 = R5+R6
C: R7 = R8 \* R9
D: R10= R11 \*R12
E: R13 = R1+R4+R7+R10



### รูปที่ 3.1 โค้ดและตัวอย่าง DFG

ในรูปที่ 3.1 แสดงโค้ดด้วอย่างที่ประกอบด้วย operation และ DFG ที่สัมพันธ์กัน ในกราฟ นี้ประกอบด้วย 5 โหนด โหนด A,B,E เป็น operation การบวกและ โหนด C,D เป็น operation การคูณ กล่าวคือ  $V = \{A,B,C,D,E\}, \mathcal{E} = \{A \rightarrow E,B \rightarrow E,C \rightarrow E,D \rightarrow E\}$ . และ  $\beta(A) = \beta(B) = \beta(E) = \text{add}$  และ  $\beta(C) = \beta(D) = \text{multiply}$ 

operation ใน DFG จะสามารถถูกคำนวณในหน่วยคำนวณต่างๆ รูปแบบกันได้ ดังนั้นจะ หมายถึงว่าผู้ออกแบบสามารถเลือกหน่วยคำนวณได้หลายรูปแบบสำหรับ operation หนึ่งๆ ซึ่ง จะหมายถึงว่าในการออกแบบนั้นจะมีความไม่แน่นอนของการเลือกหน่วยคำนวณมาใช้ด้วยนั่น เอง

สำหรับเงื่อนไขสำหรับผลลัพธ์การออกแบบนั้น อาจจะได้แก่ข้อจำกัดด้านการใช้พลังงาน และข้อจำกัดด้านต้นทุนการผลิต ข้อกำหนดทั้งหลายนี้จะถูก model ได้ด้วย tuple  $S = (\mathcal{F}, A, \mathcal{M}, \mathcal{Q})$  โดย  $\mathcal{F}$  หมายถึง เซดของประเภทของหน่วยคำนวณที่มีอยู่ในระบบทั้งหมด เช่นอาจจะหมายถึงเซ็ตของ ด้วบวกและด้วคูณ $\mathcal{F} = \{add. mul\}$  และ A หมายถึง  $\{A_\ell: \forall \ell \in \mathcal{F}\}$ 

การใช้ฟังก์ชัน Q ในการนิยามระดับการยอมรับได้ (acceptability level) ของระบบนั้นมี ประโยชน์หลายอย่าง เช่น สามารถแสดงถึงขอบเขดเงื่อนไขของระบบผลลัพธ์ และสามารถ แสดงถึง design goal ที่มีครอบคลุมถึงปัจจัยความต้องการหลายด้าน ตัวอย่างเช่น ผู้ออกแบบ อาจจะสนใจระบบผลลัพธ์ที่มีทำงานได้ในเวลาไม่เกิน 500 หน่วยเวลาและจำนวนรีจิสเตอร์ที่ใช้ ไม่เกิน 6 และถ้าใช้เวลาในการทำงานและจำนวนรีจิสเตอร์ยิ่งน้อยก็จะพึงพอใจมากขึ้น ระบบที่ ดีที่สุด (ideal system) อาจจะมีเวลาในการทำงานน้อยกว่า 100 หน่วยเวลา และใช้จำนวนรีจิส เตอร์เท่ากับ 1 ความต้องการดังกล่าว model ได้ด้วยฟังก์ชัน 🗵 🗓 ๑ังนี้

$$Q(a_1, a_2) = \begin{cases} 0 & \text{if } a_1 > 500 \text{ or } a_2 > 6\\ 1 & \text{if } a_1 \le 100 \text{ and } a_2 \le 1\\ F(a_1, a_2) & \text{otherwise.} \end{cases}$$
 (2.1)

โดยที่ F เป็น linear function และหมายถึง R[a1, az] = 1.249689(a1 + 2az) - 0.001242 ซึ่ง จะให้ค่าระดับการยอมรับได้ระหว่าง [0..1]

รูปที่ 3.2 แสดงการพลอตของฟังก์ชัน Q ข้างดัน ซึ่งแสดงถึง weighted sum ของคุณ ลักษณะทั้งสองโดยให้ความสำคัญในการลดจำนวนรีจิสเตอร์มากกว่าการลดเวลาในการทำงาน เป็น 2 เท่า (register count: latency = 1:2) อีกนัยหนึ่งคือสามารถยินยอมให้เพิ่มเวลาในการ ทำงาน 2 หน่วยเวลาถ้าสามารถลดจำนวนรีจิสเตอร์ได้ 1 ตัว รูปที่ 2.3 แสดง projection ของรูป 2.2 ในการ possibility และ latency (ในที่นี้บางครั้งเรียกว่า tradeoff)



รูปที่ 3.2 การพล็อตของฟังก์ชัน กิลเ.ฉะ) - 1.24%8%(a<sub>1</sub> + 2a<sub>2</sub>) - 0.001242



รูปที่ 3.3 Projection ของรูป 3.2

ในกรณีทั่วไปจะได้ดังสมการนี้

$$Q(a_{1}, a_{2}, ..., a_{n}) = \begin{cases} 0 & \text{if } a_{1} > p_{1}_{n, a_{n}} = \text{or } a_{n} > p_{n}_{n, a_{n}} \\ 1 & \text{if } a_{1} \leq p_{1}_{n, a_{n}} = \text{and } a_{n} \leq p_{n}_{n, a_{n}} \end{cases}$$

$$F(w_{1}a_{1} + w_{2}a_{2} + ...w_{n}a_{n}) & \text{otherwise.}$$
(2.2)

โดยที่ผู้ออกแบบอาจจะสามารถแทนที่แกน register count ด้วยปัจจัยอื่นๆ เช่น การใช้ พลังงาน (power) รูป 3.4 (a) แสดงตัวอย่างของข้อกำหนด Q เมื่อพิจารณา tradeoff ทั้งสอง ปัจจัยเป็น พา - 4 พ = 1 โดย F หมายถึงฟังก์ชัน curve รูปร่าง Z-shaped ในรูป 3.4 (b) แสดง projection ของรูป 3.4 (a) โดยแต่ละ Z-curve จะหมายถึงแต่ละ projection ของแต่ละ ฟังก์ชัน Q ในระนาบ acceptability และ possibility Curve ด้านในสุดจะหมายถึงเวลาในการ ทำงานที่น้อยที่สุดและจะมีค่าการใช้พลังงานสูงสุด ดังนั้นถ้าการออกแบบที่มีค่าระดับการยอมรับ ได้มากจะหมายถึงการออกแบบที่ optimize ตามเป้าหมายของการออกแบบมากนั่นเอง



รูปที่ 3.4 (a) Z-Shaped acceptability function (b) projection

จาก model ข้างต้น ในงานวิจัยนี้ได้พิจารณาปัญหาการจัดลำดับและการจัดสรรทรัพยากร ดังต่อไปนี้

กำหนดข้อกำหนด S = (F,A,M,Q) และกราฟ G = (V,E,B) และ α ระดับการยอมรับได้ αหาตารางการจัดลำดับภายใต้จำนวนหน่วยคำนวณและจำนวนรีจิสเตอร์ที่กำหนด สำหรับแต่ ละ f ใน F ซึ่งมีระดับการยอมรับได้มากกว่าหรือเท่ากับ α ภายใต้ Q

### 3.2 ทฤษฎีพืชชี่เชต

พืชชี่เซตกำเนิดโดย Zadeh เป็นเซตที่มีขอบเขตไม่แน่นอน (imprecise boundary) [36,37] เซตตามความหมายดั้งเดิมนั้น องค์ประกอบ (element) หนึ่งๆ จะสามารถเป็นหรือไม่ เป็นสมาชิกของเซตได้เท่านั้น อีกนัยหนึ่งจะหมายความว่าจะมีค่าฟังก์ชันสมาชิก หรือ membership degree เป็น 0 (ไม่เป็นสมาชิก) หรือเป็น 1 (เป็นสมาชิก) เท่านั้น สำหรับฟัชชี่ เซตนั้นจะสามารถให้ค่าฟังก์ชันสมาชิกสำหรับแต่ละ element ภายใต้ universe เป็นค่าที่อยู่ ระหว่าง [0..1] ซึ่งจะบอกถึง degree การเป็นสมาชิกของ element นั้นๆ ดังนั้นค่า degree ของการเป็นสมาชิก (membership value) นั้น น่เเ่: เเ่ → [0,1]

พืชซี่เชตจะเรียกว่าเป็น normal set ถ้าภายในเซตนั้นมีสมาชิกอย่างน้อยหนึ่งตัวที่มีค่า เป็น membership degree เป็น 1 ส่วน convex พืชซี่เชตจะหมายถึงพัชซี่เชตที่มี element x,y,z ใดๆ ซึ่ง × < y < z กล่าวคือ μ∆(y) ≥ min(μ∆(x),μ∆(z)) ตัวเลขพัชซี่ (fuzzy number) จะเป็น convex, normal พืชซี่เชต กำหนดให้ A, B เป็นตัวเลขพัชซี่ และมีพังก์ชัน สมาชิก μ∆(x) และ μв(y) ตามลำดับ กำหนดให้ \* เป็นการกระทำแบบ binary ซึ่งอาจจะเป็น หนึ่งใน operation ดังนี้ {+, -, ×, ÷, min, max} การกระทำทางคณิตศาสตร์ของตัวเลขพัชซี่ สองตัวเลข A,B ได้เป็นเซตใหม่และมีพังก์ชันสมาชิก A \* B คำนวณดังนี้ โดย extended principle [17]

$$\mu_{A*B}(z) = \bigvee_{z=x*y} (\mu_A(x) \wedge \mu_B(y))$$

โดยที่ V และ ^คือ operation max และ min ตามลำดับ

รูปที่ 3.5(a) แสดงตัวเลขฟัชชี่ A ซึ่งเป็นเซต normal และรูปแบบ triangular พิจารณาใน ช่วง universe (2..6) ๋จะเห็นค่าที่เป็นไปได้มากที่สุดของ A คือค่า 4 เนื่องจากมี ระดับความเชื่อ มั่น 1 (presumption level) และรูปที่ 3.5(b) แสดงตัวเลขฟัชชี่อีกตัว B ซึ่งมี universe อยู่ในช่วง (3,7) และรูปที่ 2.5(c) แสดงผลของการกระทำ A+B ด้วยสมการข้างต้น



รูปที่ 3.5 การบวกตัวเลขพัชซี่ A+B

ในการเปรียบเทียบตัวเลขพัชริงองร้ามีหลายวิธีที่สามารถทำได้ วิธีการด่างๆ เหล่านี้ ต่างกันที่การเลือกตัวแทนของเซตมาเบรียบเรียบ [21] วิธีการอันหนึ่งในการเลือกตัวแทนของ เซตนั้นเช่น การใช้ removal ซึ่งสัมพัทธ์กับ k จะหมายถึงระยะห่างจากค่า k คำนวณได้จาก RIA.k] = \frac{1}{2} [R\_1[A,k] + R\_r[A,k]] (สำหรับตัวเลขพัชซี่ A) โดยที่ k เป็นระยะห่างบนแกน x และ R, เป็นพื้นที่ด้านซ้ายของ curve membership function กับเส้นตรง x=k และ R, เป็นพื้นที่ ทางด้านขวาของ curve membership function กับเส้นตรง x=k อีกตัวอย่างได้แก่การใช้ mode ซึ่งจะเป็นการเลือกค่า x โดยที่ \muxi = \max t(\muxi U \text{X} t) สำหรับทุก x, และอีกตัวอย่างได้แก่การใช้ divergence ซึ่งหมายถึงความกว้างของเซตคำนวณโดย \frac{\text{X}\_{max}}{\text{X}\_max} = \frac{\text{X}\_max}{\text{min}} = \text{unarnsh} defuzzied value เป็นตัวแทนของเซตก็สามารถทำได้เช่นเดียวกัน ซึ่งวิธีการ defuzzified ได้มีหลายวิธีใน เอกสารต่างๆ [29]

จากฟัชชี่เชตดังกล่าว ในงานวิจัยนี้ได้แสดงความสัมพันธ์ระหว่างหน่วยคำนวณและค่า ความเป็นไปได้ของการที่หน่วยคำนวณนั้นจะมีคุณลักษณะหนึ่งๆ ด้วยฟัชชี่เซตของคุณลักษณะ (fuzzy set of characteristics) A, โดยกำหนดให้  $\mu_f[\mathfrak{a}] \in [0,1]$ .  $\forall \mathfrak{a} \in A_f$  หมายถึง degree ความเป็นไปได้ในการมีคุณลักษณะ a ของหน่วยคำนวณ f ซึ่งในบทความนี้จะใช้ด้วอย่างของ คุณลักษณะอันได้แก่เวลา (timing attribute) เช่น fuzzy timing attribute สำหรับหน่วย คำนวณ f ได้แก่  $\{\frac{10}{2}, \frac{20}{11}, \frac{35}{11}, \frac{70}{11}, \frac{3}{11}\}$  หมายถึงว่า f สามารถใช้เวลา 10,20,35, หรือ 70 หน่วย เวลาในการประมวลผลด้วยความเป็นไปได้  $\mu_f(10) = .2, \mu_f(20) = .4, \mu_f(35) = 1, \mu_f(70) = .7$  เป็นต้น

### บทที่ 4 Iterative Design Framework

รูปที่ 4.1 แสดงภาพรวมของขั้นตอนการออกแบบแบบ iterative สำหรับการหาการออก แบบที่ใช้เลือกการออกแบบที่เป็นคำตอบที่ต้องการ นักออกแบบอาจจะเลือกตัวแบบเริ่มต้น ที่(initial design configuration) จาก heuristic เช่นจากการจัดลำดับแบบ ALAP (as late as possible) หรือ ASAP (as soon as possible) [8] ในงานวิจัยนี้อัลกอริทึม RCIS ถูกใช้ในขั้น ตอน scheduling และ allocation ในรูปนี้ ซึ่งเป็นอัลกอริทึมที่ให้ค่าคุณลักษณะแบบ imprecise ซึ่งใช้ในการตัดสินต่อไปว่าการออกแบบที่ได้เป็นที่พึงพอใจหรือไม่



รูปที่ 4.1 การหา design solution แบบ iterative

RCIS เป็นอัลกอริทึมการจัดลำดับที่ได้ใช้ข้อมูลความไม่แน่นอนเกี่ยวกับหน่วยคำนวณ มาช่วยในการจัดลำดับ โดยการป้อนอินพุตที่เป็นรูปแบบกราฟแบบ direct acyclic และป้อน จำนวนหน่วยคำนวณที่ต้องการทดลองจัดลำดับลงไป จากนั้นอัลกอริทึมจะให้ตารางการจัด ลำดับเป็นคำตอบ ซึ่งตารางนี้จะแสดงถึงลำดับการทำงานของแต่ละ operation ในกราฟใน หน่วยคำนวณที่กำหนด และคำนวณคุณลักษณะของตารางผลลัพธ์ที่ได้ด้วย จากนั้นคุณลักษณะ ดังกล่าวจะถูกนำไปตรวจสอบกับคำระดับความพอใจที่ได้เซตไว้ (acceptability threshold) หาก น้อยกว่าผู้ออกแบบจะได้ทำการปรับจำนวนและประเภทของหน่วยคำนวณที่มีอยู่และทดลองรัน อัลกอริทึมอีกครั้งต่อไป อนึ่งในการปรับจำนวนและประเภทของหน่วยคำนวณนั้นขึ้นกับลักษณะ ของงานประยุกต์หรือกราฟที่ใช้ด้วย

### บทที่ 5 Register-Constrained Inclusion Scheduling

ในบทนี้จะใต้กล่าวถึงอัลกอริทึม Register-Constraint Inclusion Scheduling (RCIS) ซึ่งอาศัย core อัลกอริทึม inclusion scheduling ตาม Algorithm 5.1 อัลกอริทึมนี้จะทำการ ตรวจสอบคุณลักษณะของตารางจัดลำดับที่ได้โดยพิจารณาถึงปัจจัยการใช้งานรีจิสเตอร์ด้วย

### 5.1 Latency-based Inclusion Scheduling

ใน inclusion scheduling นั้น จะพิจารณาคุณลักษณะแบบพัชชี่ซึ่งได้พิจารณาค่าคุณ ลักษณะด้านเวลาของแต่ละหน่วยคำนวณ สำหรับตารางจัดลำดับผลลัพธ์ที่ได้นั้นจะมีคุณ ลักษณะแบบพัชชี่ด้วย อีกนัยหนึ่งในอัลกอริทึม inclusion scheduling จะใช้การคำนวณทาง คณิตศาสตร์แบบพัชชี่มาช่วยเนื่องจากเวลาของหน่วยคำนวณแต่ละตัวเป็นตัวเลขพัชชี่ ในการบ คำเวลาสะสมแต่ละขั้นตอนจึงต้องใช้การคำนวณทางคณิตศาสตร์แบบพัชชี่นั่นเอง ผลของตัว เลขพัชชี่ที่ได้แสดงถึงคำเวลาที่เป็นไปได้ทั้งของตารางจัดลำดับผลลัพธ์ จุดเด่นของอัลกอริทึมนี้ คือการเลือกที่จะจัดสรร operation ไปยังหน่วยคำนวณหนึ่งๆ ซึ่งจะอาศัย heuristic แบบที่ ทดลองจัดสรรลงไปก่อนและคำนวณคุณลักษณะของตารางผลลัพธ์ที่ได้ และเปรียบเทียบกับการ ทดลองจัดสรรไปยังหน่วยคำนวณอื่นๆที่เหลือ และเลือกตารางผลลัพธ์ที่มีคุณลักษณะที่"ดีที่สุด" จากหลักการง่ายๆ ดังกล่าวนี้ทำให้ได้คุณลักษณะของตารางจัดลำดับผลลัพธ์ที่ละเอียดและใช้ เป็นข้อมูลในการตัดสินใจต่างๆ ได้ เช่นการเลือกใช้ module [4]

```
Algorithm 5.1 Inclusion Scheduling Input: G = (V, \mathcal{E}, \beta). Spec = (F, \mathcal{A}, \mathcal{M}, Q), and N = \#FUs Output: A schedule S, with imprecise latency
```

```
1 Q = vertices in G with no incoming edges
                                                                                                                        finding root nodes
 2 while Q \neq \underline{empty do}
          Q = prioritized(Q)
          u = dequeue(Q); mark u scheduled
          gcod_S = NULL:
          <u>foreach</u> f \in \{f_i : \text{ where } f_i \text{ is able to perform } \beta(u), 1 \leq j \leq N\} \underline{do}
             temp_S = assign\_heuristic(S, u, f)
                                                                                                                          assign u at FU f
             if Eval_Schedule[good_S, temp_S, G, Spec]
               then good_S = temp_S \underline{\mathbf{fi}} od
          S = good\_S
                                                                                                                      keep good schedule
10
          for each v:(u,v) \in E do
11
12
             indegree(v) = indegree(v) - 1
13
             if indegree (v) = 0 then enqueue (Q, v) fined
14 od
15 <u>return</u>[$]
```

อัลกอรีทึม 5.1 นี้ การคำนวณทางฟัชซี่เกิดขึ้นในฟังก์ชัน Eval\_Schedule บรรทัดที่ 8 ซึ่งจะทำการประเมินค่าคุณลักษณะของตารางหลังจากได้จัดสรร operation ให้หน่วยคำนวณ แล้ว และจะทำการเปรียบเทียบว่าดารางที่ได้มีคุณลักษณะดีกว่าดารางอื่น ๆที่ได้ทดลองมาหรือ ไม่ และจดจำตารางที่ดีที่สุดที่พบมาไว้

### Algorithm 5.2 Eval\_Schedule

```
Input: schedules S_{1*}S_{2*}, G = [\mathcal{V}_*\mathcal{E}_*\beta], and Spec = [F_*\mathcal{A}_*\mathcal{M}_*\mathcal{Q}]. Output: 1 if S_1 is better than S_2, 0 otherwise.
```

```
1 // construct a modified graph
 2 G_0 = (V_0, \mathcal{E}_0, \beta) where V_0 = V—{unscheduled nodes}, \mathcal{E}_0 = \emptyset
 3 foreach schedule S_1 = S_1 \text{ to } S_2 \text{ do}
       \mathcal{E}_0 = \{ \{u, v\} : u, v \in \mathcal{V}_0 \} \text{ if } u, v \text{ in same f.u. in } S_1 \}
          and v is immediately after u}
       Sort graph G according to the topological order
 n
       foreach level i of graph G in topological order do
          \#\gamma(u) returns the functional unit binding for u
          u.aur = fuzzyadd\_time[u.attr_attr[\gamma(u)]]
 9
         for each u: v \to u, \forall v \in V_i, do
10
11
            u.attr = hzzvmax\_time[v.attr_u.attr]
         <u>od</u>
12
13
       od
       Let W is a set of leaves in Go.
      // merge all values in quality[$4]
15
       quality[S_1] = fuzzymax\_time[W]
17 od
18 # comparing the overall attributes of both schedules
19 return(compare[quality[S1], quality[S2])]
```

อัลกอริทึม 5.2 เป็นอัลกอริทึม Eval\_Schedule ซึ่งจะทำการเดิม edge ลงไปในกราฟ กลายเป็นกราฟแสดงการจัดลำดับ ถ้าโหนดสองโหนดถูกนำมาจัดลำดับต่อกันและโหนดทั้งสอง ไม่มีความสัมพันธ์กันมาก่อนในกราฟ ดังบรรทัดที่ 4 ดังนั้นตารางจัดลำดับที่ได้จะเป็นอยู่ในรูป ของกราฟอันใหม่นี้ ซึ่งแสดงลำดับการทำงานของแต่ละโหนด สมมดิให้ค่าเวลาของแต่ละหน่วย คำนวณเป็นแบบ discrete การคำนวณในบรรทัดที่ 9 จะอาศัยการกระทำแบบฟัชซี่ตามที่ได้ กล่าวในบทที่ 3 ซึ่งหมายถึงการบวก และบรรทัดที่ 11 หมายถึงการคำนวณ max

เช่นถ้ากำหนดให้ DFG โดยที่  $\mathcal{V}=\{A,B,C\}$ .  $\mathcal{E}=\{A\to C\}$  และ  $\beta(A)=\beta(B)=\beta(C)=$  add. และมีหน่วยคำนวณ  $\mathcal{F}=\{FU_1,FU_2\}$  โดยที่  $FU_1$  มีค่า ลักษณะทางด้านเวลาเป็น  $\{(5,0.05),(10,0.7),(20,0.8),(30,1)\}$  และ  $FU_2$  มีค่าลักษณะทาง ด้านเวลาเป็น  $\{(5,0.05),(15,0.5),(22,0.9),(35,11)\}$  หลังจากทำการจัดลำดับแล้วได้ ว่า A ถูก จัดสรรให้  $FU_1$  และ B ถูกจัดสรรให้  $FU_2$  เพราะถ้าจัดสรร B ให้  $FU_1$  จะได้ตารางที่มีคุณ ลักษณะไม่ดีเท่า และจัดสรร C ให้  $FU_1$  ทำให้ได้ตารางผลลัพธ์ที่มี weight latency 47.9 แต่ ถ้าจัดสรร C ให้  $FU_2$  จะได้ตารางผลลัพธ์ที่มี weight latency 52.5 ดังนั้นดารางนี้จึงเป็นตารางที่ดีกว่า สังเกตว่านี้เป็นเพียงตัวอย่างซึ่งพิจารณาแต่คุณลักษณะทางด้านเวลาเท่านั้น

### 5.2 อัลกอริทิม Register-Constrained Inclusion Scheduling

อัลกอริทึม Register-Constrained Inclusion Scheduling ดังแสดงดังอัลกอริทึม 5.3 จะ แดกต่างจากอัลกอริทึมในรูป 5.1 ในบรรทัดที่ 8 ซึ่งเป็น routine ที่ใช้ประเมินว่าตารางจัดลำดับ ที่ได้ดีหรือไม่เมื่อพิจารณาปัจจัยรีจิสเตอร์มาเกี่ยวข้องแล้ว

```
Algorithm 5.3 Register-Constrained Inclusion Scheduling (RCIS) Input: G = [V_* \mathcal{E}_* \beta]. Spec = [F_* \mathcal{A}_* \mathcal{M}_* \mathcal{Q}], and N = \#FUs
```

Output: A schedule \$, with imprecise latency

```
I/Q = vertices in G with no incoming edges
                                                                                                                            # finding root nodes
  2 while Q \neq \underline{empty do}
           \mathbf{Q} = prioritized[\mathbf{Q}]
           \mathbf{u} = dequeue(\mathbf{Q}): mark \mathbf{u} scheduled
           good_S = NULL;
           <u>foreach</u> f \in \{f_i : \text{where } f_i \text{ is able to perform } \beta(u), 1 \leq j \leq N\} \underline{do}
              temp_S = assign\_heuristic(S, u, f)
                                                                                                                             # assign war LU f
              if Eval_Schedule_with_Reg[good_S_temp_S_G_Spec]
                then 200d_S = temp_S fi od
10
           $ = good_S
                                                                                                                          # keep good schedule
           foreach v: [u, v] ∈ E do
II
1)
              indegree[\mathbf{v}] = indegree[\mathbf{v}] - 1
13
              if indegree |v| = 0 then enqueue |Q, v| is od
14 od
15 return|S|
```

ซึ่งในการพิจารณาปัจจัยรีจิสเตอร์มาเกี่ยวข้องนั้นมีความซับซ้อนอยู่มาก เนื่องจากเวลาของ แต่ละ operation หรือโหนดเป็นรูปแบบของฟัซซี่เซตซึ่งมีค่าฟังก์ชันสมาชิกอยู่ [[4] = ] จะ หมายถึงว่าโหนดนั้นจะใช้เวลา x ด้วย possibility y ดังนั้นเวลาเริ่มต้นการทำงานของโหนดและ เวลาสิ้นสุดการทำงานของโหนดในตารางจัดลำดับนั้นจะมีค่าเป็นรูปแบบฟัซซี่เซตไปด้วย ดังนั้น ในการคำนวณหาเวลาเริ่มต้นและเวลาที่สิ้นสุดการทำงานของโหนดในรูปแบบฟัซซี่นี้ ก็จะอาศัย กราฟจัดลำดับมาช่วย ดังที่ได้อธิบายในหัวข้อที่แล้วถึงการสร้างกราฟจัดลำดับ ต่อไปนี้จะ อธิบายถึงการคำนวณการใช้งานรีจิสเตอร์ในกราฟจัดลำดับ

#### 5.2.1 Imprecise Timing Attribute

ในการคำนวณการใช้งานรีจุ๊สเตอร์แบบดั้งเดิม จำเป็นต้องพิจารณาการ life time ของ แต่ละโหนดในตารางจัดลำดับ แต่เนื่องจากในงานนี้ได้ใช้กราฟจัดลำดับแทน และโหนดแต่ละ โหนดมีเวลาเริ่มต้นและเวลาสิ้นสุดเป็นรูปแบบพัชซี่การคำนวณการใช้งานรีจิสเตอร์ต้อง พิจารณาฟังก์ชันสมาชิกด้วย ต่อนี้จะของนิยาม FST(u) และ FFT(u) ซึ่งหมายถึงพัชซี่เซตของ เวลาเริ่มต้นและฟัชซีเซตของเวลาสิ้นสดการทำงานของโหนด u ก่อน

นิยาม 5.1 กำหนดกราฟ  $G=[\mathcal{V},\mathcal{E},\beta]$  และตารางจัดลำดับ เวลาเริ่มต้นการทำงาน ของโหนด u ในกราฟ ในรูปแบบฟัชซีเซต FST(u) โดยค่าสมาชิก  $\mu_{\text{FST}}$  จะหมาย ถึงว่าโหนด u อาจจะเริ่มดัน ณ เวลา x ด้วย possibility y

สำหรับโหนดซึ่งเริ่มที่เวลา 0 ในแต่ละหน่วยคำนวณ จะให้ FST ใน = 3 ซึ่งเป็นค่า crisp

นิยาม 5.2 กำหนดกราฟ  $G=\{\mathcal{V},\mathcal{E},\beta\}$  และตารางจัดลำดับ เวลาเริ่มต้น รทำงาน ของโหนด u ในกราฟ ในรูปแบบฟัชซีเซต FFT(u) โดยค่าสมาชิก  $^{\text{ILFFT}}$  เมโ $^{\chi}$ ] =  $^{\text{IL}}$  จะหมายถึง ว่าโหนด u อาจจะสิ้นสุดการทำงาน ณ เวลา x ด้วย possibility y

ความหมายของการใช้ตัวเลขพัชซี่เมื่อแทนค่าเวลาเริ่มต้นและเวลาสิ้นสุดเป็นดังรูป 5.1 จะเห็นว่าเวลาเริ่มต้นและเวลาสิ้นสุดเป็นเชตที่มีขอบเขตไม่แน่นอน และอาจจะทับซ้อนกันได้ใน รูป 5.1(b) ด้วย ดังนั้นเมื่อโหนดมีการใช้งานทรัพยากร ณ เวลาหนึ่งๆ จะต้องมีค่า possibility กำกับอยู่ด้วย



รูปที่ 5.1 ค่า FST(u) และ FFT(u) สองกรณี

ปกติแล้วเมื่อคำเวลาในการทำงานเป็นค่า crisp คำเวลาเริ่มดันและเวลาสิ้นสุดจะเป็นทำ ให้เกิดช่วงเวลา life time ระหว่าง [x...y] ซึ่งหมายถึงเวลาที่โหนดต้องการใช้งานรีจิสเตอร์ ระหว่างการคำนวณนั้น ในกรณีนี้เมื่อพิจารณาเป็นค่าฟัชซี่ก็จะทำให้เกิด fuzzy life time ดังนั้น จึงกำหนดให้ค่า fuzzy life time ของโหนด u ประกอบด้วยฟัชซี่เชต 2 เซตได้แก่ FST(u) และ MFFT(u) ซึ่งหมายถึงค่าเวลาเริ่มดันที่มากที่สุดที่เป็นไปได้สำหรับโหนดลูกทุกตัวของ u

สำหรับ FLT(u) กำหนดให้ min\_st เป็นค่าเวลาที่น้อยที่สุดสำหรับ FST(u) เมื่อ [ +-51 - u] > 0 และกำหนดมให้ min\_fin เป็นค่าเวลาสิ้นสุดที่น้อยที่สุดจาก MFFT(u) เมื่อ [ +-M++T - u] > 0 และ max\_fin เป็นค่าเวลาสิ้นสุดที่มากที่สุดจาก MFFT(u) เมื่อ [ +-M++T - u] > 0 สมมดิกำหนดให้ สมาชิกใน FST(u) และ MFFT(u) ถูกเรียงลำดับได้จากค่าเวลาน้อยไปมาก สร้างฟัชซี่เชตอีก

เซตได้แก่ IFST(u) ซึ่งการ map ค่าเวลาที่อยู่ในช่วง [min\_st..max\_st] ไปยังเลขจำนวนจริง [0..1] ซึ่งหมายถึงค่าความเป็นไปได้ที่โหนด u ที่กำลังรันอยู่ ณ เวลา x ที่จะใช้รีจิสเตอร์ เช่น เดียวกับ IMFFT(u) สำหรับ MFFT(u) ตามนิยาม 5.4-5.5

<u>นิยาม 5.4</u> สำหรับกราฟ G → เ≀.៩.№ และตารางจัดลำดับที่กำหนด [min\_st..max\_st] และ FLT(u)

[min\_fin..max\_fin] และ FLT(u)

จากนิยามข้างตัน สมมดิให้ ค่าเวลา a,b ∈FST(u) เมื่อ a < b ถ้าโหนด u เริ่มต้น ณ เวลา a จะได้ว่าโหนด u จะเริ่มต้นแล้ว ณ เวลา b ด้วย สำหรับ MFFT(u) เมื่อ a < b และ a,b ∈MFFT(u) ถ้าโหนด u ได้สิ้นสุดการทำงานไปแล้ว ณ เวลา a จะได้ว่าโหนด u จะก็จะสิ้นสุด การทำงาน ณ เวลา b ด้วยเช่นกัน ดังคุณลักษณะต่อไปนี้

คุณสมบัติที่ 5.1 ค่าความเป็นไปได้สำหรับ IFST(u) ถูกเรียงลำดับจากมากไปน้อย คุณสมบัติที่ 5.2 ค่าความเป็นไปได้สำหรับ IMFFT(u) ถูกเรียงลำดับจากน้อยไปมาก เมื่อได้ IFST(u) และ IMFFT(u) จากนั้นจะทำการรวมเซตทั้งสองเพื่อสร้าง fuzzy interval ด้วยนิยาม 5.6

นิยาม 5.6 สำหรับกราฟ G = (Ѵ.٤.฿) และตารางจัดลำดับที่กำหนด และ IFST(u), IMFFT(u)

คำนวณการใช้รีจีสเตอร์ได้ในแต่ละเวลา

### 5.2.2 การคำนวณการใช้งานรีจิสเตอร์

เมื่อได้ตารางจัดลำดับในรูปแบบของกราฟแล้ว จะต้องทำการคำนวณ FST(u) และ FFT(u) สำหรับ u ∈ V รูปที่ 5.2 แสดงความหมายของ fuzzy life time ตามนิยาท 4.4-4.5 โดย

SA และ FA หมายถึง FST และ FFT ของโหนะ A เซนเคียวกันสำหรับ SB และ FB หมายถึง FST และ FFT ของโหนด B และ fuzzy life time ของโหนด A และ B เป็นดังรูปด้านขวา



รูปที่ 5.2 ความสัมพันธ์ระหว่างโหนดที่ถูกจัดลำดับแล้วและ life time

ในรูปนี้ life time ของโหนด A และ B อาจจะทับซ้อนกันได้ โดยทั่วไปแล้วเมื่อค่าเวลา จะเป็นค่าคงที่ซึ่งไม่ใช่เซต การที่ช่วงเวลาทับซ้อนกันของทั้งสองโหนดหมายถึงว่าณ เวลานั้นจะ ต้องการรีจีสเตอร์ 2 ตัว จากในตัวอย่างนี้คือ ณ เวลาที่ 7 และ 8

เมื่อเวลาในการทำงานเป็นรูปแบบฟัซซี่ กล่องแต่ละกล่องในรูปจะยังคงหมายถึงว่ายัง ต้องการรีจิสเตอร์จำนวนหนึ่งตัวอยู่ แต่ว่าจะต้องมีการคำนวณค่าความเป็นไปได้ในการใช้งานรี จีสเตอร์สำหรับแต่ละช่วงเวลาด้วย ซึ่งหมายถึงว่า ณ เวลานั้นโหนดอาจจะไม่ได้รันอยู่จริงก็ได้ เช่น โหนดนั้นอาจจะเริ่มหลังจากนั้น หรืออาจจะทำงานเสร็จสิ้นไปแล้ว นั่นคือหมายถึงว่าความ เป็นไปได้ที่โหนดจะไม่ใช้รีจิสเตอร์ ณ เวลานั้น อีกนัยหนึ่งมีโอกาสเป็นไปได้ที่รีจิสเตอร์อาจจะมี การถูกใช้ร่วมกันกับโหนดอื่น พิจารณาการทับซ้อนในรูปที่ 5.2 ณ เวลาที่ 7 อาจจะมีการใช้ รีจิส เตอร์หนึ่งตัวหรือสองตัวก็ได้ ทั้งนี้ขึ้นอยู่กับว่าความสัมพันธ์  $A \to B$  เกิดขึ้นหรือไม่ ถ้า  $A \to B$  เกิดขึ้นตามกราฟ DFG หมายถึงว่าจำนวนรีจิสเตอร์ที่ใช้จะเป็นได้แค่หนึ่งเท่านั้น ซึ่งกรณีนี้เชต IFLT(A) และ IFLT(B) จะมีผลการอินเตอร์ไม่เท่ากับเซตว่าง แต่ถ้า โหนดทั้งสองไม่สัมพันธ์กัน จำนวนรีจิสเตอร์ที่ต้องการอาจจะเป็นสองตัวก็ได้แม้ว่าเซต IFLT(A) และ IFLT(B) จะมีผลการ อินเตอร์ไม่เท่ากับเซตว่าง ซึ่งทั้งสองกรณีนี้ก็ต้องถูกนำมาพิจารณาในระหว่างการคำนวณการใช้ งานรีจิสเตอร์

#### 5.2.3 อัลกอริทึม

อัลกอริทึม 5.4 อธิบายถึงการคำนวณค่าเวลาแบบ fuzzy และการคำนวณการใช้งานรี จิสเตอร์จากกราฟจัดลำดับ ซึ่งอัลกอรึทึมนี้สามารถใช้ในบรรทัดที่ 8 ของอัลกอริทึม 5.3 ได้

ในอัลกอริทึมนี้บรรทัดที่ 6 จะเรียกอัลกอริทึม 5.5 เพื่อคำนวณการ life time ของโหนด แบบฟัชซี่และหาจำนวนการใช้งานรีจิสเตอร์สูงสุดของตารางจัดลำดับนี้ ซึ่งการใช้งานรีจิสเตอร์ของตารางนั้นจะถูกเก็บไว้ใน Reg[S<sub>i</sub>] สำหรับตาราง S<sub>i</sub> และ จากนั้นจะคำนวณเวลาที่ใช้ทั้งหมด ของตารางนี้ ซึ่งหลังจากเรียกอัลกอริทึม 5.5 แล้วก็จะได้ค่าเวลาของแต่ละโหนดทั้งหมดใน

กราฟออกมา ดังนั้นเวลาที่ใช้ทั้งหมดของตารางนี้จะได้มาจากการใช้ตัวดำเริ่มการแบบฟัชซี่ สำหรับ max โดยกระทำกับเวลาสิ้นสุดของทุกโหนดในกราฟจัดลำดับที่เป็น leat ในบรรทัดที่ 9 จะทำการรวมค่าเวลาและการใช้งานรีจิสเตอร์เข้าด้วยกันโดยอาศัย heuristic function คาใหมที่ ได้จะเรียกว่าเป็นคุณภาพของกราฟจัดลำดับดังกล่าว ซึ่งก็จะถูกนำมาเปรียบเทียบสำหรับแต่ละ ตารางจัดลำดับที่ได้ในแต่ละรอบเพื่อเก็บตารางที่ดีที่สุดที่หามาได้ต่อไป

```
Algorithm 5.4 Eval Schedule with Reg
      Input: schedules S_1, S_2, G = (V, \mathcal{E}, \beta), and Spec = (F, \mathcal{A}, \mathcal{M}, \mathcal{Q})
      Output: 1 if S_2 is better than S_2, 0 otherwise.
           I \cdot \mathsf{Go} = (\mathcal{V}_0, \mathcal{E}_{0,n}\beta) where \mathcal{V}_0 = \mathcal{V} - \{\mathsf{unscheduled nodes}\}_n \mathcal{E}_0 = \emptyset
           2 foreach schedule S. = Sr to S2 do
                 \mathcal{E}_0 = \{(\mathbf{u}, \mathbf{v}) : \mathbf{u}, \mathbf{v} \in \mathcal{V}_0, \text{ if } \mathbf{u}, \mathbf{v} \text{ in same f.u. in } S\}
                     and y is immediately after u.
                 Calculate register usage for C_0 using Algorithm 4.3
                 Let W is a set of leaves in Go
                 latency 💆 = fuzzymax_time[W]
                 quality[S_{-}] = Combine([latency[S_{-}], Reg[S_{-}])
          10 od
          12 # comparing the overall attributes of both schedules
          13 return[compare] quality[Sq], quality[Sq]]
Algorithm 5.5 Calculate Register Count
     Input: Scheduled Graph G_0 for schedule S and, original DFG G = (V, \mathcal{E}, \beta) Spec = (F, A, \mathcal{M}, Q)
     Output: Reg 5 contains register counts needed and its possibility

    Calculate FLT(u) ∀u ∈ Go by Definition 4.3

    Calculate IFLT(u) ∀u ∈ G<sub>0</sub> by Definitions 4.4–4.5

           3 Let max_es be max, finished time, ∀u ∈ G<sub>0</sub>
           4 for cs = \frac{1}{10} max cs do
                  (RegAt[cs], reg, RegAt[cs], poss) = Count[Node(IFLT[cs], G_0)] od
           6 Yn FRegin = 0
           7 for cs = 1 to max_cs do
                  FReg RegAties reg reg = RegAties reg
                  FReg RegAt es reg poss =
                 max(FReg RegAt[cs]_reg] poss, RegAt[cs] poss) od
        12 Reg S - FReg
```

ในอัลกอริทึม 5.5 RegAt จะเก็บค่าจำนวนรีจิสเตอร์ที่มากที่สุดที่ต้องการ ณ แต่ละเวลา cs รวมทั้งเก็บค่าความเป็นไปได้ ค่าทั้งสองจะถูกคำนวณด้วยอัลกอริทึม 5.6 Count\_Node บรรทัด 7-10 จะคำนวณจำนวนรีจิสเตอร์ทั้งหมดที่ต้องการและค่าความเป็นไปได้

#### Algorithm 5.6. Count Node

Input: in Line es

Output: # registers needed and its possibility at @

```
I node_set == [nodes occupy reg at cs]

    set Gr in topological order

    Let sorted_node be node_set sorted in by sorted Go

 1 pass - 0, reg - 0
 5 Yi E sorted node, Lok = FALSE i.count = FALSE
 o for every i ∈ sorted_node do
       for j = i + 1 to last node in scrted node do
           if Lok = TRUE and Leount = FALSE
                  reg + +: poss = max[poss, \mu_{\mathbf{E}_{a}}]
10
                   LCOUNT - TRUE fi
           i\underline{f}\ FindPath(i_\bullet j)
13
11
             then j.ok = FALSE # don't count descendant fi
15
       Let j be the last node in sorted_node
16
       \underline{if} j.ok = TRUE
JA
         then
               reg + +: poss = max(poss, \mu p : u (es)
              j.count == TRUE fi
20
22 return (reg. poss)
```

ในอัลกอริทึม 5.6 จะเป็นเพียง heuristic ที่ใช้ในการพิจารณาหาโหนดที่เป็น ancestor ณ เวลาหนึ่งๆ โดยสมมติให้ ancestor นั้นทำงานเสร็จก่อนโหนดลูกก่อนที่โหนดลูกจะเริ่ม ทำงานได้ ตัว flag ok ใช้บอกว่าโหนดควรจะถูกนับไปด้วยหรือไม่ ณ เวลานั้น ถ้ามีโหนดที่เป็น ลูกหรือหลานของโหนดที่รันอยู่ ณ เวลาเดียวกัน flag จะถูกเซดเพื่อบอกว่าจะไม่นับโหนดลูก หรือหลานนั้นๆ ไปด้วย เนื่องจากดารางจัดลำดับนี้ประกอบด้วยทุกโหนดในกราฟ โหนดลูกหรือ หลานนั้นก็จะถูกนับรวมไปด้วยในที่สุด ค่า reg และ poss บอกถึงจำนวนที่นับได้ทั้งหมดและค่า ความเป็นไปได้สูงสุด บรรทัดที่ 3 โหนที่อยู่รันอยู่ ณ เวลานี้ซึ่งจะถูกเรียงลำดับตามลำดับของ topological order 1 และอัลกอริทึมจะนำโหนดออกมาจากลิสต์ที่เรียงลำดับแล้วที่ละดัวมา พิจารณาว่าโหนดโหนดนั้นมีความสัมพันธ์กับโหนดอื่นในลิสต์หรือไม่โดยฟังก์ชัน Find\_Path ใน บรรทัดที่ 13

ถ้าพิจารณาเวลาในการทำงานทั้งหมดของอัลกอริทึมนี้จะได้ว่า เวลาที่ใช้ส่วนใหญ่จะอยู่ ที่บรรทัด 6-21 ซึ่งคือ <sup>OllV]-[I][]</sup> สำหรับ DAG และฟังก์ชัน Find\_Path ใช้เวลา OllV] - [I][

ในอัลกอริทึม 5.5 การคำนวณ FLT(u) ขึ้นกับว่า FST(u) และ MFFT(u) เป็นเชตมี จำนวนสมาชิกเท่าไร ถ้าให้ N₁ เป็นจำนวนสมาชิกของ FST(u) และ MFFT(u) บรรทัดที่ 1-2 จะ ใช้เวลาในการคำนวณเท่ากับ O(N IVIEIT และการคำนวณสำหรับ IFLT(u) จะอาศัยลูปซ้อนลูป เท่านั้น ดังนั้น อัลกอริทึม 5.5 รันในเวลาฟังก์ชันโพลิโนเมียล

# บทที่ 6 ตัวอย่างการทำงานของ Register-Constrained Inclusion Scheduling

หลังจากได้รวมอัลกอริทึมทั้งหมดเข้าด้วยกัน เมื่อลา เริทึม RCIS แล้ว ต่อไปนี้จะนำเสนอตัว อย่างการคำนวณ FLT และตารางจัดลำดับ

พิจารณากราฟในรูป 6.1 สมมดิว่ามีหน่วยคำนวณแบบ general purpose อยู่ 4 ตัว โดยให้ FU1, FU3 มีลักษณะเหมือนกัน และ FU2, FU4 มีลักษณะเหมือนกันเช่นกันดังดาราง 6.1 ใน รูปคอลัมน์ (lat,poss) แสดงถึงเวลาและค่าความเป็นได้ของเวลานั้นถ้าโหนดมารันในหน่วย คำนวณดังกล่าว



รูปที่ 6.1 กราฟตัวอย่าง

| FUs     | (lat.poss) |      | (lat | (lat.poss) |     | .poss) | (lat,poss) |      |
|---------|------------|------|------|------------|-----|--------|------------|------|
|         | lat        | poss | lat  | poss       | lat | poss   | lat        | poss |
| FULFU3  | 5          | 0.05 | 10   | l          | 15  | 0,9    | 23         | 0.1  |
| FU2.FU4 | 7          | 0.5  | 12   | 0.7        | 17  | 1      | 29         | 0.05 |

ตารางที่ 6.1 แสดงคุณลักษณะของหน่วยคำนวณ

กำหนดให้ระบบที่ต้องการมีคุณลักษณะดังรูปที่ 6.2 โดยแกนรีจิสเตอร์อยู่ระหว่าง [1..7] และค่าเวลาอยู่ในช่วง [1..200] ซึ่งในรูปนี้ได้ใช้ weighted sum เช่นเดียวกับสมการ (2.1) เมื่อ กำหนดสัดส่วน (latency:register count)=1:10

ในจากบทที่แล้วรูป 6.3 (a) แสดงตารางจัดลำดับที่ได้และสังเกตว่า FU1 และ FU3 จะ เป็นหน่วยคำนวณที่น่าใช้มากกว่า ในการคำนวณ FST(u) สมมดิให้โหนดเริ่มต้นทำงานได้เร็วที่ สุดเท่าที่จะทำได้ พิจารณาโหนด B ในดาราง รูป 6.4 (a) แสดง FLT(A) และ MFFT(A) รูป 6.5(b) แสดง FLT(B) สำหรับ FST(A) ค่าความเป็นไปได้ ณ เวลา x หมายถึงค่าความเป็นไปได้ที่โหนด A จะใช้รีจิสเตอร์หนึ่งตัว ณ เวลา x (จากรูปสี่เหลี่ยมในตาราง) เช่น กันสำหรับ MFFT(A) จะหมายถึงค่าความเป็นไปได้สำหรับโหนด A ที่จะสิ้นสุด ณ เวลา x สำหรับทั้งสอง โหนด A และ B ที่ไม่ขึ้นแก่กัน รูป 6.5 เปรียบเทียบ FLT(A) และ FLT(B) จะพบว่า FST(B) จะ ทับซ้อนกับ MFFT(A) รูป 6.6 แสดง FLT สำหรับทุกโหนด

ค่า register count และค่าความเป็นไปได้ ณ เวลาต่างๆ แสดงในรูปที่ 6.7 จากรูปสรุป ได้ว่าการใช้งานรีจีสเตอร์เป็นดังนี้ (1,0.1) และ (2,1) ซึ่งหมายถึงว่าบางครั้งอาจจะมีการใช้ จำนวนรีจิสเตอร์เพียง 1 ตัวด้วยความเป็นไปได้ 0.1 และค่าเวลาสิ้นสุดที่มากที่สุดที่เป็นไปได้ จากตารางจัดลำดับนี้ได้แก่ 92 ด้วยความเป็นไปได้ 0.1 พิจารณา weighted sum ของเวลาทั้ง หมดที่ใช้และการใช้งานรีจิสเตอร์เป็น 79.53 ซึ่งค่าเฉลี่ยของเวลาอยู่ที่ 52 เปรียบเทียบเงื่อนไข

ค้านเวลาในรูป 6.2 แล้วพบว่าถ้าเวลาที่ใช้ทั้งหมดของตารางจัดลำดับเป็น 52 และใช้จำนวนรีจิส เตอร์เป็น 2 ตัวจะได้ acceptability degree เท่ากับ 0.76 ซึ่งจะเห็นว่าค่าความพึงพอใจดังกล่าว ใกล้เคียงกับที่ได้เมื่อใช้ inclusion scheduling ซึ่งได้เวลาทั้งหมดเป็น 41 ก็จะได้ acceptability degree 0.76 เช่นกัน ซึ่งในกรณีนี้จะใช้จำนวนรีจิสเตอร์เท่ากับ 3 ตัว ตารางนี้เป็นดังรูป 6.3(b)



รูปที่ 6.2 System Specification สำหรับกราฟตัวอย่าง

| FU1 | FU2 | FU3 | FU4 | Ι. |     |          |     |     |  |  |
|-----|-----|-----|-----|----|-----|----------|-----|-----|--|--|
|     | 10- |     |     | П  | FU1 | FU2      | FU3 | FU4 |  |  |
| A   | -   | E   | -   | Н  | Α   | F        | Е   | _   |  |  |
| F   | -   | C   |     | П  | _   | <b>'</b> | -   | '   |  |  |
| G   |     | D   |     | П  | G   | -        | C   |     |  |  |
| ٠   | ١.  |     |     | П  | В   |          | D   | -   |  |  |
| B   | -   | -   | -   | ľ  |     |          |     |     |  |  |
|     | (8  |     |     | •  | (b) |          |     |     |  |  |
|     | (8  | ,   |     |    |     |          |     |     |  |  |

รูปที่ 6.3 (a) ตารางจัดลำดับที่ได้จาก RCIS (b) ตารางจัดลำดับที่ได้ inclusion scheduling





รูปที่ 6.5 FLT (A) และ FLT(B)



รูปที่ 6.6 FLT สำหรับทุกโหนดในกราฟ (a) FST (b) MFFT



รูปที่ 6.7 Register count และค่าความเป็นไปได้ ณ เวลาต่าง ๆ

หากเดิมโหนดเข้าไปในกราฟอีก เป็นกราฟใหม่ดังรูป 6.8 และใช้ system specification เช่นเดิมและลักษณะทางหน่วยคำนวณเหมือนเดิม RCIS จะให้ตารางซึ่งใช้เวลาเฉลี่ยทั้งหมด 57 และจำนวนรีจิสเตอร์ที่ใช้ทั้งหมดเท่ากับ 2 ตัว ทำให้ได้ acceptability degree เท่ากับ 0.74 เทียบกับ inclusion scheduling ซึ่งให้ค่าเฉลี่ยเวลาเท่ากับ 37 และใช้จำนวนรีจิสเตอร์ทั้งหมด เท่ากับ 4 ตัวที่ให้ค่า acceptability degree เท่ากัน



รูปที่ 6.8 กราฟใหม่เมื่อเติมโหนดเข้าไป

# บทที่ 7 ผลการทดลอง

ในที่นี้พิจารณาผลการทดลอง โดยการสำรวจการออกแบบสำหรับ benchmark Discrete Cosine Transform (DCT) [12] และ Volter filter [8]

#### 7.1 Discrete Cosine Transform

ตัวอย่าง DCT นี้ประกอบด้วย 48 โหนด ซึ่งสมมติให้แต่ละหน่วยคำนวณมีลักษณะดังในตา ราง 7.1 และ system specification เป็นดังรูป 7.1 โดยให้แกนรีจิสเตอร์อยู่ในช่วง [1..12] และ แกนเวลาอยู่ในใช่วง [1..500] ตาราง 7.2 แสดงผลการทดลองโดยเปรียบเทียบกรณีต่างๆ ของ จำนวนหน่วยคำนวณที่ต่างๆ กัน คอลัมน์ RCIS และ IS แสดงการเปรียบเทียบการทำงานของ ตารางที่ได้จากอัลกอริทึม RCIS และ inclusion scheduling แถว Avg Latency แสดงถึง weighted sum ของ latency เพียงอย่างเดียว แถว Max Reg แสดงจำนวนรีจิสเตอร์สูงสุดที่ ต้องการ แถว acceptability แสดง ค่า acceptability degree ของค่า (Avg Latency,Max Reg) แถว Max Latency แสดงค่าเวลาที่มากที่สุดที่เป็นไปได้ และแถว Avg Weight แสดงค่า weighted sum ของ RCIS และ IS โดยสำหรับ RCIS  $w_1$ =1 และ  $w_2$  = 10 สำหรับ IS ค่านี้จะ เหมือนกันกับค่าในช่อง Avg Latency เนื่องจาก IS จะพิจารณาการลดค่าเวลาเป็นหลัก ตาราง 7.3-7.4 แสดงค่าความเป็นไปได้ของการใช้รีจิสเตอร์แต่ละจำนวนสำหรับ RCIS และ IS ซึ่งจะ พบว่า IS จะพยายามลดค่าเวลาที่ใช้ทั้งหมดของตารางจัดลำดับโดยไม่คำนึงถึงการใช้งานรีจิส เตอร์ ซึ่งจากตารางทั้งหมดสรุปได้ว่า RCIS จะให้ค่า acceptability degree ที่เท่าๆ กับ IS หรือ ดีกว่า โดยพิจารณาการใช้งานรีจิสเตอร์ ทำให้ใช้งานรีจิสเตอร์ไปประหยัดกว่ามากถึง 37 % ใน กรณีการออกแบบโดยใช้ adder 7 ตัว และ multiplier 5 ตัว ซึ่งจากกรณีต่างๆ ที่ทดลองทั้งหมด พบว่ากรณี การใช้ adder 5 ตัว และ multiplier 4 ตัว เป็นกรณีที่ให้ค่า acceptability degree สูง สุด ในการทดลองทั้งหมดดังกล่าว การทดลองที่ใช้เวลานานที่สุดได้แก่ กรณีที่ใช้ adder 7 ตัว และ multiplier 5 ตัว โดยใช้เวลาทั้งหมดประมาณ 1 นาที่ 50 วินาที่ บนเครื่อง Pentium IV 1.8 GHz 1GB RAM

| FU's       | (lat.poss) |      | (lat,poss) |      | (lat | ,poss) | (lat,poss) |      |
|------------|------------|------|------------|------|------|--------|------------|------|
|            | .lat       | poss | lat        | poss | lat  | poss   | lat        | poss |
| Adder      | .5         | 0.05 | 10         | 1    | 15   | 0.9    | 23         | 0.1  |
| Multiplier | 7          | 0.5  | 12         | 0.7  | 17   | 1      | 29         | 0.05 |

ตารางที่ 7.1 ลักษณะของ adder และ multiplier

|               | 5 adds | 4 muls | 6 adds 4 muls |      | 6 adds 5 muls |       | 7 adds 4 fra s |       | = idds 5 muls |       |
|---------------|--------|--------|---------------|------|---------------|-------|----------------|-------|---------------|-------|
|               | RCIS   | IS     | RCIS          | 18   | RCIS          | IS    | RCIS           | 15    | RCIN          | - 21  |
| Avg Latency   | 122    | 111    | 132           | 98   | 117           | 99    | 124            | i     |               | 1+4   |
| Max Reg       | 6      | 8      | 7             | 10   | 8             | 10    | 7              | 10    | -             | 11    |
| Acceptability | 0.719  | 0.704  | 0.69          | 0.69 | 0.694         | 0.691 | 0.699          | 0.683 | 0.691         | 0.683 |
| Max Latency   | 226    | 252    | 296           | 224  | 213           | 197   | 255            | 226   | 230           | 179   |
| Avg Weight    | 188    | 111    | 198           | 98   | 206           | 99    | 210            | 104   | 209           | 94    |

ตารางที่ 7.2 ผลการทดลองของ DCT เปรียบเทียบ RCIS และ IS สำหรับจำนวนหน่วยคำนวณต่าง ๆ กัน



รูปที่ 7.1 system specification ของ DCT

| #reg | 2 3 |   | 4   | 5   | 6 | 7 |
|------|-----|---|-----|-----|---|---|
| poss | 0.1 | 3 | 0.1 | 0.1 | 1 | 1 |

ตารางที่ 7.3 ค่าความเป็นไปได้สำหรับการใช้งานจำนวนรีจิสเตอร์ต่าง ๆ กัน สำหรับ กรณี adder 7ตัว และ multiplier 5 ตัว ของ RCIS

| #reg | 2    | 4    | 5 | 6    | 7 | 8   | 10 | 11 |
|------|------|------|---|------|---|-----|----|----|
| poss | 0.05 | 0.05 | 1 | 0.05 | 1 | 0.1 | 1  | 1  |

ตารางที่ 7.4 ค่าความเป็นไปได้สำหรับการใช้งานจำนวนรีจิสเตอร์ต่าง ๆ กัน สำหรับ กรณี adder 7ตัว และ multiplier 5 ตัว ของ IS

#### 7.2 Volter Filter

ใน benchmark นี้ประกอบด้วย 27 โหนดโดย 10 โหนดเป็นโหนดที่ต้องการหน่วย adder และ ที่เหลือต้องการ multiplier สมมดิให้ระบบประกอบด้วย adder และ multiplier ที่มี ลักษณะเช่นเดียวกับในการทดลองแรก กำหนด system specification เป็นดังรูป 7.2 โดยให้แก นรีจิสเตอร์อยู่ในช่วง [1..7] และแกนเวลาอยู่ในใช่วง [200..700] เนื่องจากลักษณะของกราฟ ประกอบด้วยโหนดที่ต้องการ multiplier มากและโหนดเหล่านี้ส่วนใหญ่ไม่ขึ้นแก่กัน จึงทำให้การ จะมีทำให้ได้ดารางจัดลำดับที่ใช้เวลาลดลง เพิ่มจำนวน สมมติให้พิจารณา multiplier acceptability threshold เท่ากับ 0.8 และ  $w_1$ =1 และ  $w_2$  = 10 โดย RCIS พยายามจะสร้างตา รางซึ่งลดค่า weighted sum ของค่าเวลาและการใช้งานรีจิสเตอร์ w<sub>1</sub>x+ w<sub>2</sub> y เมื่อ x,y เป็นค่า เวลาและจำนวนรีจิสเตอร์ของตารางที่ได้ตามลำดับ รูปที่ 7.4 แสดง acceptability degreeที่ได้ สำหรับแต่ละการออกแบบสำหรับ RCIS เมื่อได้เพิ่มจำนวนหน่วยคำนวณจะพบว่าเวลาที่ใช้ของ ตารางจัดลำดับที่ได้จะลดลงด้วย จนถึงกรณีเมื่อเพิ่ม multiplier เป็น 4 ตัวหรือมากกว่า RCIS จะให้ดารางจัดลำดับที่ให้ค่า acceptability degree 0.84 ซึ่งมากกว่า acceptability threshold 0.8 ที่ต้องการ และเมื่อตรวจสอบตารางจัดลำดับก็จะพบว่าการเพิ่ม multiplier ต่อไปจะทำให้ค่า acceptability degree ลดลงด้วยเนื่องจากจะมีการใช้งานจำนวนรีจิสเตอร์ที่มากขึ้น ซึ่งต่างจาก IS ที่จะะพยายามเพิ่มจำนวน multiplier โดยไม่คำนึงถึงจำนวนรีจิสเตอร์ที่เพิ่มขึ้นตามว่าจะมีผล กระทบกับ acceptability degree ที่ลดลงไป

จากผลการทดลอง จะพบว่า RCIS จะให้การออกแบบผลลัพธ์ที่ดีกว่าโดยใช้จำนวนรีจิส เตอร์น้อยกว่า สำหรับเวลาในการทำงาน กรณีที่ช้าที่สุดในการทดลองชุดนี้ใช้เวลา 2.8 วินาที นั่นคือกรณี adder 1 ตัว และ multiplier 5 ตัว



รูปที่ 7.2 System Specification ของ Voltera filter

|               | 1 add . | 2 muls | Ladd | Smils | 1 add | 4 muls | Ladd: | 5 muls |
|---------------|---------|--------|------|-------|-------|--------|-------|--------|
|               | RCIS    | IS     | RCIS |       | RCIS  | IS     | RCIS  | 18     |
| Avg Latency   | 308     | 3()()  | 267  | 270   | 260   | 260    | 260   | 246    |
| Max Reg       | 2       | 2      | 3    | 3     | 4     | 4      | 1     | 5      |
| Acceptability | 0.78    | 0.80   | 0.84 | 0.84  | 0.84  | 0.84   | 0.84  | 0.84   |
| Max Latency   | 561     | 561    | 474  | 477   | 445   | 445    | 445   | 416    |

## ตารางที่ 7.5 ผลการทดลองของ Voltera filter เปรียบเทียบ RCIS และ IS สำหรับจำนวน หน่วยคำนวณต่าง ๆ กัน



รูปที่ 7.3 ค่า acceptability degree ของแต่ละการออกแบบ

## บทที่ 8 สรุปผล

ในงานวิจัยนี้ได้นำเสนอ framework เพื่อสำรวจการออกแบบโดยพิจารณาถึงปัจจัย ความไม่แน่นอน โดย framework นี้ได้อ้างอิงถึงการจัดลำดับ RCIS ซึ่งได้พิจารณาความไม่แน่ นอนใน system specification และเงื่อนไข ซึ่งจะพยายามที่จะสร้างตาราจัดลำดับที่ใช้เวลาใน การทำงานน้อยที่สุดและมีการใช้งานรีจิสเตอร์น้อยที่สุด framework ดังกล่าวได้สามารถนำไปใช้ ในการสร้างการออกแบบภายใต้ปัจจัยความไม่แน่นอนด่างๆ และเลือกตัวออกแบบที่เหมาะสม ยอมรับได้ภายใต้เงื่อนไขเวลาและการใช้งานรีจิสเตอร์ ในงานวิจัยนี้ได้ทดสอบผลการออกแบบที่ เลือกโดยใช้ benchmark Discrete Cosine Transform และ Voltera filter ซึ่งพบว่าจะให้ผลการ ออกแบบที่เหมาะสมตามระดับความพึงพอใจที่ต้องการได้

## เอกสารอ้างอิง

- [1] I. Ahmad, M. K. Dhodhi, and C.Y.R. Chen. Integrated scheduling, allocation and module selection for design- space exploration in high-level synthesis. *IEEE Proc.-Comput. Digit. Tech.*, 142:65.71, January 1995.
- [2] Cagdas Akturan and Margarida F. Jacome. RS-FDRA a register sensitive software pipelining algorithm for embedded VLIW processors. *IEEE Transactions on Computer Aided Design of Integrated Circuits and Systems*, 12(21):1395.1415, December 2002.
- [3] C. Chantrapornchai, E. H. Sha, and X. S. Hu. Efficient scheduling for imprecise timing based on fuzzy theory. In *Proceedings of Midwest Symposium on Circuits and Systems*, pages 272.275, 1998.
- [4] C. Chantrapornchai, E. H. Sha, and X. S. Hu. Efficient algorithms for Finding highly acceptable designs based on module-utility selections. In *Proceedings of the Great Lake Symposium on VLSI*, pages 128.131, 1999.
- [5] C. Chantrapornchai, E. H-M. Sha, and X. S. Hu. Efficient module selections for Finding highly acceptable designs based on inclusion scheduling. *J. of System Architecture*, 11(4):1047.1071, 2000.
- [6] C. Chantrapornchai, E. H-M. Sha, and Xiaobo S. Hu. Efficient acceptable design exploration based on module utility selection. *IEEE Trans. on Computer Aided Design of Integrated Circuits and Systems*, 19:19.29, Jan. 2000.
- [7] C. Chantrapornchai, W. Surakumpolthorn, and E.H. Sha. Efficient scheduling for design exploration with imprecise latency and register constraints. In Lecture Notes in Computer Science! 2004 International Conference on Embedded and Ubiquitous Computing (EUC), pages 259.270, 2004.
- [8] C. Chantrapornchai and S. Tongsima. Resource estimation algorithm under impreciseness using inclusion scheduling. *Intl. J. on Foundation of Computer Science*, *Special Issue in Scheduling*, 12(5):581.598, 2001.
- [9] S. Chaudhuri, S. A. Bylthe, and R. A Walker. An exact methodology for scheduling in 3D design space. In *Proceedings of the 1995 International Symposium on System Level Synthesis*, pages 78.83, 1995.
- [10] S. Chaudhuri and R. Walker. Computing lower bounds on functional units before scheduling. In *Proceedings of the International Symposium on System Level Synthesis*, pages 36.41, 1994.

- [11] A. Dani, V. Ramanan, and R. Govindarajan Register-sensitive software pipelining. In *Proceedings, of the Merged 12th International Parallel Processing and 9th International Symposium on Parallel and Distributed Systems*, pages 194.198, April 1998.
- [12] M. K. Dhodhi, F. H. Hielscher, R. H. Storer, and J. Bhasker. Datapath synthesis using a problem-space genetic algorithm. *IEEE Transactions on Computer-Aided Design of Integrated Circuits and Systems*, 14(8):934.944, August 1995.
- [13] A. Eichenberger and E. S. Davidson. Register allocation for predicated code. In *Proceeding of MICRO*, 1995. [14] Alexandre E. Eichenberger and Edward S. Davidson. Stage scheduling: A technique to reduce the register requirements of a modulo schedule. In *Proceedings of MICRO-28*, pages 338.349, 1995.
- [15] H. Esbensen and E. S. Kuh. Design space exploration using the genetic algorithm. In *Proceedings of the 1996 International Symposium on Circuits and Systems*, pages 500.503, 1996.
- [16] F.Chen, S. Tongsima, and E. H. Sha. Loop scheduling algorithm for timing and memory operation minimization with register constraint. In *Proceedings of SiP'98*, 1998.
- [17] K. Gupta. Introduction to fuzzy arithmetics. Van Nostrand, 1985.
- [18] O. Hammami. Fuzzy scheduling in compiler optimizations. In *Proceedings of the ISUMA-NAFIPS*, 1995.
- [19] I. Karkowski. Architectural synthesis with possibilistic programming. In *HICSS-28*, January 95.
- [20] I. Karkowski and R. H. J. M. Otten. Retiming synchronous circuitry with imprecise delays. In *Proceedings of the 32nd Design Automation Conference*, pages 322.326, San Francisco, CA, 1995.
- [21] A. Kaufmann and M. M. Gupta. Fuzzy mathematical models in engineering and management science. North-Holland, 1988.
- [22] A. S. Kaviani and Z. G. Vranesic. On scheduling in multiprocessor systems using fuzzy logic. In *Proceedings of the International Symposium on Multiple-valued Logic*, pages 141.147, 1994.
- [23] J. Lee, A. Tiao, and J. Yen. A fuzzy rule-based approach to real-time scheduling. In *Proceedings of Intl. Conf. FUZZ-94*, volume 2, 1994.
- [24] Josep Llosa, Eduard Ayguade, Antonio Gonzalez, Mateo Valero, and Jason Eckhardt. Lifetime-sensitive modulo scheduling in a production environment. *IEEE Transactions on Computers*, 50(3):234.249, 2001.

- [25] Josep Llosa, Mateo Valero, and Eduard Ayguade. Heuristics for register-constrained software pipelining. In *International Symposium on Microarchitecture*, pages 250.261, 1996.
- [26] C. A. Mandal, P. O. Chakrabarti, and S. Ghose. Design space exploration for data path synthesis. In *Proceedings of the10th International Conference on VLSI Design*, pages 166.170, 1996.
- [27] K. Mertins et al. Set-up scheduling by fuzzy logic. In *Proceedings of the International Conference on ComputerIntegrated Manufacturing and Automation Technology*, pages 345.350, 1994.
- [28] J. Rabaey and M. Potkonjak. Estimating implementation bounds for real time DSP application specific circuits. *IEEE Transactions on Computer-Aided Design of Integrated Circuits and Systems*, 13(6), June 1994.
- [29] T. J. Ross. Fuzzy Logic with Engineering Applications. McGrawHill, 1 edition, 1995.

## ภาคผนวก ผลงานตีพิมพ์ใน LNCS 3207 และ LNCS 3321

LNCS 3207

# Embedded and Ubiquitous Computing

International Conference, EUC 2004 Aizu-Wakamatsu City, Japan, August 2004 Proceedings





:.

| Non-uniform Set-Associative Caches for Power-Aware Embedded Processors | 207 Mindes Ad Hoc Networks | n Integrated Multichannel Selection and Dynamic Power Control | rack 3: Power-Aware Computing | Nitin Auluck, Dharma P. Agrawal | or Precedence Constrained Hard<br>eneous Multiprocessors | Satoshi Yamane, Takashi Kanatani | Yookun Cho  Reductive Probabilistic Verification Methods for Embedded | Amparison of Tie-Breaking Policies for Real-Time Scheduling  n Multiprocessor                 | Virtual Reality Based System for Remote Maintenance of Rotating Machinery                         | Providing Protected Execution Environments for Embedded  Decrating Systems Using a \( \mu\)-Kernel | Sachwa Kim, Michael Buettner, Mark Hermeling,  Seongsoo Hong | Experimental Assessment of Scenario-Based Multithreading for Real-Time Object Oriental Model | A Mobile Way-Finding Application Controlling Internet-Distributed Signaling Devices via LAN Concento | Alternative CPU Core Organizations | Component Composition Tools: Process Call Scheduling According to the Priority in Connector |   |
|------------------------------------------------------------------------|----------------------------|---------------------------------------------------------------|-------------------------------|---------------------------------|----------------------------------------------------------|----------------------------------|-----------------------------------------------------------------------|-----------------------------------------------------------------------------------------------|---------------------------------------------------------------------------------------------------|----------------------------------------------------------------------------------------------------|--------------------------------------------------------------|----------------------------------------------------------------------------------------------|------------------------------------------------------------------------------------------------------|------------------------------------|---------------------------------------------------------------------------------------------|---|
|                                                                        |                            | Elms                                                          |                               | Track 5: Mobile Computing       |                                                          |                                  | Interconnect Cores g Applications                                     | of MPEG-2 Like Real-Time Parallel Media SP SoC Cradle Architecture  K. Singh, Vipin Chaudhary | Hardware Mediators: A Portability Artifact for Component-Based Systemsfor Component-Based Systems |                                                                                                    | R ITS                                                        | Track 4: Hardware/Software Co-design and System-on-Chip                                      | ing                                                                                                  |                                    | Non-uniform Set-Associative Caches for Power-Aware  Embedded Processors                     | • |

time the actual execution of processing for a single frame was completed within essing for a single video frame at the model simulation stage was 600sec., but in real ing, when written in C++, amounts to some 15k steps. Speed of execution of the procallocated were mainly interface processing, warning processing and control process 100msec., satisfying the design objectives.

IP modules, and we were able to use RPC to perform the functional evaluations. The driving safety support system configured in SpecC quickly detected the online

controlled car was confirmed, satisfying design objectives at speeds up to 10km. design objectives to be satisfied at the simulation level, and validation with a radio-From the above, we were able to evaluate that the proposed design method enables

## S

evaluated its effectiveness. By using modeling without separating the functions into extended the validation system to apply to the ITS system for control processing, and online method of validation using RPC to access IP components in the network envitrolled with the control system being designed. Our proposed design method uses tions to HW and SW. We performed simulations by connecting the object to be conthe method of trade-offs was used to shorten development time. HW and SW, there was no need to configure the system in multiple languages. And ronment. We confirmed the validity of this approach in an application to the design of functions called for by the design specifications to HW and SW. And we proposed an these simulations, following a staged approach to detailed design in allocating the We proposed a hardware/software co-design method of the optimal allocation of funcimage processing for ITS. We configured dynamic models for the control system,

ate the degree of effectiveness In the near future, we will apply the design method to other application and evalu-

- Hiroaki Takada "Present situation and future prospects in development technologies for embedded systems," IPSJ Journal Vol. 42, No. 4, pp. 930-938 (2001) (in Japanese) Hisso Koizumi, Katsubiko Seo, Pumio Suzuki, Yohsuke Ohsuru, and Hiroto Yassura. "A
- Proposal for a Co-design Method in Control System Using Combination of Models. EICE Trans. on Information and Systems, vol. E78-D No. 3, pp. 237-247 (1955).

Thomas D.E., Adams J.K. and Schmit H., "A Method and Method for Hardware Software

Codesign", IEEE Design and Test of Computers, Vol. 10, No. 3, pp. 6-15(1993).

Takashi Naitoh, Keiichi Yamada & Shin Yamamoto: "A robust method of numberplate 545 (1998) (in Japanese) recognition at the image taking point," IEICE Transactions A. Vol. 181-A, No. 4, pp. 536.

Daniel D. Gajski et al., The SpecC specification description language and how to use it. CQ Press K.K. (2000)

Developments in traffic systems (ITS) for dedicated express motorways: http://www.llines.or.jp/veritt/j frame.html (2002)

# Efficient Scheduling for Design Exploration with Imprecise Latency and Register Constraints

Chantana Chantrapornchai<sup>1</sup>\*, Wanlop Surakumpolthorn<sup>2</sup>, and Edwin Sha<sup>3</sup>\*\*

Faculty of Science, Silpakorn University, Nakorn Pathom, Thailand Faculty of Engineering, King Mongkut's Institute of Technology Ladkrabang, Thailand

3 Department of Computer Science, University of Texas, Richardson, Texas, USA

off between latency and register counts and selecting a solution with constraints, this paper proposes a polynomial-time scheduling algorithm satisfactory performance and cost. The experiments show that we can The algorithm can be used in design exploration for exploring the tradewhich minimizes both functional units and registers while scheduling formation is unavoidable. Under the imprecise system characteristics and are important steps. During the early stage of the design, imprecise in-Abstract. In archiectural synthesis, scheduling and resource allocation schieve a schedule with the same acceptable degree while saving register upto 37% compared to the traditional algorithm

## Introduction

a latency by two cycles while saving one register and what about expanding 10 is considered to be acceptable at architecture level. If a design with latency of the component may have not been completely designed down to the geometry In architectural level synthesis, imprecise information is almost unavoidable. For more cycles? Effective treatment of such impreciseness in high level synthesis there are multiple conflicting design criteria, for example, is it worth to expand 50 cycles is acceptable, what about a design with 51 cycles? Especially when level. Another kind of impreciseness or vagueness arises from the way a design instance, there may be various choices of modules implementing the functions or can undoubtedly play a key role in finding optimal design solutions.

ate a schedule subject to register constraints under impreciseness. The proposed dimension of imprecise system requirement. We extend the work in [1] to cremodeled based on the fuzzy set theory. Register count is considered as another tion and use them during architectural synthesis. The system characteristics are This work was supported in part by the TEL under grant number MRG4680115 algorithm can be integrated into design exploration framework which considers In this paper, we present an approach to handle certain imprecise specifica-

the tradeoff between latency and register usage to find an acceptable solution. Such systems can be found in many digital signal processing applications, e.g., communication switches and real-time multimedia rendering systems.

Many researchers have applied the fuzzy logic approach to various kinds of scheduling problem [10,11]. These approaches, however, do not take into account the fact that an execution delay of each job can be imprecise and/or multiple attributes of a schedule. Research works related to register allocation exists in high-level synthesis and compiler optimization area for VLIW architecture. For example, Chen et. al. proposed a loop scheduling for timing and memory operation optimization under register constraint [8]. The technique is based on multi-dimensional retiming. Eichenberger et. al. presented an approach for register allocation for VLIW and superscalar code via stage scheduling [7]. Dani et. al. also presented a heuristic which uses stage scheduling to minimize register requirement. They also target at instruction level scheduling [5]. Nonetheless, these works focus on loop scheduling and do not consider handling the imprecise system characteristics or specification.

The inclusion scheduling which takes the imprecise system characteristic was proposed in [1]. The algorithm was expanded and used in design exploration under imprecise system requirement as well as the estimation of resource bounds [2,3,4]. However, it does not take register criteria in creating a schedule.

In this paper, we particularly consider both latency and register constraints. We propose an extended inclusion scheduling which considers the register usage while performing scheduling. The developed scheduling core, RCIS, Register. Constrained Inclusion Scheduling, takes imprecise information into account. Since the latency of the system specification is imprecise, the register usage of the schedule is imprecise. We study the imprecise register usage and propose a heuristic to estimate the register count in the imprecise schedule. Given a functional specification (in the form of a directed acyclic graph) and a number of available functional units, an inclusion schedule can be efficiently generated in polynomial time. Our proposed approach can efficiently be used in an iterative design cycle to find an initial design to reduce the number cycles of design improvements. Experimental results show that, we can achieve a better design when the number of registers is limited while keeping the same satisfactory requirement.

This paper is organized as follows: Section 2 describes our models. Section 3 presents the iterative design framework which may integrate our scheduling approach and introduce the inclusion scheduling framework. Section 4 presents necessary definitions, properties, and heuristics which integrate register consideration into inclusion scheduling framework. Section 5 displays some experimental results. Finally, Section 6 draws a conclusion from our work.

# ? Overview and Models

Contractions, and along the supplications in an appellant of the first of the supplication of the supplica

each vertex in the vertex set  $\mathcal V$  corresponds to an operation and  $\mathcal E$  is the set of edges representing data flow between two vertices. Function  $\beta$  defines the type of operation for node  $u \in \mathcal V$ .

Operations in a data flow graph can be mapped to different functional units which in turn can have varying characteristics. Such a system must also satisfy certain design constraints, for instance, power and cost limitations. These specifications are characterized by a tuple  $S = (\mathcal{F}, \mathcal{A}, \mathcal{M}, \mathcal{Q})$ , where  $\mathcal{F}$  is the set of functional unit types available in the system, e.g., {add, mul}.  $\mathcal{A}$  is  $\{A_f : \forall f \in \mathcal{F}\}$ . Each  $A_f$  is a set of tuples  $\{a_1, \dots, a_k\}$ , where  $a_1$  to  $a_k$  represent attributes of particular f. In this paper, we use only latency as an example attribute. (Note that our approach is readily applicable to include other constraints such as power and area). Hence,  $A_f = \{x : \forall x\}$  where x refers to the latency attribute of f f f is a mapping from f to a set of real number in f in f, representing a possible degree of using the value. Finally, f is a function that defines the degree of a system being acceptable for different system stributes. If f f is a degree of a system being acceptable for different system while f is a definitely acceptable.

Using a function Q to define the acceptability of a system is a very powerful model. It can not only define certain constraints but also express certain design goals. For example, one is interested in designing a system with latency under 500 and register count being less than 6 respectively. Also, the smaller latency and register count, the better a system is. The best system would have both latency and register count being less than or equal to 100 and 1 respectively. An acceptability function,  $Q(a_1, a_2)$  for such a specification is formally defined as:

$$Q(a_1, a_2) = \begin{cases} 0 & \text{if } a_1 > 500 \text{ or } a_2 > 6\\ 1 & \text{if } a_1 \le 100 \text{ and } a_2 \le 1 \end{cases}$$
(1)

where F is assumed to be linear functions, e.g.,  $F(a_1, a_2) = 1.249689(a_1 + 2a_2) - 0.001242$  which returns the acceptability between (0, 1). Figures 1(a) and 1(b) illustrates Equation (1) graphically.



The 1 (a) imprecise constraint Late y: Register at 1 2 (b) its projection.

Based on the above model, the combined scheduling/binding we intend to solve can be formulated as follows:

Given a specification containing  $S = (\mathcal{F}, \mathcal{A}, \mathcal{M}, \mathcal{Q})$ ,  $G = (\mathcal{V}, \mathcal{E}, \beta)$ , and acceptability level  $\alpha$ , find a schedule under functional unit and register constraints for each f in  $\mathcal{F}$  whose the acceptability degree is greater than or equal to  $\alpha$  subject  $\mathcal{Q}$ .

Fuzzy sets, proposed by Zadeh, represent a set with imprecise boundary [12]. A fuzzy set x is defined by assigning each element in a universe of discourse its membership degree  $\mu(x)$  in the unit interval [0,1], conveying to what degree its member in the set. Let A and B be fuzzy numbers with membership functions  $\mu_A(x)$  and  $\mu_B(y)$ , respectively. Let \* be a set of binary operations  $\{+,-,\times,\div,\min,\max\}$ . The arithmetic operations between two fuzzy numbers, defined on A\*B with membership function  $\mu_{A*B}(z)$ , can use the extension principle, by  $[9]: \mu_{A*B}(z) = \bigvee_{x=x=y} (\mu_A(x) \land \mu_B(y))$  where  $\vee$  and  $\wedge$  denote max and min operations respectively.

Based on the basic fuzzy set concept, we model the relationship between functional units and possible characteristics such that each functional unit is associated with a fuzzy set of characteristics. Given a functional unit f and its possible characteristic set  $A_f$  let  $\mu_f(a) \in [0,1], \forall a \in A_f$ , describe a possibility of having attribute a for a functional unit f.

# Iterative Design Process

operations in the application based on the available functional units. The total uration is acceptable. The dashed block elements contain the scheduling core schedule. In order to determine whether or not the resource configuration is satgiven acceptability function is then checked with the derived attributes of the attributes of the application can be derived after the schedule is computed. The schedule of the application is derived. This schedule shows an execution order of and allocation process incorporates varying information of each operation. It which attempts to minimize both latency and register usage. Our scheduling ule attributes which are used to determine whether or not the design configisfactory solution. One may estimate the initial design configuration with any Figure 2 presents an overview of our iterative design process for finding a sat process stops. Otherwise, the resource configuration is updated and this process attributes lead to the acceptability level being greater than the threshold, the ished the objective function, we use the acceptability threshold. If the schedule ber of functional units that can be used to compute this application. Then, the takes an application modeled by a directed acyclic graph as well as the numheuristic. The scheduling and allocation process produces the imprecise schedis repeated until the design solution cannot be improved or the design solution



Fig. 2. Iterative design solution finding process

consists of fuzzy attributes. In a nutshell, inclusion scheduling simply replaces the computation of accumulated execution times in a traditional scheduling algorithm by the fuzzy arithmetic-based computation (See Section 2). Hence, fuzzy arithmetics is used to compute possible latency from the given functional specification. Then, using a fuzzy scheme, latency of different schedules are compared to select a functional unit for scheduling an operation. Though the concept is simple, the results are very informative. They can be used in many ways such as module selection [2].

In the inclusion scheduling, to compute a fuzzy latency, it creates a new partition graph. based on the original data flow graph and adding extra edges which connect consecutive nodes in the same function unit. Then a dummy sink node is created and connected to all leaves in the graph.

created. Thus, the notion of control step is implicit. This raises a few aspects of the node and its successors become a fuzzy number. When the start time of to consider this, since a node's execution time is a fuzzy number, the start time tic must be modified to consider register usage at each time step. Third, in order imply different register usage at each time step. As a result, a scheduling heuristhe same. However, when taking registers into account, the start time of a node portant that nodes start ASAP or not, since in overall, the fuzzy length remains fuzzy maximum latency. When considering only overall fuzzy latency, it is not imlarger to maximize acceptability. Second, the graph is directly used to calculate may be good to start node later while latency is kept the same or even a little straint is considered, the ASAP approach may not give a good result. That is it First, the nodes are assumed to start as early as possible. If the register conmay occupy the functional unit with some possibility. To minimize the number of registers in this way, we must also minimize the possibility of using certain need to define the fuzzy life time of a node. Hence at each control step, a node becomes important since it can affect the register usage. Different start time can the node is a fuzzy number, the finished time of the node is a fuzzy number. We According to the scheme, we can see that the schedule table is not explicitly

# 4 Register/Count Consideration Under Impreciseness and RCIS

To consider register constraint, we should count the number of registers used at each time step. In specific, when we place a node on a schedule, we consider a life time of the node in the schedule. Traditionally, a life time of a node depends on the location of the node's successors in the schedule. That is the value produced by the node must be held until its successors have consumed it until the maximum time step that its successors can start. When an execution time of a node is a fuzzy number, the fuzzy life time of a node needs to be defined. In other words, at each control step, a node may occupy the functional unit with some possibility. In the following, we establish a notion of fuzzy start time, fuzzy finished time, and fuzzy life time. We then propose an algorithm to calculate fuzzy register usage for a schedule. Then both register usage and latency characteristic; of the schedule are used to choose the best schedule.

**Definition 1** (FST(u) and FFT(u)). For  $G = (V, \mathcal{E}, \beta)$ , and a given schedule, a fuzzy start time and a fuzzy finished time of node of node  $u \in V$ ,

- 1. FST(u) is a fuzzy set whose membership degree is defined by  $\mu_{FST(u)}(x) = y$ , i.e, node u may start at time step x with possibility y.
- FFT (u) is a fuzy set whose membership degree is defined by  $\mu_{FFT(u)}(x) = y$ , i.e., node u may finish at time step x with possibility y.

For nodes that are executed at time step 0 in each functional unit, FST(u) = 0, which is a crisp value. Further, FFT(v) = FST(v) + EXEC(v), where EXEC(v) is the fuzzy latency of v. When considering earliest start time of a node,  $FST(v) = \max_i (FFT(u_i)) + 1$ ,  $\forall u_i \to v$ .

The general idea of using fuzzy numbers is depicted in Figure 3(a) for both start time and finished time. Circles denote the fuzzy boundary which means that



the start time and finished time boundary of a node is unclear. Indeed, they may also be overlapped as shown in Figure 3(a). When a node occupies a resource at a certain time step, a possibility value is associated with the assignment. Computing a fuzzy life time for node u requires two fuzzy sets: FST(u) and MFFT(u), the maximum of start time of all its successors.

Definition 2. For  $G = (V, \mathcal{E}, \beta)$ , and a given schedule, fuzzy life time of node u, FLT(u) is a pair of [FST(u), MFFT(u)], where  $\mu_{MFFT(u)} = FFT(u) + \max_{x} (FST(v_i))$ , where  $u \to v_i \in \mathcal{E}$  and +,  $\max_{x}$  are fuzzy addition, and fuzzy maximum respectively.

Given FLT(u), let  $min\_st$  be the minimum time step from FST(u) whose  $\mu_{FST(u)}$  is nonzero, and  $max\_st$  be the maximum time step from FST(u) whose  $\mu_{FST(u)}$  is nonzero and similarly, for  $min\_fin$  and  $max\_fin$  for  $\mu_{MFFT(u)}$ . Without loss of generality, assume that FST(u) and MFFT(u) are sorted in the increasing order of the time step. We create a fuzzy set IFST(u), mapping for a discrete time domain  $[min\_st...max\_st]$  to real value in [0..1], showing the possibility that at time step x, node u will occupy a register for FST(u) and likewise for IMFFT(u) for MFFT(u) as in Definition 3.

Definition 3 (IFST(u) and IMFFT(u)). Given  $G = (V, \mathcal{E}, \beta)$ , a schedule,  $[min\_st...max\_st]$ ,  $[min\_fin...max\_fin]$  and FLT(u)

- 1.  $\mu_{IFST(u)}(c) = 0$  if  $c < min_st \lor c > max_st$  and otherwise =  $\max_{x \in x} \max_{x \in x} (\mu_{FST(u)}(x))$ , where  $y = \max_{x \in x} (FST(u)) \land y < c$
- 2.  $\mu_{IMFFT(u)}(c) = 0$  if  $c < \min_{x \in \mathcal{X}} fin \lor c > \max_{x \in \mathcal{X}} fin$  and otherwise =  $\max_{x,y < c \leq \max_{x \in \mathcal{X}}} fin(\mu_{MFFT(u)}(x))$  where  $y = \max_{x \in \mathcal{X}} (MFFT(u)) \land y < c$

From the above calculation, we assume that for any two starting time value  $a, b \in FST(u)$  where a < b, if node u starts at time a, it will be already started at time b. For MFFT(u), when a < b,  $a, b \in MFFT(u)$ , if the value for node u will not be needed at time a, it will not be needed at time b and vice versa. Notice that from Definition 3, the possibility of IFST(u) is in nondecreasing order and the possibility of IMFFT(u) is in non-increasing order.

From IFST(u) and IMFFT(u), we merge the two sets to create a fuzzy interval for a node by defining Definition 4.

Definition 4. Given  $G = (\mathcal{V}, \mathcal{E}, \beta)$ , a schedule, IFST(u) and IMFFT(u).  $\mu_{IFLT(u)}(c) = \max(\mu_{IFST(u)}(c), \mu_{IMFFT(u)}(c))$  if  $\min_s t \le c \le \max_s t \lor \min_s fin \le c \le \max_s fin$ , or  $\mu_{IFLT(u)}(c) = 0$  if  $c < \min(\min_s t, \min_s fin) \lor c > \max(\max_s t, \max_s fin)$ , and otherwise  $\mu_{IFLT(u)}(c) = 1$ .

After we compute the fuzzy life time interval for each node, we can start compute register usage for each time step which is used to evaluate the quality of the fuzzy schedule.

Next, we explain an RGIS framework, which is based on existing inclusion asheduling core. The only difference is that RGIS uses a new insurface which is been approximately a state of the contract of the con

register usage. It also keeps a "better" schedule at any iteration. attempts to estimate a fuzzy property of a schedule containing both latency and

Our heuristic considers the register usages by Algorithm 2. evaluates the furly attributes of a schedule by Eval. Schedule. Reg. Then, the Algorithm , presents a framework which evaluates the quality of the schedule latency of the intermediate schedule and fuzzy register usage are computed better schedule is chosen at each iteration. In Eval.Schedule.Reg, the fuzzy In RCIS, we simply replace the portion of code in inclusion scheduling which

```
Algorithm ! (Eval Schedule Reg)
Output: 1 if S_1 is better than S_2, 0 otherwise
                                                   Input: schedules S_1, S_2, G = (\mathcal{V}, \mathcal{E}, \beta), and Spec = (F, A, M, Q)
```

```
is \underline{return}(compare(quality[S_1], quality[S_2]))
                                                       18 // comparing the overall attributes of both schedules
                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                   foreach schedule S_i = S_1 to S_2 do
                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                   G_0 = (\mathcal{V}_0, \mathcal{E}_0, \beta) where \mathcal{V}_0 = \mathcal{V} - \{\text{unscheduled nodes}\}, \mathcal{E}_0 = \emptyset
                                                                                                                                                                   |atency[S_i] = fuzzymax.time(W)quality[S_i] = Combine(|atency[S_i], Reg[S_i])
                                                                                                                                                                                                                                                                                                                                                                                                                                                       \mathcal{E}_0 = \{(u, v) : u, v \in \mathcal{V}_0, \text{ if } u, v \text{ in same f.u. in } S_i\}
                                                                                                                                                                                                                                                                                                                                       Calculate register usage for G_0 using Algorithm 2
                                                                                                                                                                                                                                                                                       Let W is a set of leaves in G_0
                                                                                                                                                                                                                                                                                                                                                                                               and v is immediately after u}
```

```
Algorithm 2 (Calculate_Register_Count
```

Spec = (F, A, M, Q)Output: Reg[S] contains register counts needed and its possibility Input: Scheduled Graph  $G_0$  for schedule S and, original DFG  $G = (V, \mathcal{E}, \beta)$ 

```
• Let max cs be max finish time, \forall u \in G_0
                                                                                                                                                  • Calculate IFLT(u) \forall u \in G_0 by Definition 3
                                                                                                                                                                                              Calculate FLT(u) \forall u \in G_0 by Definition 2
                                            for cs = 1 to max cs do
(RegAt[cs].reg, RegAt[cs].poss) = CountNode(IFLT, cs, C_0) od
```

for cs = 1 to max cs do FReg [RegAt[cs].reg].poss = FReg[RegAt[cs].reg].reg = RegAt[cs].reg

 $\forall n, FReg[n] = 0$ 

11 Reg[S] = FRegmax(FReg[RegAt[cs].reg].poss, RegAt[cs].poss) od

In Algorithm 2. RoyAt stores maximum number of registers needed at each manner to be administrated register countries.

may be used with some possibility. This depends on whether the dependency Consider the overlap interval in Figure 3(b) at time step 7. One or two registers this knowledge, the register may be shared with others with high possibility other words, there is a possibility that a node may not use such a register. With during the time step. For example, node may start later or finish earlier. In associated with a time step indicates that that node may not actually exist each box implies that one register is needed. However, the derived possibility which attempts to count only the ancestor at the current time step. total register count would be one. Algorithm Count\_Node is simply a heuristic between  $A \to B$  exists. If edge  $A \to B$  exists in the original data flow graph, the Consider Figure 3(b). When an execution time becomes a fuzzy number

## Experiments

specification where register axis contains a discrete value ranged in [1..7) and latency axis ranged in [1..200] and where latency : register count is 1:10. are available and their characteristics are according to Figure 6(a). In the Ta-Consider the simple DFG, containing nodes  $\{A,B,C,D,E,F,G\}$  and edges  $\{A \to B,C \to B,F \to G,C \to D\}$  Assume that 4 general functional units latency value if the nodes are executed in a functional unit. Assume the system ble, Columns "lat" and "pos" show the latency and its possibility of having the

|              | α | 3 ( | ٠ ( | ŋ | ≻   | FU1  |
|--------------|---|-----|-----|---|-----|------|
| ( <b>a</b> ) |   | ,   |     |   | •   | FU2  |
| ٥            | ١ | ţ   | J ( | 2 | Ħ   | FU3  |
|              | ' | ,   |     | ı | 1   | FU4  |
|              | Γ | m   | ດ   | _ | ľ   | 핅    |
|              |   | ω_  | 4,2 | _ | Ŀ   | Ξ    |
| (b)          |   | •   | ٠   | מ | 3   | 2113 |
| ٣            |   | ۵   | a   | ţ | 3 2 | 2.13 |
|              |   | ı   | •   | • | ?   | 7113 |
|              |   |     |     |   |     | _    |

Fig. 4. Schedule obtained by (a) RCIS (b) the original IS

starts as early as possible. Figure 5(a) compares FLT(A) and FLT(B). We can see that FST(B) overlaps with MFFT(A). FU3 are preferable. To calculate FST(u), we assume a heuristic where a node Figure 4(a) shows the resulting schedule we obtain. We notice that FU1 and

sum of latency and register is 79.53. Considering only the average latency, the value is 52. Compared to the constraint, with latency 52 and register count 2, the second little facts in 0.76 in fact, this sizes the same acceptability involves as schedule is at 92 with possibility 0.1. With this schedule, the average weighted very low possibility, e.g. 0.05 and 0.1. The maximum possible finished time of the as shown in Figure 5(b). Then we conclude that the register usage as following: (1,0.1) and (2,1). It implies that at some control step, I register is needed with We summarize the register count and its possibility value for each time step

we only consider minimizing latency. Tables 2(b)-2(c) shows the summarized



Fig. 5. (a) FLT(A) and FLT(B) (b) Register counts and possibility each time step.



Fig. 6. (a) FU characteristics (b) Constraint for DCT

Consider a well-known benchmark, discrete cosine transform [6], containing 48 nodes. Assume the same functional unit specification for both adders and multipliers and the constraint in Figure 6(b) where the register axis is [1..12] and the latency axis is [1..500]. We compare the results obtained from various cases of varying the number of functional units. The results are shown in Table 1. Columns "RCIS" and "IS" compare the performance of the schedule by Register-Constrained Inclusion Scheduling and the original inclusion scheduling (IS). Row "Avg Latency" shows the weighted sum of latency for each case. Row "Max the acceptability value obtained using the "Avg latency" and "Max Reg". Row the maximum number of registers. Row "Acceptability" shows the maximum latency values and Row "Avg Weight".

possibility values for using certain register counts for RCIS and IS respectively. It is obvious that IS attempts to minimize latency while not considering the register usage. From these tables, we can achieve about the same acceptability (and even better acceptability in some case) with fewer number of registers, which is upto 37% saving for the number of registers for the case of 7 adders and 5 multipliers. Among all these cases, we see that the configuration with 5 adders and 4 multipliers should be the best. Consider the running time. For all the cases, the maximum running time is approximately I minute 50 seconds to achieve the results for 7 adders and 5 multipliers under Pentium 4 2.8GHz, 1GB RAM.

Table 1. (a) Comparison of RCIS and IS when varying the number of functional units (b)-(c) Possibility values of register counts for case case 7 adders and 5 multipliers for RCIS and IS.

|               | 5 adds | 4 muls | 6 adds | 4 muls | 6 adds | 5 muls | 7 adds | 4 mule | 7 adds | S mus |
|---------------|--------|--------|--------|--------|--------|--------|--------|--------|--------|-------|
|               | RCIS   | SI     | RCIS   | S      | RCIS   |        | RCIS   | SI     | RCIS   | Se l  |
| Avg Latency   | 122    | 111    | 132    | 98     | 117    | 8      | 124    | Ş      | 127    | 2     |
| Max Reg       | 8      | 00     | 7      | 10     | 00     | 0      | 7      | 10     | 7      | 11    |
| Acceptability | 0.719  | 0.704  | 0.69   | 0.69   | 0.694  | 0.691  | 0.699  | 0.683  | 0.691  | 0.68  |
| Max Latency   | 228    | 252    | 296    | 224    | 213    | 197    | 255    | 226    | 230    | 179   |
| Avg Weight    | 188    | 111    | 198    | 98     | 206    | 8      | 210    | 2      | 209    | 94    |

| 130.10 |
|--------|
| 0      |
|        |

| poss      | <b>891#</b> |    |
|-----------|-------------|----|
| 0.05      | 2           |    |
| 0.05 0.05 | 4           |    |
| 1         | 5           | ١. |
| 0.05      | 8           |    |
| 1         | 7           |    |
| 0.1       | 00          |    |
| _         | 10          |    |
| _         | -           | ì  |

0

<u>6</u>

(c)

## 6 Conclusion

We propose a polynomial-time scheduling algorithm which considers impreciseness in the system specification, constraint and attempts to create a schedule which minimizes both latency and register usages. The algorithm can be integrated into an iterative design process to find acceptable solutions. Our algorithm considers imprecise functional unit characteristic and system requirement. When the timing characteristic is imprecise, life time of a node in the schedule is imprecise. We investigate the imprecise life time of a node in the schedule and analyze the register usage. The algorithm can be integrated into a design exploration which explores an acceptable solution trading off latency cycles with register saving. The experiments show that the better and same quality schedule can be achieved using fewer number of registers compared to the traditional scheduling

## References

- C. Chantrapornchai, E. H. Sha, and X. S. Hu. Efficient scheduling for imprecise timing based on fuzzy theory. In Proc. Midwest Symposium on Circuits and Systems, pages 272-275, 1998.
- C. Chantrapornchai, E. H.M. Sha, and X. S. Hu. Efficient module selections for finding highly acceptable designs based on inclusion scheduling. J. of System Ar.
- 3. C. Chantrapornchai, E. H-M. Sha, and Xiaobo S. Hu. Efficient acceptable design exploration based on module utility selection. IEEE Trans. on Computer Aided chitecture, 11(4):1047-1071, 2000. Design of Integrated Circuits and Systems, 19:19-29, Jan. 2000.
- C. Chantrapornchai and S. Tongsima. Resource estimation algorithm under impreciseness using inclusion scheduling. Intl. J. on Foundation of Computer Science, Special Issue in Scheduling, 12(5):581-598, 2001.
- 5. A. Dani, V. Ramanan, and R. Govindarajan. Register-sensitive software pipelining In Proceedings. of the Merged 12th International Parallel Processing and 9th in ternational Symposium on Parallel and Distributed Systems, pages 194-198, April
- 6. M. K. Dhodhi, F. H. Hielscher, R. H. Storer, and J. Bhasker. Datapath synthesis using a problem-space genetic algorithm. IEEE Transactions on Computer-Aided Design of integrated circuits and systems, 14(8):934-944, August 1995.
- A. Eichenberger and E. S. Davidson. Register allocation for predicated code. in
- F.Chen, S. Tongsima, and E. H. Sha. Loop scheduling algorithm for timing and memory operation minimization with register constraint. In Proc. SiP'98, 1998. Proceeding of MICRO, 1995.
- 9. K. Gupta. Introduction to fuzzy arithmetics. Van Nostrand, 1985. J. Lee, A. Tiso, and J. Yen. A fuzzy rule-based approach to real-time scheduling
- 11. H. Soma, M. Hori, and T. Sogou. Schedule optimization using fuzzy inference. In In Proc. Intl. Conf. FUZZ-94, volume 2, 1994
- 12. L. A. Zadeh. The concept of a linguistic variable and its application to approximate Proc. FUZZ-95, pages 1171-1176, 1995. reasoning, Part I. Information Science, 8:199-249, 1975

# Hardware Mediators: A Portability Artifact for Component-Based Systems

Fauze Valério Polpeta<sup>1</sup> and Antônio Augusto Fröhlich<sup>1</sup>

Federal University of Santa Catarina, PO Box 476 88049-900, Florianópolis - SC, Brazi {fauze,guto}@lisha.ufsc.br, http://www.lisha.ufsc.br

proposed by Fröhlich in the Application-Oriented System Design method based operating systems, focusing in the hardware mediator construct Differently from hardware abstraction layers and virtual machines, hard-Abstract. In this article we elaborate on portability in component little overhead. the hardware and the operating system components and yet incur in very ware mediators have the ability to establish an interface contract between

for it enabled EPOS to be easily ported across very distinct architectures. portability claims associated to the techniques explained in this article, such as the H8 and the IA-32, without any modification in its software The use of hardware mediators in the EPOS system corroborates the

## 1 Introduction

of the main pillars of applicative software portability. components in a way that is suitable for application programmers to develop the very own nature of an operating system has to do with abstracting hardware Portability has always been a matter for operating system developers, because supported by that operating system. Therefore, operating systems constitute one oped on top of a chosen operating system will run unmodified in all architectures "architecture-independent software". It is expected that an application devel-

craing system portability, one cannot forget that the virtual machine itself is struction Layers (HAL). While considering the virtual machine approach to opmainly concentrated in two flanks: Virtual Machines (VM) and Hardware Ab-Part of the operating system—according to Habermann, the operating system exends from the hardware to the application [10]. The virtual machine would onstitute the architecture-dependent portion of the operating system, while Inditional approaches to make the operating system itself portable are nting portability for the components above. The main deficiencies of this apis the overhead of translating VM operations into native code. Several

beyond a collection of papers, various added value components; these More recently, several color-cover sublines have been added featuring.

J321

- tutorials (textbook-like managraphs or collections of lectures given at

- state-of-th-art surveys (offering complete and mediated coverage

- hot topics (introducing emergent topics to the broader community)

electronically in LNCS Online. In parallel to the printed book, each new volume is published

http://www.springeronline.com Detailed information on LNCS can be found at

Proposals for publication should be sem to

LNCS Editorial, Tiergartenstr. 17, 69121 Heidelberg, Germany

E-mail: lncs@springer.de

ISSN 0302-9743



**POOS NAIRA** Advances in Computer Science

LNCS 3321

Maher (Ed)

ASIAN 2004

Springeronline.com

Michael J. Maher (Ed.)

Advances in omputer Science **IAN 2004** 

Higher-Level Decision Making

Chiang Mai, Thailand, December 2004, Proceedings 9th Asian Computing Science Conference Dedicated to Jean-Louis Lassez on the Occasion of His 5th Cycle Birthda

## Referees

Norman Foo Ryutaro Ichise Waleed Kadous L.C.K. Hui Philippe de Groote Guido Governatori Yan Jin James Harland Michael Goldwasser Claude Godart Spencer Fung Christophe Doche Alan Dorin Véronique Cortier Johanne Cohen Leonid Churilov Peter Chubb Jeff Choi Christophe Cerisara Gerd Brewla Colin Boyd Lai-Wan Chan Steven Bird David Austin

Maurice Pagnucco Barry O'Sullivan Nicolas Navet Amedeo Napoli George Mohay Lee Naish Y: Mu Dale Miller Thomas Meyer Phu Le Bernd Meyer Eric Martin Jim Lipton Guoliang Li Ludovic Mé Jimmy Liu Ho-Fung Leung François Lamarche Lin Li Dong Hoon Lee Shonali Krishnaswam Vellaisamy Kunalmani Yukiyoshi Kameyama

Yoshitaka Kameya Janson Zhang Jane You Mariko Yasugi Haruo Yokota Akihiro Yamamoto Kin-Hong Wong Mark Wallace Antony Tang Takehiro Tokuda Peter Tischer Willy Susilo Changai Sun Peter Stuckey Arcot Sowmya John Shepherd Abdul Sattar Seiichiro Sakurai Silvio Ranise Jochen Renz Jun Shen

## Table of Contents

## Multi-agent Systems Hiord: A Type-Free Higher-Order Logic Programming Language with Chi-Square Matrix: An Approach for Building-Block Identification Probabilistic Space Partitioning in Constraint Logic Programming On the Role Definitions in and Beyond Cryptography A Temporalised Belief Logic for Specifying the Dynamics of Trust for Learnability of Simply-Moded Logic Programs from Entailment MADM Under Uncertainty: Orthogonal Versus Weighted Surn Assessment Aggregation in the Evidential Reasoning Approach to Predicate Abstraction Register-Constrained Inclusion Scheduling Design Exploration Framework Under Impreciseness Based on Contributed Papers Computing Environments Meme Media for the Knowledge Federation Over the Web and Pervasive Counting by Coin Tossings Keynote Papers Daniel Cabeza, Manuel Hermenegildo, James Lipton ..... Philippe Flajolet ..... M.R.K. Krishna Rao . . . . . . . . . . . . . . . . Van-Nam Huynh, Yoshiteru Nakamori, Tu-Bao Ho..... Chantana Chantrapornchai, Wanlop Surakumpolthorn, Edwin Sha.... Chatchawit Aporntewan, Prabhas Chongstituatana ..... Nicos Angelopoulos..... Yuzuru Tanaka, Jun Fujima, Makoto Ohigashi..... Phillip Rogaway ..... 109 128 48 ယ္မ 93 78 63 13

Chuchang Liu, Maris A. Ozols, Mehmet Orgun .....

142

Chantana Chantrapornchai<sup>1,\*</sup>, Wanlop Surakumpolthorn<sup>2</sup>, and Edwin Sha<sup>3,\*\*</sup>

Faculty of Science, Silpakom University, Nakom Pathom, Thailand
 Faculty of Engineering, King Mongkut's Institute of Technology, Ladkrabang, Thailand
 Department of Computer Science, University of Texas, Richardson, Texas, USA

Abstract. In this paper, we propose a design exploration framework which consider impreciseness in design specification. In high-level synthesis, imprecise information is often encountered. Two kinds of impreciseness are considered here: imprecise characteristics of functional units and imprecise design constraints. The proposed design exploration framework is based on efficient scheduling algorithm which considers impreciseness, Register-Constrained Inclusion Scheduling. We demonstrate the effectiveness of our framework by exploring a design solution for a well-known benchmark. Where filter. The selected solution meets the acceptability criteria while minimizing the total number of registers.

Keywords: Imprecise Design Exploration, Scheduling/Allocation, Multiple design attributes, Imprecise information, Register constraint, Inclusion Scheduling

## Introduction

In architectural level synthesis, imprecise information is almost unavoidable. For instance, an implementation of a particular component in a design may not be known due to several reasons. There may be various choices of modules implementing the functions or the component may have not been completely designed down to 'he geometry level. Even if it has been designed, variation in fabrication process will likely induce varying area and time measurements. Another kind of impreciseness or vagueness arises from the way a design is considered to be acceptable at architecture level. If a design with latency of 50 cycles is acceptable, what about a design with 51 cycles versus a design with 75 cycles? This even becomes imprecise especially when there are multiple conflicting design criteria. For example, is it worth to expand a latency by two cycles while saving one register and what about expanding 10 more cycles? Effective treatment of such impreciseness in high level synthesis can undoubtedly play a key role in finding optimal design solutions.

In this paper, we propose a design exploration framework which considers imprecise information underlying in system specification and requirements. Particularly, we

are interested in the latency and register constraints. However, the approach can be extended to handle other multiple design criteria. The system characteristics are modeled based on the fuzzy set theory. Register count is considered as another dimension of imprecise system requirement. The work in [2, 6] is used as a scheduling core in the iterative design refinement process. The imprecise schedule which minimizes the register usage is generated. If the schedule meets acceptability criteria, the design solution is selected. Otherwise, the resources are adjusted an the process is repeated. Our input system is modeled using a data flow graph with imprecise timing parameters. Such systems can be found in many digital signal processing applications, e.g., communication switches and real-time multimedia rendering systems. Imprecise specification on both system parameters and constraints can have a significant impact on component resource allocation and scheduling for designing these systems. Therefore, it is important to develop synthesis and optimization techniques which iscorporate such impreciseness.

Most traditional synthesis tools ignore these vagueness or impreciseness in the specification. In particular, they assume the worst case (or sometimes typical case) execution time of a functional unit. The constraints are usually assumed to be a fixed precise value although in reality some flexibility can be allowed in the constraint due to the individual interpretation of an "acceptable" design. Such assumptions can be misleading, and may result in a longer design process and/or overly expensive design solutions. By properly considering the impreciseness up front in the design process, a good initial design solution can be achieved with provable degree of acceptance. Such a design solution can be used effectively in the iterative process of design refinement, and thus, the number of redesign cycles can be reduced.

Random variables with probability distributions may be used to model such uncertainty. Nevertheless, collecting the probability data is sometimes difficult and time consuming. Furthermore, some imprecise information may not be correctly captured by the probabilistic model. For example, certain inconspicuousness in the design goal/constraint specification, such as the willingness of the user to accept certain designs or the confidence of the engineer towards certain designs, cannot be described by probabilistic distribution.

Many researchers have applied the fuzzy logic approach to various kinds of scheduling problem. In compiler optimization, fuzzy set theory has been used to represent unpredictable real-time events and imprecise knowledge about variables [16]. Lee et.al. applied the fuzzy inference technique to find a feasible real-time schedule where each task satisfies its deadline under resource constraints [20]. In production management area, fuzzy rules were applied to job shop and shop floor scheduling [24, 28]. Kaviani and Vranesic used fuzzy rules to determine the appropriate number of processors for a given set of tasks and deadlines for real-time systems [19]. Soma et.al. considered the schedule optimization based on fuzzy inference engine [27]. These approaches, however, do not take into account the fact that an execution delay of each job can be imprecise and/or multiple attributes of a schedule.

Many research results are available for design space exploration [1, 8, 13, 23]. All of these works differ in the techniques used to generate a design solution as well as the solution justification. These works, however, do not consider the impreciseness in the system attributes such as latency constraints and the execution time of a functional unit.

This work was supported in part by the TRF under grant number MRG4680115, Thailand.
This work was supported in part by TI University Program, NSF EIA 0103709, Texas ARP, 009741-0028-2001 and NSF CCR-0309461, USA.

extended version of modulo scheduling which considers register constraint, and register usage targeting VLIW architecture [21, 22, 30]. On the software side, they proposed an spilling. However, these work focus on loop scheduling and do not consider handling Zalamea et. al. presented hardware and software approach to minimize the register's to minimize register requirement. They also target at instruction level scheduling [10] scheduling [11, 12]. Dani et. al. also presented a heuristic which uses stage scheduling presented an approach for register allocation for VLIW and superscalar code via stage straint [14]. The technique is based on multi-dimensional retirning. Eichenberger et. al. a loop scheduling for timing and memory operation optimization under register concompiler optimization area for VLIW architecture. For example, Chen et. al. proposed the improcise system characteristics or specification. Many research works related to register allocation exists in high-level synthesis and

does not take register criteria in creating a schedule. system requirement as well as the estimation of resource bounds [4, 5, 7]. However, it proposed. The algorithm was expanded and used in design exploration under imprecise In [2], the inclusion scheduling which takes the imprecise system characteristic was

constraints. The framework is iterative and based on the developed scheduling core. straints. We develop a design exploration framework under imprecise specification and with minmized number of registers. account. Experimental results show that we can achieve an accpetable design solution RCIS, Register-Constrained Inclusion Scheduling that takes imprecise information into In this paper, we particularly consider both imprecise latency and register con-

from our work Section 5 displays so ne experimental results. Finally, Section 6 draws a conclusion It also addresses some issues when the register count is calculated during scheduling tion 4 presents the scheduling core (RCIS) used in the design exploration framework some backgrounds in fuzzy set. Section 3 presents the iterative design framework. Sec-This paper is organized as follows: Section 2 describes our models. It also presents

# Overview and Models

Operations and their dependencies in an application are modeled by a vertex-weighted directed acyclic graph, called a *Data Flow Graph*,  $\mathcal{G} = (\mathcal{V}, \mathcal{E}, \beta)$ , where each vertex in the vertex set V corresponds to an operation and  $\mathcal E$  is the set of edges representing data flow between two vertices. Function  $oldsymbol{eta}$  defines the type of operation for node  $v\in \mathcal{V}$ .

Design Exploration Framework Under Impreciseness

is a function that defines the degree of a system being acceptable for different system to the latency attribûte of f.  $\mathcal{M}$  is  $\{\mu_f: \forall f \in \mathcal{F}\}$  where  $\mu_f$  is a mapping from  $A_f$  to a only latency as an example attribute. (Note that our approach is readily applicable to inconstraints, for instance, power and cost limitations. These specifications are characterin turn can have varying characteristics. Such a system must also satisfy certain design  $Q(a_1, \ldots, a_k) = 1$ , the corresponding design is definitely acceptable. attributes. If  $Q(a_1,\ldots,a_k)=0$  the corresponding design is totally unacceptable while set of real number in [0,1], representing a possible degree of using the value. Finally, Q clude other constraints such as power and area). Hence,  $A_f = \{x : \forall x\}$  where x refers  $(a_1,\ldots,a_k)$ , where  $a_1$  to  $a_k$  represent attributes of particular f. In this paper, we use in the system, e.g., {add, mul}. A is  $\{A_f: \forall f \in \mathcal{F}\}$ . Each  $A_f$  is a set of tuples ized by a tuple  $S=(\mathcal{F},\mathcal{A},\mathcal{M},\mathcal{Q})$ , where  $\mathcal{F}$  is the set of functional unit types available Operations in a data flow graph can be mapped to different functional units which

a system is. The best system would have both latency and register count being less It can not only define certain constraints but also express certain design goals. For exthan or equal to 100 and 1 respectively. An acceptability function,  $Q(a_1, a_2)$  for such a being less than 6 respectively. Also, the smaller latency and register count, the better ample, one is interested in designing a system with latency under 500 and register count specification is formally defined as: Using a function Q to define the acceptability of a system is a very powerful model

$$Q(a_1, a_2) = \begin{cases} 0 & \text{if } a_1 > 500 \text{ or } a_2 > 6\\ 1 & \text{if } a_1 \le 100 \text{ and } a_2 \le 1 \end{cases}$$
 (1)

trates Equation (1) graphically. 0.001242 which returns the acceptability between (0,1). Figures 1(a) and 1(b) illuswhere F is assumed to be linear functions, e.g.,  $F(a_1, a_2) = 1.249689(a_1 + 2a_2) - 1.249689(a_2 + 2a_2)$ 

Based on the above model, the design solution we would like to find is formulated

ability level a, find a design solution whose the acceptability degree is greater than or equal to a subject Q. Given a specification containing  $S = (\mathcal{F}, \mathcal{A}, \mathcal{M}, \mathcal{Q})$ ,  $G = (\mathcal{V}, \mathcal{E}, \beta)$ , and accept

fuzzy set x is defined by assigning each element in a universe of discourse its member Fuzzy sets, proposed by Zadeh, represent a set with imprecise boundary [29]. A



Fig. 1. (a) Imprecise constraint Latency: Register = 1:2 (b) Its projection

where V and A denote max and min operations respectively.  $\mu_{A\circ B}(z)$ , can use the extension principle, by [15]:  $\mu_{A\circ B}(z) = \bigvee_{z=z\circ y} (\mu_A(z) \wedge \mu_B(y))$ operations between two fuzzy numbers, defined on A\*B with membership function the set Let A and B be fuzzy numbers with membership functions  $\mu_A(x)$  and  $\mu_B(y)$ , respectively. Let \* be a set of binary operations  $\{+,-,\times,+,\min,\max\}$ . The arithmetic ship degree  $\mu(x)$  in the unit interval [0, 1], conveying to what degree x is a member in

units and possible characteristics such that each functional unit is associated with a functional unit f. set  $A_f$  let  $\mu_f(a) \in [0,1]$ ,  $\forall a \in A_f$ , describe a possibility of having attribute a for a fuzzy set of characteristics. Given a functional unit f and its possible characteristic Based on the basic fuzzy set concept, we model the relationship between functional

# Iterative Design Framework

or not the design configuration is acceptable. process produces the improcise schedule attributes which are used to determine whether ample using ALAP, anwor ASAP scheduling [7]. The RCIS scheduling and allocation solution. One may estimate the initial design configuration with any heuristic for ex-Figure 2 presents an overvie w of our iterative design process for finding a satisfactory

function is then checked with the derived attributes of the schedule. of the application can be derived after the schedule is computed. The given acceptability operations in the application based on the available functional units. The total attributes the schedule of the application is derived. This schedule shows an execution order of as the number of functional units that can be used to compute this application. Then, of each operation. It takes an application modeled by a directed acyclic graph as well RCIS is a scheduling and allocation process which incorporates varying information

resource configuration is adjusted using a heuristic and this process is repeated until the design solution cannot be improved or the design solution is found acceptability level being greater than the threshold, the process stops. Otherwise, the jective function, we use the acceptability threshold. If the schedule attributes lead to the In order to determine whether or not the resource configuration is satisfied the ob-



Fig. 2. Design solution finding process using RCIS

# Register-Constraint Inclusion Scheduling

criteria which will be discussed later subsections The algorithm evaluates the quality of the schedule by considering imprecise register rithm. The algorithm is based on the inclusion scheduling core presented in Algorithm 1. In this section, we present the register-constraint inclusion scheduling (RCIS) algo-

many ways such as module selection [3]. Algorithm 1 presents a list-based inclusion tion of accumulated execution times in a traditional scheduling algorithm by the fuzzy scheduling framework. Though the concept is simple, the results are very informative. They can be used in different schedules are compared to select a functional unit for scheduling an operation. tency from the given functional specification. Then, using a fuzzy scheme, latency of arithmetic-based computation. Hence, fuzzy arithmetics is used to compute possible laof fuzzy attributes. In a nutshell, inclusion scheduling simply replaces the computaues associated with each functional unit. The output schedule, in turn, also consists eration of fuzzy characteristics which in this case is fuzzy set of varying latency val-Specifically, inclusion scheduling is a scheduling method which takes into consid-

Input:  $G = (V, \mathcal{E}, \beta)$ , Spec = (F, A, M, Q), and N = #FUsAlgorithm 1 (Register-Constrained Inclusion scheduling) Output: A schedule S, with imprecise latency

```
7
                                                                                                                                                                                                                                                                                                                                                                                                                     1 Q = vertices in G with no incoming edges
return(S)
                                                                                                                                                                                                                                                                                                                                                                                     while Q ≠ empty do
                                                                                                                                                                                                                                                                                                                                u = dequeue(Q); mark u scheduled
                                                                                                               foreach v:(u,v)\in E do
                                                                                                                                                    S = good_S
                                                                                                                                                                                                                                                              foreach f \in \{f_j : \text{where } f_j \text{ is able to perform } \beta(u), 1 \leq j \leq N\} do
                                                                                                                                                                                                                                                                                                                                                           Q = prioritized(Q)
                                                                                                                                                                                                                                                                                                good.S = NULL;
                                                       If indegree(v) = 0 then enqueue(Q, v) if od
                                                                                                                                                                                                         if Eval_Schedule_with_Reg(good_S, temp.S, G, Spec)
                                                                                                                                                                                                                                 temp.S = assign.beuristic(S, u, f)
                                                                                       indegree(v) = indegree(v) - 1
                                                                                                                                                                              then good S = temp. S fi od
                                                                                                                                            // keep good schedule
                                                                                                                                                                                                                                                                                                                                                                                                                     // finding root nodes
                                                                                                                                                                                                                                    // assign u at FU f
```

=

is repeated for all nodes in the graph. is computed. Eval Schedule\_with\_Reg compares the current schedule with the "best" one found in previous iterations. The better one of the two is then chosen and the process After node u is assigned to f, the imprecise attributes of the intermediate schedule,

the node's successors in the schedule. That is the value produced by the node must be of a node is imprecise. Traditionally, a life time of a node depends on the location of count used in the schedule. Since an execution time of a node is imprecise, the life time Eval\_Schedule\_with\_Reg (Line 8). In this routine, we also consider the register Algorithm 1. fuzzy arithmetic simply takes place routine

held until its successors have consumed it. For simplicity, let the successors consume the value right after they start.

Recall that a node's execution time is a fuzzy set, where the membership function is defined by  $\mu(x) = y$ . It implies that the node will take x time units with possibility y. Consequently, a stirt time and finished time of a node are fuzzy numbers. To be able to calculate fuzzy stair time and finished time, we must assume that all nodes order of nodes executing in these resources are given based on the modified DFG (i.e., independent nodes executing in the same functional units are inserted (as constructed in Algorithm 3)

# .1 Imprecise Timing Attributes

In the following, we present basic terminologies used in the algorithm which calculates register usage under impreciseness.

**Definition 1.** For  $G=(\mathcal{V},\mathcal{E},\beta)$ , and a given schedule, a fuzzy start time of node  $u\in\mathcal{V},FST(u)$  is a fuzzy set whose membership degree is defined by  $\mu_{FST(u)}(x)=y_i$  i.e. node u may start at time step x with possibility  $y_i$ .

For nodes that are executed at time step 0 in each functional unit, FST(u) = 0, which is a crisp value.

**Definition 2.** For  $G = (\mathcal{V}, \mathcal{E}, \beta)$ , and a given schedule, a fuzzy finished time of node  $u \in \mathcal{V}$ , FFT(u) is a fuzzy set whose membership degree is defined by  $\mu_{FFT(u)}(x) = y$ , i.e. node u may finish at time step x with possibility y.

Hence, FFT(v) = FST(v) + EXEC(v), where EXEC(v) is the fuzzy latency of v. When considering earliest start time of a node,  $FST(v) = \max_{i} (FFT(u_i)) + 1$ ,  $\forall u_i \rightarrow v$ .



Fig. 3. A view of fuzzy start time and finished time

The general idea of using fuzzy numbers is depicted in Figure 3 for both start time and finished time. Circles denote the fuzzy boundary which means that the start time

and finished time boundary of a node is unclear. Indeed, they may also be overlapped as shown in Figure 3(b). When a node occupies a resource at a certain time step, a possibility value is associated with the assignment.

Traditionally, when the timing attribute is a crisp value, the start time x and finished time y of a node form an integer interval [x...y], which will be used to compute the register usage in the schedule. In our case, a fuzzy life time for node u contains two fuzzy sets: FST(u) and MFFT(u), the maximum of start time of all its successors.

Definition 3. For  $G=(\mathcal{V},\mathcal{E},\beta)$ , and a given schedule, fuzzy life time of node  $u_i$  FLT(u) is a pair of [FST(u), MFFT(u)], where  $\mu_{MFFT(u)}=FFT(u)+\max_{i\in\mathcal{F}}(F^i)$ , where  $u\to v_i\in\mathcal{E}$  and  $u_i$ ,  $u_i$ ,  $u_i$  are fuzzy addition and fuzzy maximum respectively.

Given FLT(u), let  $min\_st$  be the minimum time step from FST(u) whose  $\mu_{FST(u)}$  is nonzero, and  $max\_st$  be the maximum time step from FST(u) whose  $\mu_{FST(u)}$  is nonzero. Similarly, let  $min\_fin$  be the minimum time step from MFFT(u) whose  $\mu_{MFFT(u)}$  is nonzero, and let  $max\_fin$  be the maximum time step from MFFT(u) whose  $\mu_{MFFT(u)}$  is nonzero. Without loss of generality, assume that FST(u) and MFFT(u) are sorted in the increasing order of the time step. We create a fuzzy set IFST(u), mapping for a discrete time domain  $[min\_st...max\_st]$  to a real value in [0..1], showing the possibility that at time step x, node u will occupy a register for FST(u) and likewise for IMFFT(u) for MFFT(u) as in Definitions 4–5.

**Definition 4.**  $G = (\mathcal{V}, \mathcal{E}, \beta)$ , a given schedule,  $[min\_st...max\_st]$  and FLT(u)

$$\mu_{IFST(u)}(c) = \begin{cases} 0 & \text{if } c < \min\_st \text{ or } c > \max\_st \\ \max_{x, \min\_st \le x < y} (\mu_{FST(u)}(x)) & \text{otherwise} \end{cases}$$

$$y = \max_{x \in FST(u)} \text{ and } y < c$$

**Definition 5.**  $G = (\mathcal{V}, \mathcal{E}, \beta)$ , a given schedule, [min.fin..max\_fin] and FLT(u)

$$\mu_{IMFFT(u)}(c) = \begin{cases} 0 & \text{if } c < min\_fin \text{ or } \\ c > max\_fin \\ maxy_{x,y < x \leq max\_fin} (\mu_{MFFT(u)}(x)) & \text{otherwise} \\ y = max(MFFT(u)) & \text{and } y < \epsilon \end{cases}$$

From the above calculation, we assume that for any two starting time value  $a, b \in FST(u)$  where a < b, if node u starts at time a, it will be already started at time b. For MFFT(u), when a < b,  $a, b \in MFFT(u)$ , if the value for node u will not be needed at time a, it will not be needed at time b and vice versa. Thus, Definitions 4–5 give the following properties.

Property 1. The possibility of IFST(u) is in nondecreasing order

Property 2. The possibility of IMFFT(u) is in non-increasing order

for a node by defining Definition 6. From IFST(u) and IMFFT(u), we merge the two sets to create a fuzzy interval

**Definition 6.**  $G = (V, \mathcal{E}, \beta)$ , a given schedule, IFST(u) and IMFFT(u)

$$\mu_{IFL} f_{(\bullet)}(c) = \begin{cases} 0 & \text{if } c < \min(\min, st, \min, fin) \text{ or } c > \max(\max, st, \max, fin) \text{ or } c > \max(\max, st, \max, fin) \text{ or } st \le c \le \max, st \text{ or } st \le c \le \max, st \text{ otherwise} \end{cases}$$

register usage for each time step After we compute the fuzzy life time interval for each node, we can start compute

# Register Usage Calculation

 $u \in V$ . Figure 4 displays the meaning of fuzzy life time implied by Definitions 4-5. SAOnce a scheduled DFG is created, FST(u) and FFT(u) must be calculated for all and FA denote the fuzzy start time and the fuzzy finished time of node A respectively. fuzzy life times of A and B are shown in the filled boxes on the right side. Similarly, SB and FB denote the start time and the fuzzy finished time of node B The



Fig. 4. Relationship between scheduled nodes and life time

are needed during these time steps. In particular, during time steps 7 and 8, two registers when the timing attribute is precise, the overlapped interval implies that two registers In the figure, the life time of A and the life time of B may overlap. Traditionally,

start later or finished earlier. In other words, there is a possibility that a node may not that that node may not actually exist during the time step. For example, node may use such a register. With this knowledge, the register may be shared with others with register is needed. However, the derived possibility associated with a time step indicates When an execution time becomes a fuzzy number, each box still implies that one

> be considered in calculating register usages. count would be two although the intersection may not be empty as well. This issue must IFLT(B) is not empty. On the contrary, if A and B are independent, the total register register count would be one. Notice that in this case, the intersection of IFLT(A) and between A o B exists. If edge A o B exists in the original data flow graph, the total registers may be used with some possibility. This depends on whether the dependency high possibility. Consider the overlap interval in Figure 4 at time step 7. One or two

## Ç Algorithms

the start time for each node. schedule. This algorithm is called after Line 7 in Algorithm I which already assigns Algorithm 2 presents a framework in evaluating fuzzy latency and register counts of a

in schedule and find the maximum register usage. The register usage is then kept in quality of the schedule. This quality is then compared in Line 13 to select the best one of the schedule using some heuristic function. The combined attribute is denoted as a finished time of all leaves in  $G_0$ . Line 9 merges latency and register usage attributes can be obtained. The latency of the schedule is obtained by just fuzzy maximizing the Note that after invoking Algorithm 3, necessary timing attributes for all nodes in  $G_0$  $Reg[S_i]$  for a schedule  $S_i$ . Next, the latency of the whole schedule is then calculated. In Algorithm 2, Line 6 invokes Algorithm 3 to calculate the life time of all nodes

# Algorithm 2 (Eval\_Schedule\_with\_Reg)

Output: I if  $S_1$  is better than  $S_2$ , 0 otherwise Input: schedules  $S_1$ ,  $S_2$ ,  $G = (V, \mathcal{E}, \beta)$ , and Spec = (F, A, M, Q)

- $I G_0 = (V_0, \mathcal{E}_0, \beta)$  where  $V_0 = V \{\text{unscheduled nodes}\}, \mathcal{E}_0 = \emptyset$
- foreach schedule  $S_i = S_1$  to  $S_2$  do
- $\mathcal{E}_0 = \{(u, v) : u, v \in \mathcal{V}_0, \text{ if } u, v \text{ in same f.u. in } S_i\}$ and v is immediately after u
- Let W is a set of leaves in Go
- Calculate register usage for  $G_0$  using Algorithm 3
- $quality[S_i] = Combine(latency[S_i], Reg[S_i])$  $latency[S_i] = fuzzymax_time(W)$
- 12 // comparing the overall attributes of both schedules
- return (compare (quality  $[S_1]$ , quality  $[S_2]$ ))

# Algorithm 3 (Calculate\_Register\_Count)

Output: Reg[S] contains register counts needed and its possibility Input: Schoduled Graph  $G_0$  for schodule S and, original DFG  $G = (V, \mathcal{E}, \beta)$  Spec = (F, A, M, Q)

- 1 Calculate FLT(u)  $\forall u \in G_0$  by Definition 3
- 2 Calculate IFLT(u) ∀u ∈ G<sub>0</sub> by Definitions 4-5
- I Let mux\_cs be max. finished time,  $\forall u \in G_0$
- 4 for cs = 1 to max.cs do
- $(RegAt[cs].reg, RegAt[cs].poss) = Count_Node(IFLT, cs, G_0)$  od

```
    4 Vn, FReg[n] = 0
    7 [or cs = 1 lo max.cs do
    a FReg[RegAt(cs].reg].reg = RegAt[cs].reg
    a FReg[RegAt(cs].reg].poss =
    b FReg[RegAt(cs].reg].poss, RegAt[cs].poss) od
    reg[S] = FReg
    Reg[S] = FReg
```

In Algorithm 3, RegAt stores maximum number of registers needed at each cs and its associated possibility. The values are obtained by Algorithm Count\_Node. Lines 7-10 summarize the overall number of registers needed and its possibility. Algorithm Count\_Node is described in Algorithm 4.

Output: # registers needed and its possibility at ca

Algorithm 4 (Count\_Node)
Input: IFLT, Co. cs

```
return (128, poss)
                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                              \forall i \in sorted\_node, i.ok = FALSE, i.count = FALSE
                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                            node_set = {nodes occupy reg at cs
                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                               for every i ∈ sorted_node do
                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                          poss = 0, reg = 0
                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                            set Go in topological order
                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                         Let sorted_node be node_set sorted in by sorted Go
                                                                                                                                                                                If j.ok = TRUE
                                                                                                                                                                                                                                                                                                                                                                                                                                                                                               \underbrace{\text{for } j = i + 1}_{\text{to}} \text{ last node in sorted_node } \underline{\text{do}}
                                                                                                                                                                                                            Let j be the last node in sorted_node
                                                                                                                                                                                                                                                                                                                                                                                                                                                            If i.ok = TRUE and i.count = FALSE
                                                                                                                                                                                                                                                                                                                    If FindPath(i, j)
                                                                                                                                                                                                                                                                            then j.ok = FALSE // don't count descendant fi
                                                                                            reg + +; poss = max(poss, \mu_i FLT(j)(cs))
                                                                  j.count = TRUE
                                                                                                                                                                                                                                                                                                                                                                              reg + +; poss = max(poss, \mu_{IFLT(i)}(cs)
                                                                                                                                                                                                                                                                                                                                                       i.count = TRUE []
```

In Algorithm 4, our heuristic only attempts to consider the ancestor at the current time step. In other words, we assume that the ancestor finishes first and then its descendants can start. Fing ok uses to indicate that the associated node should be counted at the current step or not. If it is a descendant of any of nodes in the current step, the flag will be disable. Since the schedule contains every node, the descendant will be started eventually, reg and poss store the current number of counted nodes and maximum possibility. At Line 3, the nodes currently in this time step indicated by IFLT are sorted in the topological order according to G<sub>0</sub>. Then we extract each node in the sorted list to check if any pair are dependent by using FindPath in Line 13. In the loop, it selectively marks descendant nodes in the current step.

Let us consider the complexity of Algorithm 4. The time complexity is dominated by Lines 6-21, which is  $O(|V|^2(|V|+|E|))$ . Since for DAG, FindPath takes O(|V|+|E|). In Algorithm 3, the calculation for FLT(u) depends on FST(u) and MFFT(u).

## **Experimental Results**

We present experimental results on the voltera filter benchmark [7], containing 27 nodes, where 10 nodes require adder units and the rest requires multiplier units. Assume that we have two types of functional units: adder and multiplier, whose latencies are as shown according to Table 1. In the figure, an adder may have different latency values with the given possibility. Columns "lat" and "pos" show the latency and its possibility of having the latency value for each adder and multiplier. Thus, if the nodes are executed in the functional unit, the node may have variable latency values as well.

Table 1. Adder and multiplier characteristics

| multiplier 7 0 5 112 0 7 112 1 29 0 | adder 5 | poss) | H 6 | 0055<br>(\$150d | 田島 | poss (seed) |  | ダーマ |
|-------------------------------------|---------|-------|-----|-----------------|----|-------------|--|-----|
|-------------------------------------|---------|-------|-----|-----------------|----|-------------|--|-----|

of the resulting schedule. Figure 6 we depict acceptability values for each design concase. Row "Max Reg" displays the maximum number of registers. Row "Acceptability" of the schedule by RCIS and the original inclusion scheduling (IS) for each functional of the filter, increasing the number of multipliers will help reduce the overall latency. scheduling as a scheduling core in the design exploration. Due to the characteristics maximum acceptability values 0.84 (which is greater than the threshold defined at 0.8) number of multipliers becomes 4 or more, RCIS can create a schedule which gives the decreases while the number of register counts needed increases. However, when the figuration based on RCIS. When we increase the number of functional units the latency sum of  $w_1x+w_2y$  where x and y are the weighted latency and weighted register counts latency value. RCIS attempts to create a schedule which minimizes the total weighted that  $w_1 = 1$  and  $w_2 = 10$ . That is we consider register criteria ten times as much as the "Max Latency" presents the maximum latency values for each case. For RCIS, recall shows the acceptability value obtained using the "Avg latency" and "Max Reg". Row unit configuration. Row "Avg Latency" shows the weighted sum of latency for each ble 2. In the table, In particular, Columns "RCIS" and "IS" compare the performance Suppose that we set the acceptability threshold to be 0.8. The results are shown in Tauration of varying the number of functional units using RCIS and original inclusion the latency axis is [200..700]. We demonstrate by considering various design config-Assume the constraint is depicted in Figure 5 where the register axis is [1..7] and

By inspecting the resulting schedule, we conclude that 4 multipliers would be sufficient and adding more multipliers will be wasteful. Compared this the schedule generated by IS, we found that since IS does not consider the register criteria, IS attempts to utilize all available resources to minimize the overall latency values. Thus, the latency of schedule generated by IS keeps decreasing and the number of register counts keep increasing, this will finally decrease the acceptability value according the constraint.

From the results, we can see that to achieve the acceptability threshold 0.8, using RCIS will give a better design solution using fewer number of registers. Consider the running time. For all the cases, the maximum running time is approximately 2.8 seconds to achieve the results for 1 adder and 5 multipliers under Pentium 4 2.8GHz, 1GB RAM.



Fig. 5. Constraint for Voltera filer

Table 2. Exploring various number of functional units using RCIS and IS

|     | 0.84  | 0.84   |       | 0.84   | 3 3   | 0.80   |       | Max Reg<br>Acceptability |
|-----|-------|--------|-------|--------|-------|--------|-------|--------------------------|
| 2 0 | RCI   | SI     | RCIS  | 270    | RCIS  | S IS   | RCIS  | Ave Lalency              |
|     | l add | 4 muls | l add | 3 muls | l add | 2 muls | ppe [ |                          |

## Conclusion

We propose a design exploration framework considering impreciseness. The framework is based on the scheduling core, RCIS which considers impreciseness in the system specification, and constraint and attempts to create a schedule which minimizes both

latency and register usages. The framework can be used to generate various design solutions under imprecise system constraints and characteristics and select an acceptable jutions under latency and register criteria. The experiments demonstrate the usage of solution under latency and register criteria. The experiments demonstrate the usage of the framework on a well-known benchmark, where the selected design solution can be the found with a given acceptability level.



Fig. 6. Acceptability values for each configuration

## References

- 1. I. Ahmad, M. K. Dhodhi, and C.Y.R. Chen. Integrated scheduling, allocation and module selection for design-space exploration in high-level synthesis. *IEEE Proc.-Comput. Digit.*
- Tech., 142:65–71, January 1995.

  2. C. Chantrapomchai, E. H. Sha, and X. S. Hu. Efficient scheduling for imprecise liming based on fuzzy theory. In Proc. Midwest Symposium on Circuits and Systems, pages 272-275, 1998. on fuzzy theory. In Proc. Midwest Symposium on Circuits and Systems, pages 272-275, 1998.
- 3. C. Chantrapornchai, E. H. Sha, and X. S. Hu. Efficient algorithms for finding highly acceptable designs based on module-utility selections. In Proceedings of the Great Lake Symposium on VLSI, pages 128–131, 1999.
- on YLDI, pages 120-131, 1777.

  4. C. Chantrapornichal, E. H-M. Sha, and X. S. Hu. Efficient module selections for finding highly acceptable designs based on inclusion scheduling. J. of System Architecture, ing highly acceptable designs based on inclusion scheduling. J. of System Architecture, 11(4):1047-1071, 2000.
- 5. C. Chantrapornchai, E. H.-M. Sha, and Xiaobo S. Hu. Efficient acceptable design exploration based on module utility selection. IEEE Trans. on Computer Aided Design of Integrated Circuits and Systems, 19:19-29, Jan. 2000.
- 6. C. Chantrapornchai, W. Surakumpolthorn, and E.H. Sha. Efficient scheduling for design exploration with imprecise latency and register constraints. In Lecture Notes in Computer Science: 2004 International Conference on Embedded and Ubiquitous Computing, 2004.
- Science: sure international conferences
  7. C. Chantrapomchai and S. Tongsima. Resource estimation algorithm under impreciseness
  1. Local conferences and S. Tongsima. Resource estimation of Computer Science. Special Issue in using inclusion scheduling. Intl. J. on Foundation of Computer Science. Special Issue in 1976-761. Con 2001
- Scheduling, 12(3):581-598, 2001.

  8. S. Chaudhuri, S. A. Bylthe, and R. A Walker. An exact methodology for schoduling in 3D design space. In Proceedings of the 1995 International Symposium on System Level
- Synthesis, pages 78-83, 1995.

  9. S. Chaudhuri and R. Walker. Computing lower bounds on functional units before scheduling.

  10 Proceedings of the International Symposium on System Level Synthesis, pages 36-41.

3

A. Eichenberger and E. S. Davidson. Register allocation for predicated code. In Proceeding

Alexandre E. Eichenberger and Edward S. Davidson. Stage scheduling: A technique to reduce the register requirements of a modulo schedule. In Proceedings of MICRO-28, pages 338-349, 1995

13. H. Esbensen and E. S. Kuh. Design space exploration using the genetic algorithm. In Proceedings of the 1996 International Symposium on Circuits and Systems, pages 500-503

14. F.Chen, S. Tongsima, and E. H. Sha. Loop scheduling algorithm for timing and memory operation minimization with register constraint. In Proc. SiP'98, 1998. K. Gupta. I stroduction to Juzzy arithmetics. Van Nostrand, 1985.

16. O. Hammami. Fuzzy scheduling in compiler optimizations. In Proceedings of the ISUMA. NAFIPS, 1995.

17. I. Karkowski. Architectural synthesis with possibilistic programming. In HICSS-28, January

18. 1. Karkowski and R. H. J. M. Otten. Retiming synchronous circuitry with imprecise delays In Proceedings of the 32nd Design Automation Conference, pages 322-326, San Francisco

19. A. S. Kaviani and Z. G. Vranesic. On scheduling in multiprocess systems using fuzzy logic In Proceedings of the International Symposium on Multiple-valued Logic, pages 141-147

8 J. Lee, A. Tiao, and J. Yen. A fuzzy rule-based approach to real-time scheduling. In Proc. Inst. Conf. FUZZ-94, volume 2, 1994.

21 Josep Llosa, Eduard Ayguade, Antonio Gonzalez, Mateo Valero, and Jason Eckhardt Computers, 50(3):234-249, 2001. Lifetime-sensitive modulo scheduling in a production environment. IEEE Transactions on

ß Josep Llosa, Mateo Valero, and Eduard Ayguade. Heuristics for register-constrained software pipelining. In International Symposium on Microarchitecture, pages 250-261, 1996.

2 C. A. Mandal, P. O. Chakrabarti, and S. Ghose. Design space exploration for data path synthesis. In Proceedings of the 10th International Conference on VLSI Design, pages 166-

12 K. Mertins et al. Sel-up scheduling by fuzzy logic. In Proceedings of the International conference on computer integrated manufacturing and automation technology, pages 345—

25. J. Rabaey and M. Potkonjak. Estimating implementation bounds for real time DSP applicabon specific circuits. IEEE Transactions on Computer-Aided Design of integrated circuits and systems, 13(6), June 1994.

26. A. Sharma and R. Jain. Estimating architectural resources and performance for high-level synthesis applications. IEEE Transactions on VLSI systems, 1(2):175-190, June 1993. =

27. H. Soma, M. Hon, and T. Sogou. Schedule optimization using fuzzy inference. Proc. FUZZ-95, pages 1171-1176, 1995

3 % I.B. Turksen et al. Fuzzy expert system shell for scheduling. SPIE, pages 308-319, 1993.

L. A. Zadeh. The concept of a linguistic variable and its application to approximate reason-

ing. Part I. Information Science, 8:199-249, 1975.

8 J. Zalamea, J. Llosa, E. Ayguade, and M. Valero. Software and hardware techniques to optimize register file utilization in view architectures. In Proceedings of the International Workshop on Advanced Compiler Technology for High Performance and Embedded Systems

## Hiord: A Type-Free Higher-Order Logic Programming Language with Predicate Abstraction

Daniel Cabeza<sup>1</sup>, Manuel Hermenegildo<sup>1,2</sup>, and James Lipton<sup>1,3</sup>

. {dcabeza, herme, jlipton}@fi.upm.es <sup>1</sup> Technical University of Madrid, Spain <sup>2</sup> University of New Mexico, USA <sup>3</sup> Wesleyan University, USA jlipton@vesleyan.edu herme@unm.edu

introduced. A model theory, based on partial combinatory algebras, is higher-order logic programming languages with predicate abstraction is are discussed. A new proposal for defining modules in this framework is gramming language built on a subset of Hord, and its implementation presented, with respect to which the formalism is shown sound. A pro-Abstract. A new formalism, called Hiord, for defining type-free considered, along with several examples

## Introduction

amenable to speedy translation to WAM-compilable code and static analysis. followed by a discussion of various practical restrictions of this logic to make it gramming with untyped higher-order logic and predicate abstractions. This is This paper presents a new declarative formalism, called Hiord, for logic pro-

compromise declarative transparency. For example, the simple transformation of steps that, in the original first-order context of pure logic programming, seem to troduce higher-order features into logic programming in a declarative fashion code such as the following: has proven a very useful way to place on a solid logical ground certain natural by extending the underlying logic, among them  $\lambda Prolog$  and Hilog [1-4]. This A number of proposals have been made over the past two decades to in-

all(Prop.[H|T1]) :- call(Prop.H), all(Prop.T1) all(Prop,[])

all(Prop,[]).
all(Prop,[H|T1]) :- Prop(H), ail(Prop,T1)

tive program in higher-order logic. This simple example tells only a small part or a typed version thereof, turns a Prolog meta-program into a fully declara-

## ภาคผนวก

Manuscript สำหรับ IEEE Transactions on Computer-Aided Design Submission

NBOX: TCAD 2358: Acknowledgement of paper muse Folders Options Search Help Addressbook Logout IX: TCAD 2358: Acknowledgement of paper of 319) 1 Reply to All | Forward | Redirect | Blacklist | Message Source | Save as | Print sat, 30 Apr 2005 22:56:33 -0700 mad@ece.orst.edu 💐 @su.ac.th ad@ece.orst.edu 🕏 TCAD 2358: Acknowledgement of paper intana chantrapornchai: ou for submitting the following paper to TCAD. Pesign Exploration with Imprecise Latency and Register Constraints C. Chantrapornchai, W. Surakumpolthorn, E. H-M. Sha you sent for this paper printed fine. / takes about three months to make a decision about a paper. be informed via e-mail when the decision has been made. reantime, you may use your id and password to e status of your paper periodically. of the editorial board, I would like to thank you for mission.

Waram Chief

ansactions on CAD

to be clean.

sage has been scanned for viruses and scontent by MailScanner, and is

amer thanks transtec Computers for their support.

Page 1 of 1

Open Folder INBOX

8ack to INBOX ◀ ►
Move | Copy This message to •

Penly | Reply to All | Forward | Redirect | Blacklist | Message Source | Save as | Print

## Design Exploration with Imprecise Latency and Register Constraints

C. Chantrapornchai<sup>†</sup>

Faculty of Science Silpakorn University

Nakorn Pathom, Thailand

W. Surakumpolthorn

Faculty of Engineering

King Mongkut's Institute of Technology

Ladkrabang, Thailand

E. H-M. Sha<sup>‡</sup>

Dept. of Computer Science University of Texas at Dallas

Richardson, U.S.A

## Abstract

We propose a design exploration framework which consider impreciseness in design specification. In high-level synthesis, imprecise information is often encountered. We consider two types of imprecesness: impreciseness underlying on functional unit specifications and on contraints: latency and register. The framework is iterative and based on a core scheduling called, *Register-Constrained Inclusion Scheduling*. An example how the scheduling algorithm work is shown. We demonstrate the effectiveness of our framework for imprecise specification by exploring a design solution for a well-known benchmark, *Discrete Cosine Transform*, and *Voltera Filter*. The selected solution meets the acceptability criteria while minimizing the total number of registers.

**Keywords:** Imprecise Design Exploration, Scheduling/Allocation, Multiple design attributes, Imprecise information, Register constraint, Inclusion Scheduling

## Corresponding author:

Chantana Chantrapornchai Faculty of Science, Silpakorn University, Nakorn Pathom, Thailand 73000

ctana@su.ac.th

<sup>&</sup>lt;sup>†</sup>This work was supported in part by the TRF under grant number MRG4680115.

<sup>&</sup>lt;sup>‡</sup>This work was supported in part by TI University Program, NSF EIA 0103709, Texas ARP-009741-0028-2001 and NSF CCR-0309461, USA.

## 1 Introduction

In architectural level synthesis, imprecise information is almost unavoidable. For instance, an implementation of a particular component in a design may not be known due to several reasons. There may be various choices of modules implementing the functions or the component may have not been completely designed down to the geometry level. Even if it has been designed, variation in fabrication process will likely induce varying area and time measurements. Another kind of impreciseness or vagueness arises from the way a design is considered to be acceptable at architecture level. If a design with latency of 50 cycles is acceptable, what about a design with 51 cycles versus a design with 75 cycles? This even becomes imprecise especially when there are multiple conflicting design criteria. For example, is it worth to expand a latency by two cycles while saving one register and what about expanding 10 more cycles? Effective treatment of such impreciseness in high level synthesis can undoubtedly play a key role in finding optimal design solutions.

In this paper, we propose a design exploration framework which considers imprecise information underlying in system specification and requirements. Particularly, we are interested in the latency and register constraints. However, the approach can be extended to handle other multiple design criteria. The system characteristics are modeled based on the fuzzy set theory. Register count is considered as another dimension of imprecise system requirement. The work in [3, 7] is used as a scheduling core in the iterative design refinement process. The imprecise schedule which minimizes the register usage is generated. If the schedule meets acceptability criteria, the design solution is selected. Otherwise, the resources are adjusted an the process is repeated. Our input system is modeled using a data flow graph with imprecise timing parameters. Such systems can be found in many digital signal processing applications, e.g., communication switches and real-time multimedia rendering systems. Imprecise specification on both system parameters and constraints can have a significant impact on component resource allocation and scheduling for designing these systems. Therefore, it is important to develop synthesis and optimization techniques which incorporate such impreciseness.

Most traditional synthesis tools ignore these vagueness or impreciseness in the specification. In particular, they assume the worst case (or sometimes typical case) execution time of a functional unit. The constraints are usually assumed to be a fixed precise value although in reality some flexibility can be allowed in the constraint due to the individual interpretation of an "acceptable" design. Such assumptions can be misleading, and may result in a longer design process and/or overly expensive design solutions. By properly considering the impreciseness up front in the design process, a good initial design solution can be achieved with provable degree of acceptance. Such a design solution can be used effectively in the iterative process of design refinement, and thus, the number of redesign cycles can be reduced.

Random variables with probability distributions may be used to model such uncertainty. Nevertheless, collecting the probability data is sometimes difficult and time consuming. Furthermore, some imprecise information may not be correctly captured by the probabilistic model. For example, certain inconspicuousness in the design goal/constraint specification, such as the willingness of the user to accept certain designs or the confidence of the engineer towards certain designs, cannot be described by probabilistic distribution.

Many researchers have applied the fuzzy logic approach to various kinds of scheduling problem. In compiler optimization, fuzzy set theory has been used to represent unpredictable real-time events and imprecise knowledge about variables [18]. Lee et.al. applied the fuzzy inference technique to find a feasible real-time schedule where each

task satisfies its deadline under resource constraints [23]. In production management area, fuzzy rules were applied to job shop and shop floor scheduling [27, 33]. Kaviani and Vranesic used fuzzy rules to determine the appropriate number of processors for a given set of tasks and deadlines for real-time systems [22]. Soma et.al. considered the schedule optimization based on fuzzy inference engine [32]. These approaches, however, do not take into account the fact that an execution delay of each job can be imprecise and/or multiple attributes of a schedule.

Many research results are available for design space exploration [1, 9, 15, 26]. All of these works differ in the techniques used to generate a design solution as well as the solution justification. These works, however, do not consider the impreciseness in the system attributes such as latency constraints and the execution time of a functional unit. Karkowski and Otten introduced a model to handle the imprecise propagation delay of events [19, 20]. In their approach, the fuzzy set theory was employed to model imprecise computation time. Their approach applies possibilistic programming based on the integer linear programming (ILP) formulation to simultaneously schedule and select a functional unit allocation under fuzzy area and time constraints. Nevertheless, the complexity of solving the ILP problem with fuzzy constraints and coefficients can be very high. Furthermore, they do not consider multiple degrees in acceptability of design solutions. Several papers were published on the resource estimation [10, 28, 31]. These approaches, however, neither consider multiple design attributes nor impreciseness in system characteristics.

Many research works related to scheduling and register allocation exist in high-level synthesis and compiler optimization area for VLIW architecture. Varatkar et. al. proposed a scheduling algorithm for multiprocessor systems which consider minimizing total system energy [34]. Shao et. al. presented instruction scheduling for loop applications which considers minimizing switching activity [30]. These work, however, do not consider register usage minimization. Chen et. al. proposed a loop scheduling for timing and memory operation optimization under register constraint [16]. The technique is based on multi-dimensional retiming. Eichenberger et. al. presented an approach for register allocation for VLIW and superscalar code via stage scheduling [13, 14]. Akturan and Jacome also proposed a scheduling algorithm which considers minimizing register usage for software pipelining [2]. The algorithm uses retiming and force directed scheduling and explores the trade-off between code size, performance, and register requirements. Wong et. al. developed a strategy to insert objective functions during scheduling and register allocation steps [35]. Their algorithm is called, scheduling FLOF, which attempts to minimize register usage subjected to the latency and resource constraints. Dani et. al. also presented a heuristic which uses stage scheduling to minimize register requirement. They also targeted at instruction level scheduling [11]. Zalamea et. al. presented hardware and software approach to minimize the register's usage targeting VLIW architecture [24, 25, 38]. On the software side, they proposed an extended version of modulo scheduling which considers register constraint, and register spilling. However, these work focus on loop scheduling and do not consider handling the imprecise system characteristics or specification.

In [3], the inclusion scheduling which takes the imprecise system characteristic was proposed. The algorithm was expanded and used in design exploration under imprecise system requirement as well as the estimation of resource bounds [5, 6, 8]. However, it does not take register criteria in creating a schedule.

In this paper, we particularly consider both imprecise latency and register constraints. We develop a design exploration framework under imprecise specification and constraints. The framework is iterative and based on the developed scheduling core, RCIS, Register-Constrained Inclusion Scheduling that takes imprecise information into account. Experimental results show that we can achieve an acceptable design solution with minimized number of registers.

This paper is organized as follows: Section 2 describes our models. It also presents some backgrounds in fuzzy set. Section 3 presents the iterative design framework. Section 4 presents the scheduling core (RCIS) used in the design exploration framework. It also addresses some issues when the register count is calculated during scheduling. An example how the scheduling algorithm works is shown in Section 5. Section 6 displays some experimental results. Finally, Section 7 draws a conclusion from our work.

## 2 Overview and Models

In this section, we first describe our model as well as problem description. Since in developing an inclusion schedule some fuzzy arithmetics is involved, we also review some basic concepts in fuzzy computation.

## 2.1 Model Descriptions

Operations and their dependencies in an application are modeled by a vertex-weighted directed acyclic graph, called a Data Flow Graph,  $G = (\mathcal{V}, \mathcal{E}, \beta)$ , where each vertex in the vertex set  $\mathcal{V}$  corresponds to an operation and  $\mathcal{E}$  is the set of edges representing data flow between two vertices. Function  $\beta$  defines the type of operation for node  $\nu \in \mathcal{V}$ . Figure 1



Figure 1: Test1: Data flow graph example

shows a five-node data flow graph, where  $\mathcal{V} = \{A, B, C, D, E\}$ ,  $\mathcal{E} = \{A \to E, B \to E, C \to E, D \to E\}$ ,  $(\mathfrak{u} \to \mathfrak{v})$  defines a directed edge from  $\mathfrak{u}$  to  $\mathfrak{v}$ ),  $\beta(A) = \beta(B) = \beta(E) = \text{add}$ , and  $\beta(C) = \beta(D) = \text{multiply}$ .

Operations in a data flow graph can be mapped to different functional units which in turn can have varying characteristics. Such a system must also satisfy certain design constraints, for instance, power and cost limitations. These specifications are characterized by a tuple  $S = (\mathcal{F}, \mathcal{A}, \mathcal{M}, \mathcal{Q})$ , where  $\mathcal{F}$  is the set of functional unit types available in the system, e.g., {add, mul}.  $\mathcal{A}$  is  $\{A_f : \forall f \in \mathcal{F}\}$ . Each  $A_f$  is a set of tuples  $(\alpha_1, \ldots, \alpha_k)$ , where  $\alpha_1$  to  $\alpha_k$  represent attributes of particular f. In this paper, we use only latency as an example attribute. (Note that our approach is readily applicable to include other constraints such as power and area). Hence,  $A_f = \{x : \forall x\}$  where x refers to the latency attribute of f.  $\mathcal{M}$  is  $\{\mu_f : \forall f \in \mathcal{F}\}$  where  $\mu_f$  is a mapping from  $A_f$  to a set of real number in [0,1], representing a possible degree of using the value. Finally,  $\mathcal{Q}$  is a function that defines the degree of a system being acceptable for different system attributes. If  $\mathcal{Q}(\alpha_1, \ldots, \alpha_k) = 0$  the corresponding design is totally unacceptable while  $\mathcal{Q}(\alpha_1, \ldots, \alpha_k) = 1$ , the corresponding design is definitely acceptable.

Using a function Q to define the acceptability of a system is a very powerful model. It can not only define certain constraints but also express certain design goals. For example, one is interested in designing a system with latency under 500 and register count being less than 6 respectively. Also, the smaller latency and register count, the

better a system is. The best system would have both latency and register count being less than or equal to 100 and 1 respectively. An acceptability function,  $Q(\alpha_1, \alpha_2)$  for such a specification is formally defined as:

$$Q(\alpha_1, \alpha_2) = \begin{cases} 0 & \text{if } \alpha_1 > 500 \text{ or } \alpha_2 > 6\\ 1 & \text{if } \alpha_1 \le 100 \text{ and } \alpha_2 \le 1\\ F(\alpha_1, \alpha_2) & \text{otherwise,} \end{cases}$$
 (1)

where F is assumed to be linear functions, e.g.,  $F(\alpha_1, \alpha_2) = 1.249689(\alpha_1 + 2\alpha_2) - 0.001242$  which returns the acceptability between (0, 1).

Figure 2 illustrates Equation (1) graphically. In this constraint, we express the weighted sum of the two criteria which gives the preference to minimizing register count twice as much as minimizing latency, that is latency: register count is 1:2. In other words, we are willing to spend two more latency cycles if one register can be saved.

Figure 3 shows the projection of Equation (1) on latency and possibility axis.



Figure 2: Imprecise constraint where Latency: Register is 1:2.



Figure 3: Projection of constraint in Figure 2.

In general, one may model any criteria by

$$Q(a_{1}, a_{2}, ...a_{n}) = \begin{cases} 0 & \text{if } a_{1} > p_{1_{max}}... \text{ or } a_{n} > p_{n_{max}} \\ 1 & \text{if } a_{1} \leq p_{1_{min}}... \text{ and } a_{n} \leq p_{n_{min}} \end{cases}$$

$$F(w_{1}a_{1} + w_{2}a_{2} + ...w_{n}a_{n}) & \text{otherwise.}$$
(2)

where

For example, we can simply replace the register constraint by others such as power. Figure 4(b) depicts an example of the specification concerning the tradeoff graphically where  $w_1 = 2$ ,  $w_2 = 1$ . Hence, F refers to a z-shaped curve function which produces a smooth transition between two given points. Figure 4(c) shows the projection of the 3-dimensional acceptability model to the latency and acceptability plane. In this figure, each z curve represents a projection of Q function to a latency-acceptability plane. An inner curve (tighter latency constraint) corresponds to larger power values. Based on the acceptability model, a design with high acceptability implies an optimized design towards certain goals.

Based on the above model, the combined scheduling/binding we intend to solve can be formulated as follows:

Given a specification containing  $S = (\mathcal{F}, \mathcal{A}, \mathcal{M}, \mathcal{Q})$ ,  $G = (\mathcal{V}, \mathcal{E}, \beta)$ , and acceptability level  $\alpha$ , find a schedule under functional unit and register constraints for each f in  $\mathcal{F}$  whose the acceptability degree is greater than or equal to  $\alpha$  subject Q.

## 2.2 Fuzzy Sets

In this section, we give a quick review of fuzzy set theory as it relates to our work. Readers familiar with the theory can skip this part.

Fuzzy sets, proposed by Zadeh, represent a set with imprecise boundary [36, 37]. In classical (crisp) sets, an element can either be a member of a set or not at all; hence, its membership degree is either 1 or 0. A fuzzy set is defined by assigning each element in a universe of discourse its membership degree in the unit interval [0, 1], conveying to what degree x is a member in the set. This membership value can be defined as a membership function of an element in the set,  $\mu(x): x \to [0, 1]$ .

A fuzzy set is said to be *normal* if there exists at least one member in the set whose membership value is unity. A *convex* fuzzy set is defined as: for any x, y, and z in the fuzzy set A, the relation x < y < z implies that  $\mu_A(y) \ge \min(\mu_A(x), \mu_A(z))$ . A fuzzy number is a normal, convex fuzzy set defined on the real line R. Let A and B be fuzzy numbers with membership functions  $\mu_A(x)$  and  $\mu_B(y)$ , respectively. Let \* be a set of binary operations  $\{+,-,\times,\div,\min,\max\}$ . The arithmetic operations between two fuzzy numbers, defined on A \* B with membership function  $\mu_{A*B}(z)$ , can use the extension principle, by [17]:

$$\mu_{A*B}(z) = \bigvee_{z=x*y} (\mu_A(x) \wedge \mu_B(y))$$
(3)

where  $\vee$  and  $\wedge$  denote max and min operations respectively.

Fuzzy arithmetic is used to compute an arithmetic operation between two fuzzy numbers. Figure 5(a) shows a fuzzy number A, which is assumed to be normal triangular-shaped lied on an real line. In this figure, let A be assigned with the confidence interval (2, 6). The most possible value of A is 4 since its *confidence level* or *presumption level* is 1. Similarly, Figure 5(b) shows the fuzzy number with the confidence interval (3, 7) representing B. Figure 5(c)



(a) Linear acceptability

(b) z curve acceptability with trade-off



(c) Latency acceptability curves corresponding to different power constraints derived from Figure 4(b)

Figure 4: Various kinds of acceptability functions



Figure 5: Adding two fuzzy numbers, A and B

demonstrates a graphical result of adding two fuzzy numbers defined on the integer line from Figures 5(a)–5(b), using Equation (3).

In order to compare two fuzzy numbers, several methods can be used. All of these methods are based on selecting a representative for each fuzzy number and compare the representatives [21]. One way to obtain the representatives is using the *removal* with respect to k, which is a measure of distance from k, computed by  $R(A, k) = \frac{1}{2}(R_1(A, k) + R_r(A, k))$ , where A is a fuzzy number, k is a reference position on the x-axis,  $R_1$  is the area bounded by the left side of the curve and the line x = k and similarly for the right side,  $R_r$ . Another can be *mode*, which uses the value x such that  $\mu(x) = \max_i \{\mu(x_i)\}$  for all  $x_i$  in the fuzzy set. *Divergence* is another way to calculate the representatives. It represents the width of the set which is computed by  $x_{max} - x_{min}$ . In addition, the defuzzified value can be used to represent the fuzzy set. Several defuzzified methods can be found in [29].

Based on the fuzzy set concept, we model the relationship between functional units and possible characteristics such that each functional unit is associated with a fuzzy set of characteristics. Given a functional unit f and its possible characteristic set  $A_f$  let  $\mu_f(\alpha) \in [0, 1], \forall \alpha \in A_f$ , describe a possibility of having attribute  $\alpha$  for a functional unit f. Let us focus on the timing attribute. A fuzzy set of timing characteristic of a functional unit f may be  $\{-\frac{10}{.2}, \frac{20}{.4}, \frac{35}{.1}, \frac{70}{.7}, \frac{70}{.$ 

## 3 Iterative Design Framework



Figure 6: Design solution finding process using RCIS

Figure 6 presents an overview of our iterative design process for finding a satisfactory solution. One may estimate the initial design configuration with any heuristic for example using ALAP, and/or ASAP scheduling [8]. The RCIS scheduling and allocation process produces the imprecise schedule attributes which are used to determine whether or not the design configuration is acceptable.

RCIS is a scheduling and allocation process which incorporates varying information of each operation. It takes an application modeled by a directed acyclic graph as well as the number of functional units that can be used to compute this application. Then, the schedule of the application is derived. This schedule shows an execution order of operations

in the application based on the available functional units. The total attributes of the application can be derived after the schedule is computed. The given acceptability function is then checked with the derived attributes of the schedule.

In order to determine whether or not the resource configuration is satisfied the objective function, we use the acceptability threshold. If the schedule attributes lead to the acceptability level being greater than the threshold, the process stops. Otherwise, the resource configuration is adjusted using a heuristic and this process is repeated until the design solution cannot be improved or the design solution is found.

# 4 Register-Constraint Inclusion Scheduling

In this section, we present the register-constraint inclusion scheduling (RCIS) algorithm. The algorithm is based on the *inclusion scheduling* core presented in Algorithm 4.1. The algorithm evaluates the quality of the schedule by considering imprecise register criteria which will be discussed later subsections

Specifically, inclusion scheduling is a scheduling method which takes into consideration of fuzzy characteristics which in this case is fuzzy set of varying latency values associated with each functional unit. The output schedule, in turn, also consists of fuzzy attributes. In a nutshell, inclusion scheduling simply replaces the computation of accumulated execution times in a traditional scheduling algorithm by the fuzzy arithmetic-based computation. Hence, fuzzy arithmetics is used to compute possible latency from the given functional specification. Then, using a fuzzy scheme, latency of different schedules are compared to select a functional unit for scheduling an operation. Though the concept is simple, the results are very informative. They can be used in many ways such as module selection [4]. Algorithm 4.1 presents a list-based inclusion scheduling framework.

#### Algorithm 4.1 (Register-Constrained Inclusion scheduling)

```
Input: G = (V, \mathcal{E}, \beta), Spec = (F, \mathcal{A}, \mathcal{M}, \mathcal{Q}), and N = \#FUs
Output: A schedule S, with imprecise latency
```

```
1 Q = vertices in G with no incoming edges
                                                                                                                           // finding root nodes
 2 while Q \neq \text{empty do}
 3
           Q = prioritized(Q)
           u = dequeue(Q); mark u scheduled
 4
 5
           good_S = NULL;
           foreach f \in \{f_i : \text{ where } f_i \text{ is able to perform } \beta(u), 1 \le j \le N\} do
 б
 7
              temp_S = assign\_heuristic(S, u, f)
                                                                                                                            // assign u at FU f
              if Eval_Schedule_with_Reg(good_S, temp_S, G, Spec)
 8
 9
                then good_S = temp_S \underline{fi} \underline{od}
10
           S = good_{-}S
                                                                                                                         // keep good schedule
II
           for each v:(u,v)\in E do
12
              indegree(v) = indegree(v) - 1
13
             \underline{\mathbf{if}} indegree (v) = 0 then enqueue (Q, v) \underline{\mathbf{fi}} od
14 od
15 return(S)
```

After node u is assigned to f, the imprecise attributes of the intermediate schedule, is computed. Eval\_Schedule\_with\_Reg compares the current schedule with the "best" one found in previous iterations. The better one of the two is then chosen and the process is repeated for all nodes in the graph.

In Algorithm 4.1, fuzzy arithmetic simply takes place in routine Eval Schedule with Reg (Line 8). In this routine, we also consider the register count used in the schedule. Since an execution time of a node is imprecise, the life time of a node is imprecise. Traditionally, a life time of a node depends on the location of the node's successors in the schedule. That is the value produced by the node must be held until its successors have consumed it. For simplicity, let the successors consume the value right after they start.

Recall that a node's execution time is a fuzzy set, where the membership function is defined by  $\mu(x) = y$ . It implies that the node will take x time units with possibility y. Consequently, a start time and finished time of a node are fuzzy numbers. To be able to calculate fuzzy start time and finished time, we must assume that all nodes have been assigned to functional units already. We assume that resource binding and order of nodes executing in these resources are given based on the modified DFG (i.e, scheduled DFG). The modified DFG is just the original DFG where extra edges due to independent nodes executing in the same functional units are inserted (as constructed in Algorithm 4.3).

## 4.1 Imprecise Timing Attributes

In the following, we present basic terminologies used in the algorithm which calculates register usage under impreciseness.

**Definition 4.1** For  $G = (\mathcal{V}, \mathcal{E}, \beta)$ , and a given schedule, a fuzzy start time of node  $u \in V$ , FST(u) is a fuzzy set whose membership degree is defined by  $\mu_{FST(u)}(x) = y$ , i.e, node u may start at time step x with possibility y.

For nodes that are executed at time step 0 in each functional unit, FST(u) = 0, which is a crisp value.

**Definition 4.2** For  $G = (\mathcal{V}, \mathcal{E}, \beta)$ , and a given schedule, a fuzzy finished time of node  $u \in V$ , FFT (u) is a fuzzy set whose membership degree is defined by  $\mu_{\text{FFT}(u)}(x) = y$ , i.e, node u may finish at time step x with possibility y.

Hence, FFT(v) = FST(v) + EXEC(v), where EXEC(v) is the fuzzy latency of v. When considering earliest start time of a node,  $FST(v) = max_i(FFT(u_i)) + 1$ ,  $\forall u_i \rightarrow v$ .



Figure 7: A view of fuzzy start time and finished time

The general idea of using fuzzy numbers is depicted in Figure 7 for both start time and finished time. Circles denote the fuzzy boundary which means that the start time and finished time boundary of a node is unclear. Indeed, they may also be overlapped as shown in Figure 7(b). When a node occupies a resource at a certain time step, a possibility value is associated with the assignment.

Traditionally, when the timing attribute is a crisp value, the start time x and finished time y of a node form an integer interval [x...y], which will be used to compute the register usage in the schedule. In our case, a fuzzy life time for node u contains two fuzzy sets: FST (u) and MFFT (u), the maximum of start time of all its successors.

**Definition 4.3** For  $G = (\mathcal{V}, \mathcal{E}, \beta)$ , and a given schedule, fuzzy life time of node u, FLT(u) is a pair of [FST(u), MFFT(u)], where  $\mu_{MFFT(u)} = FFT(u) + \max(FST(\nu_i))$ , where  $u \to \nu_i \in \mathcal{E}$  and +, max are fuzzy addition and fuzzy maximum respectively.

Given FLT (u), let min\_st be the minimum time step from FST (u) whose  $\mu_{FST(u)}$  is nonzero, and max\_st be the maximum time step from FST (u) whose  $\mu_{FST(u)}$  is nonzero. Similarly, let min\_fin be the minimum time step from MFFT (u) whose  $\mu_{MFFT(u)}$  is nonzero, and let max\_fin be the maximum time step from MFFT (u) whose  $\mu_{MFFT(u)}$  is nonzero. Without loss of generality, assume that FST (u) and MFFT (u) are sorted in the increasing order of the time step. We create a fuzzy set IFST (u), mapping for a discrete time domain [min\_st...max\_st] to a real value in [0..1], showing the possibility that at time step x, node u will occupy a register for FST (u) and likewise for IMFFT (u) for MFFT (u) as in Definitions 4.4–4.5.

**Definition 4.4**  $G = (V, \mathcal{E}, \beta)$ , a given schedule, [min\_st...max\_st] and FLT(u)

$$\mu_{\mathsf{IFST}(u)}(c) = \begin{cases} 0 & \textit{if } c < \mathsf{min\_st} \, \textit{or} \, c > \mathsf{max\_st} \\ \max_{\forall x, \min\_st \leq x < y} (\mu_{\mathsf{FST}(u)}(x)) & \textit{otherwise} \\ y = \max_{\mathsf{FST}(u)) \, \textit{and} \, y < c} \end{cases}$$

**Definition 4.5**  $G = (V, \mathcal{E}, \beta)$ , a given schedule, [min\_fin...max\_fin] and FLT(u)

$$\mu_{\text{IMFFT(u)}}(c) = \begin{cases} 0 & \text{if } c < \text{min\_fin or} \\ c > \text{max\_fin} \\ \max_{\forall x, y < x \le \text{max\_fin}} (\mu_{\text{MFFT(u)}}(x)) & \text{otherwise} \\ y = \max(\text{MFFT(u)}) \text{ and } y < c \end{cases}$$

From the above calculation, we assume that for any two starting time value  $a, b \in FST(u)$  where a < b, if node u starts at time a, it will be already started at time b. For MFFT(u), when a < b,  $a, b \in MFFT(u)$ , if the value for node u will not be needed at time a, it will not be needed at time b and vice versa. Thus, Definitions 4.4–4.5 give the following properties.

**Property 4.1** The possibility of IFST(u) is in nondecreasing order.

**Property 4.2** The possibility of IMFFT (u) is in non-increasing order.

From IFST(u) and IMFFT(u), we merge the two sets to create a fuzzy interval for a node by defining Definition 4.6.

**Definition 4.6**  $G = (V, \mathcal{E}, \beta)$ , a given schedule, IFST(u) and IMFFT(u).

$$\mu_{IFLT(u)}(c) = \begin{cases} 0 & \textit{if } c < min(min\_st, min\_fin) \textit{ or } \\ c > max(max\_st, max\_fin) \end{cases}$$
 
$$max(\mu_{IFST(u)}(c), \mu_{IMFFT(u)}(c)) & \textit{if } min\_st \leq c \leq max\_st \\ \textit{ or } min\_fin \leq c \leq max\_fin \end{cases}$$
 
$$0 & \textit{ otherwise }$$

After we compute the fuzzy life time interval for each node, we can start compute register usage for each time step.

## 4.2 Register Usage Calculation

Once a scheduled DFG is created, FST(u) and FFT(u) must be calculated for all  $u \in V$ . Figure 8 displays the meaning of fuzzy life time implied by Definitions 4.4–4.5. SA and FA denote the fuzzy start time and the fuzzy finished time of node A respectively. Similarly, SB and FB denote the start time and the fuzzy finished time of node B The fuzzy life times of A and B are shown in the filled boxes on the right side.



Figure 8: Relationship between scheduled nodes and life time

In the figure, the life time of A and the life time of B may overlap. Traditionally, when the timing attribute is precise, the overlapped interval implies that two registers are needed during these time steps. In particular, during time steps 7 and 8, two registers are needed.

When an execution time becomes a fuzzy number, each box still implies that one register is needed. However, the derived possibility associated with a time step indicates that that node may not actually exist during the time step. For example, node may start later or finished earlier. In other words, there is a possibility that a node may not use such a register. With this knowledge, the register may be shared with others with high possibility. Consider the overlap interval in Figure 8 at time step 7. One or two registers may be used with some possibility. This depends on whether the dependency between  $A \to B$  exists. If edge  $A \to B$  exists in the original data flow graph, the total register count would be one. Notice that in this case, the intersection of IFLT(A) and IFLT(B) is not empty. On the contrary, if A

and B are independent, the total register count would be two although the intersection may not be empty as well. This issue must be considered in calculating register usages.

#### 4.3 Algorithms

Algorithm 4.2 presents a framework in evaluating fuzzy latency and register counts of a schedule. This algorithm is called after Line 7 in Algorithm 4.1 which already assigns the start time for each node.

In Algorithm 4.2, Line 6 invokes Algorithm 4.3 to calculate the life time of all nodes in schedule and find the maximum register usage. The register usage is then kept in  $Reg[S_1]$  for a schedule  $S_1$ . Next, the latency of the whole schedule is then calculated. Note that after invoking Algorithm 4.3, necessary timing attributes for all nodes in  $G_0$  can be obtained. The latency of the schedule is obtained by just fuzzy maximizing the finished time of all leaves in  $G_0$ . Line 9 merges latency and register usage attributes of the schedule using some heuristic function. The combined attribute is denoted as a *quality* of the schedule. This quality is then compared in Line 13 to select the best one.

```
Algorithm 4.2 (Eval_Schedule_with_Reg)
```

```
Input: schedules S_1, S_2, G = (\mathcal{V}, \mathcal{E}, \beta), and Spec = (F, \mathcal{A}, \mathcal{M}, \mathcal{Q})
Output: 1 if S_1 is better than S_2, 0 otherwise.
```

```
 \begin{array}{ll} {\it I} & G_0 = (\mathcal{V}_0, \mathcal{E}_0, \beta) \text{ where } \mathcal{V}_0 = \mathcal{V} - \{\text{unscheduled nodes}\}, \mathcal{E}_0 = \emptyset \\ {\it 2} & \underline{\text{foreach}} \text{ schedule } S_i = S_1 \, \underline{\text{to}} \, S_2 \, \underline{\text{do}} \\ {\it 3} & \mathcal{E}_0 = \{\{u,v\}: u,v \in \mathcal{V}_0, \text{ if } u,v \text{ in same f.u. in } S_i \\ {\it 4} & \text{and } v \text{ is immediately after } u\} \\ {\it 6} & \text{Calculate register usage for } G_0 \, \text{using Algorithm 4.3} \\ {\it 7} & \text{Let } W \text{ is a set of leaves in } G_0 \\ {\it 8} & \text{latency}[S_i] = \text{fuzzymax\_time}(W) \\ {\it 9} & \text{quality}[S_i] = \text{Combine}(\text{latency}[S_i], \text{Reg}[S_i]) \\ {\it 10} & \underline{\text{od}} \\ {\it 12} & \textit{If comparing the overall attributes of both schedules} \\ {\it 13} & \underline{\text{return}}(\text{compare}(\text{quality}[S_1], \text{quality}[S_2])) \\ \end{array}
```

#### Algorithm 4.3 (Calculate Register Count)

**Input:** Scheduled Graph  $G_0$  for schedule S and, original DFG  $G = (\mathcal{V}, \mathcal{E}, \beta)$  Spec  $= (F, \mathcal{A}, \mathcal{M}, \mathcal{Q})$  Output: Reg[S] contains register counts needed and its possibility

```
1 Calculate FLT(u) \forall u \in G_0 by Definition 4.3

2 Calculate IFLT(u) \forall u \in G_0 by Definitions 4.4-4.5

3 Let max\_cs be max. finished time, \forall u \in G_0

4 for cs = 1 to max\_cs do

5 (RegAt[cs].reg, RegAt[cs].poss) = Count\_Node(IFLT, cs, G_0) od

6 \forall n, FReg[n] = 0

7 for cs = 1 to max\_cs do

8 FReg[RegAt[cs].reg].reg = RegAt[cs].reg

9 FReg[RegAt[cs].reg].poss =
```

```
    10 max(FReg[RegAt[cs].reg].poss, RegAt[cs].poss) od
    12 Reg[S] = FReg
```

In Algorithm 4.3, *RegAt* stores maximum number of registers needed at each *cs* and its associated possibility. The values are obtained by Algorithm *Count\_Node*. Lines 7–10 summarize the overall number of registers needed and its possibility. Algorithm *Count\_Node* is described in Algorithm 4.4.

#### Algorithm 4.4 (Count\_Node)

Input: IFLT, Go, cs

Output: # registers needed and its possibility at cs

```
1 node_set = {nodes occupy reg at cs}
 2 set Go in topological order
 3 Let sorted_node be node_set sorted in by sorted Go
 4 poss = 0, reg = 0
 5 \forall i \in sorted\_node, i.ok = FALSE, i.count = FALSE
 6 for every i ∈ sorted_node do
       for j = i + 1 to last node in sorted_node do
          if i.ok = TRUE and i.count = FALSE
 8
 9
             then
                  reg + +; poss = max(poss, \mu_{IFLT(i)}(cs))
10
                  i.count = TRUE fi
II
           if FindPath(i,j)
13
             then j.ok = FALSE // don't count descendant fi
14
15
       Let j be the last node in sorted_node
16
17
       if j.ok = TRUE
18
         then
19
              reg + +; poss = max(poss, \mu_{IFLT(i)}(cs))
              j.count = TRUE fi
20
21 od
22 return (reg, poss)
```

In Algorithm 4.4, our heuristic only attempts to consider the ancestor at the current time step. In other words, we assume that the ancestor finishes first and then its descendants can start. Flag ok uses to indicate that the associated node should be counted at the current step or not. If it is a descendant of any of nodes in the current step, the flag will be disable. Since the schedule contains every node, the descendant will be started eventually. reg and poss store the current number of counted nodes and maximum possibility. At Line 3, the nodes currently in this time step indicated by IFLT are sorted in the topological order according to G<sub>0</sub>. Then we extract each node in the sorted list to check if any pair are dependent by using FindPath in Line 13. In the loop, it selectively marks descendant nodes in the current step.

Let us consider the complexity of Algorithm 4.4. The time complexity is dominated by Lines 6-21, which is  $O(|V|^2(|V|+|E|))$ , since for DAG, FindPath takes O(|V|+|E|).

In Algorithm 4.3, the calculation for FLT(u) depends on FST(u) and MFFT(u). Let  $N_1$  be the number of discrete points in FST(u) and MFFT(u). Lines 1–2 perform the calculation whose upper bound is of  $O(N_1|V||E|)$ . The computation for IFLT(u) is simply a double loop for each node. In overall, Algorithm 4.3 runs in polynomial time.

## 5 Example

We integrate Algorithm 4.2 into Algorithm 4.1. The new algorithm is called Register-Constrained Inclusion Scheduling (RCIS). In this section, we present an example which shows the calculation for FLT and the resulting schedule. Then we discuss the results on other benchmarks.

Consider the simple DFG presented in Figure 9. Assume that there are four general functional units available, where FU1 and FU3 have the same characteristics as well as FU2 and FU4 as shown in Table 1. In the figure, Columns "(lat,poss)" show the latency and its possibility of having the latency value if the nodes are executed in a functional unit. In this case, FU1 and FU3 have the same characteristics while FU2 and FU4 have the same characteristics.



Figure 9: A simple DFG example.

| FUs     | (lat,poss) |      | (lat,poss) |      | (lat,poss) |      | (lat,poss) |      |
|---------|------------|------|------------|------|------------|------|------------|------|
|         | lat        | poss | lat        | poss | lat        | poss | lat        | poss |
| FU1,FU3 | 5          | 0.05 | 10         | 1    | 15         | 0.9  | 23         | 0.1  |
| FU2,FU4 | 7          | 0.5  | 12         | 0.7  | 17         | 1    | 29         | 0.05 |

Table 1: Functional unit characteristics

Given the system specification shown in Figure 10, where register axis contains a discrete value ranged in [1..7)\* and latency axis ranged in [1..200]. In the figure, we use the weighted sum as a criteria similar to Equation (1), where latency: register count is 1:10.

According to Section 4, Figure 11(a) shows the resulting schedule we obtain. We notice that FU1 and FU3 are preferable. To calculate FST(u), we assume a heuristic where a node starts as early as possible. From this schedule, consider node B. Figure 12(a) presents FLT(A) containing FST(A) and MFFT(A). Figure 12(b) presents FLT(B). For FST(A), possibility y at time x represents a possibility that node A occupies register at time x with respect to the schedule, denoted by rectangles. Notice that for A, there is only one possible start time whose possibility is one. Similarly for MFFT(A), possibility y at time x represents a possibility that the life time of node A ends at time x,



Figure 10: Constraint for Figure 9.

| FU1 | FU2 | FU3 | FU4 |     |     |     |     |
|-----|-----|-----|-----|-----|-----|-----|-----|
| A   | _   | Е   |     | FU1 | FU2 | FU3 | FU4 |
|     | _   |     | -   | A   | F   | Е   | -   |
| F   | -   | C   | -   | G   | _   | С   | _   |
| G   | -   | D   | -   | В   | _   | D   | _   |
| В   | -   | -   | -   |     | _   | D   |     |
|     | (a  | 1)  |     |     | (t  | ))  |     |

Figure 11: (a) Schedule obtained RCIS for Figure 9 (b) Schedule obtained using the original inclusion scheduling.

denoted by triangles in the Figure. For two dependent nodes A, B, Figure 13 compares FLT(A) and FLT(B). We can see that FST(B) overlaps with MFFT(A). Figures 14(b)-14(a) shows the FLT(u) all the nodes.

We summarize the register count and its possibility value for each time step as shown in Figure 15. Then we conclude that the register usage as following: (1,0.1) and (2,1). It implies that at some control step, 1 register is needed with very low possibility, e.g. 0.05 and 0.1. The maximum possible finished time of the schedule is at 92 with possibility 0.1. With this schedule, the average weighted sum of latency and register is 79.53. Considering only the average latency, the value is 52. Compared to the constraint, with latency 52 and register count 2, the acceptability degree is 0.76. In fact, this gives the same acceptability level as the original inclusion scheduling whose average latency is 41 and the maximum register count is 3. The schedule of this case is given in Figure 11(b).

We have tried to experiment on larger graphs. For instance, we expand the graph in Figure 9 by adding nodes, and following edges  $\{H \to J, I \to J\}$  (See Figure 16). Using the same constraint as in Figure 10, and the same functional unit specification in Table 1 while allowing 4 functional units, RCIS yields the schedule with average latency 57 and



Figure 12: (a) FLT(A) (b) FLT(B).



Figure 13: FLT(A) and FLT(B).



Figure 14: FLT(u), for all nodes in Figure 9 (a) FST(u) (b) MFFT(u).



Figure 15: Register counts and possibility each time step.

maximum registers of 2. This yields acceptability value 0.74. Compared to the latency-based inclusion scheduling, it results in average latency 37 with the maximum register of 4 which also gives the same acceptability level.

## 6 Experimental Results

We consider the expereiments on exploring design solutions for Discrete Cosine Transform (DCT) [12] and Voltera filter benchmark [8].

#### 6.1 Discrete Cosine Transform

Consider a well-known benchmark, Discrete Cosine Transform, containing 48 nodes. Assume the same functional unit specification for both adders and multipliers and the constraint in Figure 17 where the register axis is [1..12] and the latency axis is [1..500]. We assume the functional unit characteristics similar to the example in the previous section. In the experiment as shown in Table 2. We compare the results obtained from various cases of varying the number of functional units. The results are shown in Table 3. Columns "RCIS"and "IS" compare the performance of the schedule by Register-Constrained Inclusion Scheduling and the original inclusion scheduling (IS). Row "Avg Latency" shows the weighted sum of latency for each case. Row "Max Reg" displays the maximum number of registers. Row "Acceptability" shows the acceptability value obtained using the "Avg latency" and "Max Reg". Row "Max Latency" presents the maximum latency values and Row "Avg Weight" presents weighted sum value for RCIS and IS. For RCIS, recall that  $w_1 = 1$  and  $w_2 = 10$  and for IS, this is the same value as shown in Row "Avg Latency" since we only consider minimizing latency. Tables 4–5 shows the summarized possibility values for using certain register counts for RCIS and IS respectively. It is obvious that IS attempts to minimize latency while not considering the register usage. From these tables, we can achieve about the same acceptability (and even better acceptability in some case) with fewer number of registers, which is upto 37% saving for the number of registers for the case of 7 adders and 5 multipliers. Among all these cases, we see that the configuration with 5 adders and 4 multipliers should

be the best. Consider the running time. For all the cases, the maximum running time is approximately 1 minute 50 seconds to achieve the results for 7 adders and 5 multipliers under Pentium 4 2.8GHz, 1GB RAM.



Figure 16: A simple DFG example 2.

| FUs        | (lat,poss) |      | (lat,poss) |      | (lat | ,poss) | (lat,poss) |      |  |
|------------|------------|------|------------|------|------|--------|------------|------|--|
|            | lat        | poss | lat        | poss | lat  | poss   | lat        | poss |  |
| Adder      | 5          | 0.05 | 10         | 1    | 15   | 0.9    | 23         | 0.1  |  |
| Multiplier | 7          | 0.5  | 12         | 0.7  | 17   | 1      | 29         | 0.05 |  |

Table 2: Adder and multiplier characteristics

|               | 5 adds 4 muls |       | 6 adds 4 muls |      | 6 adds 5 muls |       | 7 adds 4 muls |       | 7 adds 5 muls |       |
|---------------|---------------|-------|---------------|------|---------------|-------|---------------|-------|---------------|-------|
|               | RCIS          | IS    | RCIS          | IS   | RCIS          | IS    | RCIS          | IS    | RCIS          | IS    |
| Avg Latency   | 122           | 111   | 132           | 98   | 117           | 99    | 124           | 104   | 127           | 94    |
| Max Reg       | 6             | 8     | 7             | 10   | 8             | 10    | 7             | 10    | 7             | 11    |
| Acceptability | 0.719         | 0.704 | 0.69          | 0.69 | 0.694         | 0.691 | 0.699         | 0.683 | 0.691         | 0.683 |
| Max Latency   | 226           | 252   | 296           | 224  | 213           | 197   | 255           | 226   | 230           | 179   |
| Avg Weight    | 188           | 111   | 198           | 98   | 206           | 99    | 210           | 104   | 209           | 94    |

Table 3: Comparison of RCIS and IS when varying the number of functional units.

## 6.2 Votera filter

We present experimental results on voltera filter benchmark, containing 27 nodes, where 10 nodes require adder units and the rest requires multiplier units. Assume that we have two types of functional units: adder and multiplier, whose latencies are as shown according to Table 1. In the figure, an adder may have different latency values with the given possibility. Columns "lat" and "pos" show the latency and its possibility of having the latency value for each adder



Figure 17: Constraint for DCT.

| #reg | 2   | 3 | 4   | 5   | 6 | 7 |
|------|-----|---|-----|-----|---|---|
| poss | 0.1 | 3 | 0.1 | 0.1 | 1 | 1 |

Table 4: Possibility values of register counts for case 7 adders and 5 multipliers for RCIS.

| #reg | 2    | 4    | 5 | 6    | 7 | 8   | 10 | 11 |
|------|------|------|---|------|---|-----|----|----|
| poss | 0.05 | 0.05 | 1 | 0.05 | 1 | 0.1 | 1  | 1  |

Table 5: Possibility values of register counts for case 7 adders and 5 multipliers for IS.

and multiplier. Thus, if the nodes are executed in the functional unit, the node may have variable latency values as well.

Assume the constraint is depicted in Figure 18 where the register axis is [1..7] and the latency axis is [200..700]. We demonstrate by considering various design configuration of varying the number of functional units using RCIS and original inclusion scheduling as a scheduling core in the design exploration. Due to the characteristic of the filter, increasing the number of multipliers will help reduce the overall latency. Suppose that we set the acceptability threshold to be 0.8. The results are shown in Table 6. Recall that  $w_1 = 1$  and  $w_2 = 10$ . That is we consider register criteria ten times as much as the latency value. RCIS attempts to create a schedule which minimizes the total weighted sum of  $w_1x + w_2y$  where x and y are the weighted latency and weighted register counts of the resulting schedule. Figure 19 depicts acceptability values for each design configuration based on RCIS. When we increase the number of functional units the latency decreases while the number of register counts needed increases. However, when the number of multipliers becomes 4 or more, RCIS can create a schedule which gives the maximum acceptability values 0.84 (which is greater than the threshold defined at 0.8). By inspecting the resulting schedule, we conclude that 4 multipliers would be sufficient and adding more multipliers will be wasteful. Compared this the schedule generated by IS, we found that since IS does not consider the register criteria, IS attempts to utilize all available resources to minimize the overall latency values. Thus, the latency of schedule generated by IS keeps decreasing and the number of register counts keep increasing. This will finally decrease the acceptability value according the constraint.

From the results, we can see that to achieve the acceptability threshold 0.8, using RCIS will give a better design solution using fewer number of registers. Consider the running time. For all the cases, the maximum running time is approximately 2.8 seconds to achieve the results for 1 adder and 5 multipliers on the same computer.



Figure 18: Constraint for Voltera filer.

|               | 1 add 2 muls |      | 1 add : | 3 muls | 1 add | 4 muls | 1 add 5 muls |      |  |
|---------------|--------------|------|---------|--------|-------|--------|--------------|------|--|
|               | RCIS         | IS   | RCIS IS |        | RCIS  | IS     | RCIS         | IS   |  |
| Avg Latency   | 308          | 300  | 267     | 270    | 260   | 260    | 260          | 246  |  |
| Max Reg       | 2            | 2    | 3       | 3      | 4     | 4      | 4            | 5    |  |
| Acceptability | 0.78         | 0.80 | 0.84    | 0.84   | 0.84  | 0.84   | 0.84         | 0.84 |  |
| Max Latency   | 561          | 561  | 474     | 477    | 445   | 445    | 445          | 416  |  |

Table 6: Exploring various number of functional units using RCIS and IS.



Figure 19: Acceptability values for each configuration.

## 7 Conclusion

We propose a design exploration framework considering impreciseness. The framework is based on the scheduling core, RCIS which considers impreciseness in the system specification and constraint and attempts to create a schedule which minimizes both latency and register usages. The framework can be used to generate various design solutions under imprecise system constraints and characteristics and select an acceptable solution under latency and register criteria. The experiments demonstrate the usage of the framework on a well-known benchmark, where the selected design solution can be found with a given acceptability level.

## References

- [1] I. Ahmad, M. K. Dhodhi, and C.Y.R. Chen. Integrated scheduling, allocation and module selection for design-space exploration in high-level synthesis. *IEEE Proc.-Comput. Digit. Tech.*, 142:65–71, January 1995.
- [2] Cagdas Akturan and Margarida F. Jacome. RS-FDRA a register sensitive software pipelining algorithm for embedded VLIW processors. *IEEE Transactions on Computer Aided Design of Integrated Circuits and Systems*, 12(21):1395–1415, December 2002.
- [3] C. Chantrapornchai, E. H. Sha, and X. S. Hu. Efficient scheduling for imprecise timing based on fuzzy theory. In *Proceedings of Midwest Symposium on Circuits and Systems*, pages 272–275, 1998.
- [4] C. Chantrapornchai, E. H. Sha, and X. S. Hu. Efficient algorithms for finding highly acceptable designs based on module-utility selections. In *Proceedings of the Great Lake Symposium on VLSI*, pages 128–131, 1999.
- [5] C. Chantrapornchai, E. H-M. Sha, and X. S. Hu. Efficient module selections for finding highly acceptable designs based on inclusion scheduling. *J. of System Architecture*, 11(4):1047–1071, 2000.
- [6] C. Chantrapornchai, E. H-M. Sha, and Xiaobo S. Hu. Efficient acceptable design exploration based on module utility selection. *IEEE Trans. on Computer Aided Design of Integrated Circuits and Systems*, 19:19–29, Jan. 2000.
- [7] C. Chantrapornchai, W. Surakumpolthorn, and E.H. Sha. Efficient scheduling for design exploration with imprecise latency and register constraints. In Lecture Notes in Computer Science: 2004 International Conference on Embedded and Ubiquitous Computing (EUC), pages 259–270, 2004.
- [8] C. Chantrapornchai and S. Tongsima. Resource estimation algorithm under impreciseness using inclusion scheduling. Intl. J. on Foundation of Computer Science, Special Issue in Scheduling, 12(5):581–598, 2001.
- [9] S. Chaudhuri, S. A. Bylthe, and R. A Walker. An exact methodology for scheduling in 3D design space. In Proceedings of the 1995 International Symposium on System Level Synthesis, pages 78–83, 1995.
- [10] S. Chaudhuri and R. Walker. Computing lower bounds on functional units before scheduling. In Proceedings of the International Symposium on System Level Synthesis, pages 36–41, 1994.
- [11] A. Dani, V. Ramanan, and R. Govindarajan. Register-sensitive software pipelining. In Proceedings of the Merged 12th International Parallel Processing and 9th International Symposium on Parallel and Distributed Systems, pages 194–198, April 1998.

- [12] M. K. Dhodhi, F. H. Hielscher, R. H. Storer, and J. Bhasker. Datapath synthesis using a problem-space genetic algorithm. *IEEE Transactions on Computer-Aided Design of Integrated Circuits and Systems*, 14(8):934–944, August 1995.
- [13] A. Eichenberger and E. S. Davidson. Register allocation for predicated code. In *Proceeding of MICRO*, 1995.
- [14] Alexandre E. Eichenberger and Edward S. Davidson. Stage scheduling: A technique to reduce the register requirements of a modulo schedule. In *Proceedings of MICRO-28*, pages 338–349, 1995.
- [15] H. Esbensen and E. S. Kuh. Design space exploration using the genetic algorithm. In *Proceedings of the 1996 International Symposium on Circuits and Systems*, pages 500–503, 1996.
- [16] F.Chen, S. Tongsima, and E. H. Sha. Loop scheduling algorithm for timing and memory operation minimization with register constraint. In *Proceedings of SiP'98*, 1998.
- [17] K. Gupta. Introduction to fuzzy arithmetics. Van Nostrand, 1985.
- [18] O. Hammami. Fuzzy scheduling in compiler optimizations. In Proceedings of the ISUMA-NAFIPS, 1995.
- [19] I. Karkowski. Architectural synthesis with possibilistic programming. In HICSS-28, January 95.
- [20] I. Karkowski and R. H. J. M. Otten. Retiming synchronous circuitry with imprecise delays. In *Proceedings of the 32nd Design Automation Conference*, pages 322–326, San Francisco, CA, 1995.
- [21] A. Kaufmann and M. M. Gupta. Fuzzy mathematical models in engineering and management science. North-Holland, 1988.
- [22] A. S. Kaviani and Z. G. Vranesic. On scheduling in multiprocess systems using fuzzy logic. In *Proceedings of the International Symposium on Multiple-valued Logic*, pages 141–147, 1994.
- [23] J. Lee, A. Tiao, and J. Yen. A fuzzy rule-based approach to real-time scheduling. In *Proceedings of Intl. Conf. FUZZ-94*, volume 2, 1994.
- [24] Josep Llosa, Eduard Ayguade, Antonio Gonzalez, Mateo Valero, and Jason Eckhardt. Lifetime-sensitive modulo scheduling in a production environment. *IEEE Transactions on Computers*, 50(3):234–249, 2001.
- [25] Josep Llosa, Mateo Valero, and Eduard Ayguade. Heuristics for register-constrained software pipelining. In *International Symposium on Microarchitecture*, pages 250–261, 1996.
- [26] C. A. Mandal, P. O. Chakrabarti, and S. Ghose. Design space exploration for data path synthesis. In Proceedings of the 10th International Conference on VLSI Design, pages 166–170, 1996.
- [27] K. Mertins et al. Set-up scheduling by fuzzy logic. In Proceedings of the International Conference on Computer Integrated Manufacturing and Automation Technology, pages 345–350, 1994.
- [28] J. Rabaey and M. Potkonjak. Estimating implementation bounds for real time DSP application specific circuits. *IEEE Transactions on Computer-Aided Design of Integrated Circuits and Systems*, 13(6), June 1994.
- [29] T. J. Ross. Fuzzy Logic with Engineering Applications. McGrawHill, 1 edition, 1995.

- [30] Z. Shao, Q.Zhuge, M. Liu, B. Xiao, and E. H-M. Sha. Switching activity minimization on instruction-level loop scheduling for VLIW DSP applications. In *Proceedings of ASAP*, 2004.
- [31] A. Sharma and R. Jain. Estimating architectural resources and performance for high-level synthesis applications. *IEEE Transactions on VLSI systems*, 1(2):175–190, June 1993.
- [32] H. Soma, M. Hori, and T. Sogou. Schedule optimization using fuzzy inference. In *Proceedings FUZZ-95*, pages 1171–1176, 1995.
- [33] I.B. Turksen et al. Fuzzy expert system shell for scheduling. SPIE, pages 308-319, 1993.
- [34] G. Varatkar and R. Marculescu. Communication-aware task scheduling and voltage selection for total systems energy minimization. In *IEEE/ACM Intl. Conf. on Computer Aided Design*, November 2003.
- [35] J. L. Wong, S. Megerian, and M. Potkonjak. Forward-looking objective functions: Concepts & applications in high level synthesis. In *Proceedings of Design Automation Conference*, 2002.
- [36] L. A. Zadeh. The concept of a linguistic variable and its application to approximate reasoning, Part I. *Information Science*, 8:199–249, 1975.
- [37] L. A. Zadeh. Fuzzy Logic. Computer, 1:83-93, 1988.
- [38] J. Zalamea, J. Llosa, E. Ayguade, and M. Valero. Software and hardware techniques to optimize register file utilization in vliw architectures. In Proceedings of the International Workshop on Advanced Compiler Technology for High Performance and Embedded Systems (IWACT), July 2001.