×©××¤××¨ ×××× ×¤×¨×××¨× ××§×××× ×××ª××ª ×©××¢ ××§×¦××× × ××××× - SIPL - ×××× ×××

שיפור מודל פרמטרי לקידוד אותות שמע 

בקצבים נמוכים 

מיכאל מוסקוביץ

שיפור מודל פרמטרי לקידוד אותות שמע 


חיבור על מחקר 

לשם מילוי חלקי של הדרישות לקבלת התואר 

מגיסטר למדעים בהנדסת חשמל 

מיכאל מוסקוביץ 

הוגש לסנט הטכניון – מכון טכנולוגי לישראל 

ניסן תשס"ד חיפה 

אפריל 2004

הבעת תודה 

המחקר נעשה בהנחיית ד"ר דן חזן ופרופ'‏ 

חשמל.‏ 

דוד מלאך בפקולטה להנדסת 

לכבוד הוא לי להודות למנחים שלי על מעורבותם הרצינית,‏ 

המסורה ועזרתם לאורך כל שלבי המחקר.‏ 

הדרכתם 

אני מודה לד"ר הייקו פורנהגן על אספקת קבצי שמע מקודדים ע"י 

HILN עבור מבחני השוואה.‏ 

אני רוצה להודות לחברי,‏ 

באלגוריתם להפרדת תדרים סמוכים.‏ 

אלכס קובזנצ'ב על עזרתו ושיתוף פעולה פורה 

אני מודה למעבדה לעיבוד אותות על התמיכה הטכנית לכל אורך 

העבודה.‏ 

אני מודה לטכניון על תמיכתו הרבה להצלחת המחקר.‏

תוכן עניינים 

1 

2 

תקציר ............................................................................................... 

רשימת קיצורים וסמלים ................................................................ 

5 

מבוא ...................................................................................... 

פרק 1 

8 

8 

8 

9 

11 

13 

16 

18 

סקר ספרות ........................................................................... 

2.1 הקדמה ............................................................................... 

............................................................ 

............................................................... 

................................................................ MP3 

2.2 התפתחות היסטורית 

2.3 מקודד שמע בסיסי 

2.4 שיטת קידוד 

2.5 קידוד ................................................................. TWIN-VQ 

2.6 מודל פרמטרי ............................................................. HILN 

2.7 סיכום ................................................................................. 

פרק 2 

19 

19 

19 

22 

24 

24 

26 

32 

33 

מודל פסיכואקוסטי .............................................................. 

3.1 הקדמה ............................................................................... 

3.2 מערכת השמע האנושית ........................................................ 

................................................................ 

....................................................................... 

................................................. 

........................................... 

.............................................. 

3.3 תחומים קריטיים 

3.4 מיסוך השמע 

3.4.1 סף השמיעה המוחלט 

3.4.2 מודל לחישוב סף המיסוך 

3.5 בדיקת המודל הפסיכואקוסטי 

3.6 סיכום ................................................................................. 

פרק 3

תוכן עניינים ‏(המשך)‏ 

34 

34 

34 

35 

38 

38 

39 

41 

42 

43 

.......................................................... 

מקודד פרמטרי HILN 

4.1 הקדמה ............................................................................... 

4.2 מודל סינוסואידלי ................................................................ 

4.3 המקודד .............................................................................. 

.................................................................... 

........................................................................... 

4.4 מודל הרמוניות 

4.5 מודל רעש 

4.6 כימות ................................................................................. 

4.7 המפענח .............................................................................. 

4.8 גירסאות מוקדמות של ................................................HILN 

4.9 סיכום ................................................................................. 

פרק 4 

44 

44 

45 

47 

48 

50 

52 

56 

56 

57 

59 

מקודד פרמטרי מוצע ............................................................ 

5.1 הקדמה ............................................................................... 

...................................................................... 

........................................................ 

.............................................. 

5.2 תיאור המודל 

5.3 מיצוי מרכיבים טונליים 

5.3.1 מציאת תדרי הסינוסים 

5.3.2 מציאת תדרים סמוכים...............................................‏ 

5.3.2.1 תיאור האלגוריתם למציאת תדרים סמוכים ...... 

5.3.3 מציאת אמפליטדות הסינוסים.....................................‏ 

........................................................................... 

................................................................... 


5.5 פיענוח וסינתזה 

5.6 סיכום ................................................................................. 

פרק 5 

61 

61 

61 

65 

חיפוש תדרים יסודיים ......................................................... 

6.1 הקדמה ............................................................................... 

6.2 אלגוריתם למציאת תדרים יסודיים בשיטת האוטוקרלציה ...... 

6.3 אלגוריתם למציאת תדרים יסודיים בעזרת החלקת ספקטרום...‏ 

פרק 6


68 

70 

76 

81 

6.4 אלגוריתם למציאת תדרים יסודיים בתחום התדר ................... 

6.5 אלגוריתם למציאת תדר יסודי דומיננטי בשיטת מסרק תדרים 

6.6 שיטה מוצעת למציאת תדרים יסודיים על פי כיסוי מירבי 

. 

........ 

6.7 סיכום ................................................................................ 

84 

84 

85 

87 

90 

94 

96 

98 

99 

99 

101 

פרק 7 

מודל לייצוג אמפליטודות הטונים ........................................ 

7.1 הקדמה ............................................................................... 

7.2 שיטה להתאמת המעטפת בתחום הזמן 

.................................. 

LPC 7.2.1 באיטרציות ...................................................... 

7.2.2 בחינת השפעת מספר המקדמים על הביצועים 

............... 

7.2.3 שינוי סקלת התדר לסקלת ................................. Bark 

7.3 שיטה להתאמת המעטפת בתחום התדר..................................‏ 

7.3.1 מודל איטרטיבי 

7.3.2 צמצום התחום הדינמי 

7.3.3 מתיחת סקלת התדר 

......................................................... 

............................................... 

.................................................. 

7.4 סיכום ................................................................................. 

102 

102 

103 

103 

104 

104 

106 

106 

109 

110 

111 

פרק 8 

קידוד וכימות ......................................................................... 

8.1 הקדמה ............................................................................... 

8.2 שידור הרמוניות 

8.3 שידור בדידים 

8.4 שידור רעש 

.................................................................. 

...................................................................... 

.......................................................................... 

8.5 צורת הקידוד של ההרמוניות 

8.5.1 שיטת קידוד 

8.5.2 שיטת קידוד 

8.5.3 שיטות קידוד נוספות 

................................................. 

........................................................... 1 

........................................................... 2 

................................................. 

8.6 כימות וקטורי של מקדמי ה-‏ ......................................... LPC 

8.7 סדר עדיפויות 

......................................................................


112 

112 

112 

115 

תוצאות סימולציה ................................................................. 

9.1 הקדמה ............................................................................... 

9.2 תוצאות .............................................................................. 

9.3 זמני הרצה .......................................................................... 

פרק 9 

116 

116 

117 

סיכום והצעות להמשך מחקר ............................................... 

................................................................. 

......................................................... 

10.1 סיכום ומסקנות 

10.2 הצעות להמשך מחקר 

פרק 10 

119 

122 

124 

126 

נספח א'‏ ............................................................................................ 

נספח ב'‏ ............................................................................................ 

נספח ג'‏ ............................................................................................. 

נספח ד'‏ ............................................................................................ 

128 

מקורות .............................................................................................

רשימת איורים 

10 

11 

13 

15 

15 

18 

20 

21 

22 

23 

25 

27 

28 

29 

30 

31 

32 

36 

37 

37 

41 

45 

48 

49 

51 

54 

55 

55 

57 

59 

62 

63 

63 

64 

65 

סכימת מבנה בסיסי של מקודד תפיסתי 

סכימת מבנה בסיסי של מפענח תפיסתי 

........................................................... 

........................................................... 

סכימת מבנה של מקודד MPEG-1 שכבה ...................................................... 3 

סכימת מקודד ............................................................................ TWIN-VQ 

שיטת כימות ............................................................................... TWIN VQ 

סכימת מלבנים של מקודד HILN 

מבנה האוזן 

מבנה השבלול 

................................................................... 

.................................................................................................. 

............................................................................................... 

פריסת תדרים לאורך השבלול 

......................................................................... 

גרף התמרה מיחידות תדר ליחידות ......................................................... Bark 

סף השמיעה המוחלט 

..................................................................................... 

ספקטרום של אות שמע בייצוג ................................................................ SPL 

ממסכים טונליים 

ממסכי רעש 

.......................................................................................... 

.................................................................................................. 

ממסכים טונליים ורעש לאחר צמצום 

ספי מיסוך עבור ממסכים בודדים 

סף המיסוך הכולל 

.............................................................. 

................................................................... 

......................................................................................... 

סכימת מלבנים של מקודד ................................................................... HILN 

מעגל אנליזה/סינתזה 

הערכת תדר בדיוק גבוה 

..................................................................................... 

................................................................................. 

סכימת מלבנים של מפענח .................................................................... HILN 

מבנה המקודד הפרמטרי המוצע 

תחום התדר של אות שמע 

קירוב פרבולי 

ספקטרום האות 

...................................................................... 

.............................................................................. 

................................................................................................ 

............................................................................................ 

מדד התאמה כפונקציה של שני תדרים 

............................................................. 

מדד התאמה כפונקציה של שני תדרים ‏(איזור מוגדל)‏ ........................................ 

מדד התאמה כפונקציה של שני תדרים ‏(מבט על)‏ ............................................... 

מבנה המפענח של המודל המוצע 

פונקצית ההחלקה 

..................................................................... 

......................................................................................... 

פונקצית אוטוקורלציה ................................................................................... 

פונקצית האוטוקרלציה לאחר השארת ערכים חיוביים בלבד 

.............................. 

פונקצית אוטוקרלציה מדוללת ........................................................................ 

פונקצית אוטוקרלציה לאחר דילול אחד 

פונקצית אוטוקורלציה – דוגמה למצב בעייתי 

........................................................... 

.................................................. 

2.1 

2.2 

2.3 

2.4 

2.5 

2.6 

3.1 

3.2 

3.3 

3.4 

3.5 

3.6 

3.7 

3.8 

3.9 

3.10 

3.11 

4.1 

4.2 

4.3 

4.4 

5.1 

5.2 

5.3 

5.4 

5.5 

5.6 

5.7 

5.8 

5.9 

6.1 

6.2 

6.3 

6.4 

6.5

66 

69 

71 

72 

72 

73 

73 

74 

75 

77 

77 

78 

79 

80 

81 

84 

86 

89 

91 

92 

94 

95 

97 

105 

106 

107 

108 

113 

114 

120 

מבנה מערכת למציאת תדרים יסודיים.............................................................‏ 

דוגמאות לתצוגת תדר יסודי במטריצה ........................................................ A 

מסרק תדרים סביב תדר יסודי 

F 0 

ספקטרום של אות כניסה 

................................................................... 

............................................................................... 

תפוקת האלגוריתם ........................................................................................ 

ספקטרום של אות כניסה-‏ דוגמה 

תפוקת האלגוריתם-‏ דוגמה 

דוגמה שלישית לביצועי האלגוריתם 

דוגמה רביעית לביצועי האלגוריתם 

פונקצית המלבן סביב תדר יסודי אופציונלי 

פונקצית מסרק המראה את התדרים האופציונליים 

חיפוש תדרים יסודיים לפי כיסוי מירבי 

הצגת בעיה ראשונה בפונקצית המסרק 

פונקצית מסרק מוגדלת 

הצגת בעיה שניה בפונקצית המסרק 

מעטפת ספקטרלית 

ספקטרום של אות מסונתז 

................................................................. 2 

.......................................................................... 2 

................................................................ 

................................................................. 

...................................................... 

.......................................... 

........................................................... 

............................................................ 

.................................................................................. 

................................................................. 

........................................................................................ 

............................................................................. 

תפוקת האלגוריתם לעיצוב המעטפת הספקטרלית באיטרציות 

שגיאת המודל כפונקציה של מספר המקדמים דוגמה 

שגיאת המודל כפונקציה של מספר המקדמים דוגמה 

.......................... 

...................................... 1 

...................................... 2 

התמרת תחום התדר על פי סקלת …....................................................... Bark 

תיאור פעולת מתיחת תחום התדר 

ייצור ספקטרום בעזרת אינטרפולציה 

הדגמת הצורך בקוד המציין את מיקום ההרמוניות 

................................................................... 

סדרת סיביות מקודדת בשיטה – 1 עבור תדר יסודי ראשון 

היסטוגרמה של הפרשים בין הרמוניות 

סדרת סיביות מקודדת בשיטה – 1 עבור תדר יסודי שני 

.............................................................. 

........................................... 

................................. 

............................................................ 

..................................... 

ציון ODG ביחס ל-‏ ............................................................................... SNR 

ציון ODG למקודדים 

ספקטרום של חלון המינג מוזז 

.................................................................................... 

........................................................................ 

6.6 

6.7 

6.8 

6.9 

6.10 

6.11 

6.12 

6.13 

6.14 

6.15 

6.16 

6.17 

6.18 

6.19 

6.20 

7.1 

7.2 

7.3 

7.4 

7.5 

7.6 

7.7 

7.8 

8.1 

8.2 

8.3 

8.4 

9.1 

9.2 

A-1

רשימת טבלאות 

23 

25 

33 

39 

42 

60 

82 

90 

93 

100 

102 

107 

109 

110 

113 

114 

115 

רוחב הסרט של התחומים הקריטיים 

............................................................... 

דוגמאות לעוצמות קול .................................................................................... 

סיכום השפעת המודל הפסיכואקוסטי על מספר הסינוסים 

................................. 

סיכום פרמטרים לשידור במקודד …...................................................... HILN 

חלוקת קווים הרמוניים לקבוצות 

השוואה בין מקודד HILN למקודד הפרמטרי המוצע 

סיכום תפוקות אלגוריתם לכיסוי מלא 

שגיאת המודל האיטרטיבי ביחס למודל הרגיל 

.................................................................... 

......................................... 

............................................................. 

תוצאות המודל האיטרטיבי בשילוב מספר מקדמים אופטימלי 

תוצאות המודל לייצוג אמפליטודות 

סיכום פרמטרים לשידור במקודד המוצע 

................................................... 

............................ 

................................................................. 

.......................................................... 

סיכום תפוקות קוד ......................................................................... Huffman 

תוצאות היסטוגרמה של אורכי רצפים של 

תוצאות היסטוגרמה של אורכי רצפים 

םי-‏ '1' 

............................................... 

.............................................................. 

בדיקת הציון שמפיקה התוכנה ....................................................... EAQUAL 

תוצאות בדיקה השוואתית בין המקודדים 

בדיקת זמני הרצה 

........................................................ 

.......................................................................................... 

3.1 

3.2 

3.3 

4.1 

4.2 

5.1 

6.1 

7.1 

7.2 

7.3 

8.1 

8.2 

8.3 

8.4 

9.1 

9.2 

9.3

תקציר 

כשמדברים על פיתוח יישומי מולטימדיה,‏ תמיד עולות דרישות חדשות לקידוד שמע בקצבים 

נמוכים מאוד.‏ יעילות קידוד גבוהה נדרשת על מנת להתמודד עם בעיית רוחב פס מוגבל של ערוצי 

שידור ונועדה להתמודד עם בעיית משאב זיכרון מוגבל עבור יישומי אחסנה.‏ 

קיימים כיום סטנדרטים שונים לדחיסת שמע והנפוץ שבהם הוא ה-‏ 

השמע המשוחזר נשמעת טוב רק בקצבים של 

.mp3 

128kbps 

,mpeg4-audio 

עפ"י שיטה זו אות 

ומעלה.‏ שיטה מתקדמת יותר היא 

הכוללת מספר גירסאות שמטרתן לעבוד בקצבים נמוכים עוד יותר,‏ אך איכות 

אות השמע יורדת.‏ 

כל השיטות לדחיסה בקצבים הנמוכים מנצלות את תכונת המיסוך של השמיעה האנושית,‏ ובכך 

מונעות קידוד מידע שממילא לא יישמע לאוזן.‏ השימוש במיסוך הוא מהגורמים החשובים 

בפעולת הדחיסה.‏ 

מטרתנו במחקר זה היא לקודד אותות שמע בקצב נמוך של 16kbps ובנקודת עבודה זו לשפר את 

איכות השמע לרמה שתישמע נעימה לאוזן.‏ דחיסה זו היא עבור אותות שמע ‏(קול ומוסיקה)‏ 

הדגומים בקצב 

,16KHz כלומר 

עם סיבית אחת לדגם.‏ 

במחקר נתמקד במודל פרמטרי הנקרא 

‏(גירסא של 

Harmonic Individual Lines and Noise - HILN 

.(mpeg4-audio 

מודל זה מבוסס על הפרדת האות לשלושה מרכיבים עיקריים:‏ 

סינוסים בדידים,‏ הרמוניות ורעש.‏ כל מרכיב מתואר ע"י מודל פרמטרי מתאים.‏ מודל ה-‏HILN 

פותח בשנים האחרונות אך נחקר עדיין.‏ 

במהלך סקר ספרות מכין שבוצע נמצאו מספר חסרונות של השיטה,‏ הגורמות לירידה באיכות,‏ 

כגון אי העברת מידע על פאזות האותות ומציאת תדר 

יסודי (pitch) 

יחיד בלבד באותות המכילים 

מספר תדרים יסודיים.‏ בנוסף להתמודדות בבעיות אלו,‏ יבחנו רעיונות נוספים לשיפור איכות אות 

השמע המשוחזר,‏ כמו התאמה טובה יותר של המיסוך למודל,‏ ייצוג אמפליטודות ההרמוניות 

בצורה יעילה יותר ופיתוח שיטה להפרדת תדרים קרובים.‏ 

היכולת להפריד תדרים סמוכים,‏ מאפשרת מיצוי טוב יותר של המרכיבים הטונליים באות השמע 

וגורמת לאיכות שמע טובה יותר.‏ בתהליך מיצוי המרכיבים הטונליים מפיקים סינוסים רבים.‏ 

קידוד כל סינוס בנפרד צורך מספר גדול של סיביות,‏ לכן,‏ השימוש במספר תדרים יסודיים גורם 

לשיפור הקידוד ומאפשר שידור של יותר סינוסים.‏ 

קידוד יעיל של האמפליטודות לא פחות חשוב מקידוד התדרים.‏ האמפליטודות מיוצגות בעזרת 

מעטפת ספקטרלית,‏ העוברת בקרבת האמפליטודות.‏ בעבודה זו מוצגים מספר שיפורים ביצירת 

המעטפת,‏ הגורמים להקטנת השגיאה בייצוג האמפליטודות.‏ השיפורים כוללים,‏ מספר משתנה של 

מקדמים לייצוג המעטפת,‏ מודל איטרטיבי לחישוב המעטפת,‏ צמצום התחום הדינמי של 

- 1 -

האמפליטודות ומתיחת סקלת התדר בצורה כזאת שתאפשר ייצוג מעטפת מדוייקת יותר בתדרים 

הנמוכים.‏ 

איכות השמע נבדקה ע"י השוואת המקודד המוצע בעבודת המחקר מול מקודד .HILN 

הבדיקה נעשתה בעזרת תוכנה בשם 

.EAQUAL 

תוכנה זו נותנת מדד לירידת האיכות בין אות 

שמע מקורי לאות שמע דומה לו.‏ תוצאות הבדיקות הראו שהמקודד המוצע משפר מעט 

את איכות השמע.‏ 

‏(בכ-‏ (3dB 

- 2 -

רשימת קיצורים 

AAC 

AC-3 

CD 

CELP 

DCT 

DFT 

FIR 

FFT 

IIR 

HILN 

LAR 

LPC 

LS 

LSD 

LSF 

LSP 

MDCT 

MPEG 

MP3 

PCM 

SNR 

SPL 

TMN 

TWIN VQ 

VQ 

MPEG Advanced Audio Coding 

Audio Coding technique from Dolby Laboratories Inc 

Compact Disk 

Code Excited Linear Prediction 

Discrete Cosine Transform 

Discrete Fourier Transform 

Finite Impulse Response 

Fast Fourier Transform 

Infinite Impulse Response 

Harmonics Individual Lines and Noise 

Logarithmic Area Rations 

Linear Predictive Coding 

Least Square 

Log Spectral Distance 

Line Spectral Frequency 

Line Spectral Pair 

Modified discrete Cosine Transform 

(ISO/IEC) Moving Pictures Expert Group 

MPEG-1 Layer 3 

Pulse Code Modulation 

Signal to Noise Ratio 

Sound Pressure Level 

Tone Masking Noise 

Transform- domain weighted interleaved vector quantization 

Vector Quantization 

- 3 -

רשימת סמלים 

קצב דגימה ביחידות קילו הרץ 

קצב סיביות לשניה ביחידות קילו סיביות לשניה 

אמפליטודת הסינוס 

תדר הסינוס 

פאזת הסינוס 

מספר סינוסים במודל הסינוסואידלי 

תחום קריטי ביחידות ברק 

הסף המוחלט 

עוצמת הממסך הטונלי 

עוצמת ממסך רעש 

צורת הממסך הטונלי 

צורת ממסך רעש 

סף המיסוך הגלובלי 

פרמטר מתיחת התדר 

חלון 

קצב דגימה 

קבוצת תדרים 

Khz 

Kbps 

a i 

f i 

ϕ 

i 

L 

z 

T q 

P TM 

P NM 

T TM 

T NM 

T g 

S 

H 

Fs 

MAX 

- 4 -

פרק 1 

מבוא 

במהלך השנים האחרונות 

, 

חל גידול משמעותי ביישומי מולטימדיה,‏ כגון שידורים דיגיטליים,‏ 

אחסנה,‏ תקשורת בזמן אמת,‏ אינטרנט ומשחקים.‏ הגידול העצום העלה דרישות חדשות 

להתייעלות וגמישות.‏ התייעלות הקידוד נדרשת בכדי להתמודד עם מגבלות רוחב פס של 

האינטרנט או תקשורת ניידת 

.[15] 

שמע רחב סרט 

(wideband) 

הינו גורם חשוב בתחום המולטימדיה.‏ עם פריסת רשתות תקשורת 

ניידות מהדור החדש,‏ העברת שמע רחב סרט נהפכה להיות מציאותית.‏ אבל,‏ המחיר של שימוש 

בערוץ אלחוטי עדיין יקר יותר משימוש ברשתות הקוויות,‏ כמו סיבים אופטיים.‏ בנוסף,‏ למסופים 

ניידים יש מגבלות ביכולת החישוב ובכמות הזיכרון.‏ מגבלות אלו הצעידו קדימה את תחום קידוד 

השמע.‏ 

קידוד שמע דיגיטלי נהפך להיות מסחרי מאז 1970, בצורה של קומפקט דיסק 

.(CD) 

אבל,‏ כמות המידע,‏ שנדרשה עבור ייצוג דיגיטלי אמין של אותות שמע,‏ היתה עצומה.‏ למשל,‏ 

בשיטת הקלטה PCM על דיסק היה צורך בקצב של 705,600 סיביות בשניה עבור ערוץ שמע יחיד 

44100) הרץ * 16 סיביות).‏ 

הכמות הגדולה של סיביות שנדרשה לכל שניה של שמע,‏ הוותה מכשול עבור שימושים רבים,‏ 

במיוחד עבור מערכות המוגבלות ברוחב פס לשידור.‏ בנוסף,‏ הדרישות ההולכות וגוברות לערוצי 

שמע בתווך מוגבל רוחב פס,‏ כמו האינטרנט,‏ העלו את הצורך בקידוד / דחיסת אותות שמע.‏ 

החיפוש אחר קידוד אותות שמע הביא לתקן הבינלאומי הראשון,‏ MPEG 1 – Audio 

MPEG ידועה גם בשם 

.[2] [1] 

‏"קבוצה המתמחה בתמונות נעות"‏ Group) .(Moving Pictures Expert 

התקנים לקידוד אותות שמע,‏ שפותחו ע"י הקבוצה,‏ נמצאים ביישומים רבים הכוללים,‏ 

• 

• 

• 

• 

• 

• 

שידורי הפצה של שמע ספרתי 

איחסון שנועד לשידור.‏ 

צירוף שמע לטלויזיה ספרתית.‏ 

שימושי אינטרנט.‏ 

מתקנים ניידים להשמעת שמע.‏ 

איחסון והחלפת קבצי מוסיקה בין מחשבים.‏ 

הצלחת הקידוד וההורדה בכמות הסיביות הנדרשות לייצוג אות שמע רחב סרט,‏ גרמו להעלאת 

דרישות חדשות נוספות.‏ גורמים אלו הפכו את משימת הדחיסה לאתגרית.‏ 

- 5 -

על מנת לקודד אותות שמע היה צורך בהבנה מעמיקה של האות ותכונותיו.‏ 

אות שמע הוא שם כולל עבור מגוון רחב של אותות כמו,‏ אות דיבור,‏ אות מוסיקה,‏ אות המשלב 

מוסיקה ודיבור,‏ ואות רעש.‏ קידוד השמע צריך לתת מענה לכל סוגי האותות.‏ קיימים מקודדים 

המיועדים אך ורק עבור אותות שמע מסויימים,‏ כמו דיבור.‏ כמו כן,‏ קיימים מקודדים המנסים 

להתמודד עם כל סוגי אותות השמע.‏ 

המטרה העיקרית בתהליך הקידוד/דחיסה הוא הורדת כמות הסיביות.‏ דבר זה שקול להורדה 

וצמצום של כמות המידע.‏ קיימות שתי גישות בסיסיות להורדת כמות המידע:‏ 

הגישה הראשונה היא הפחתת יתירות סטטיסטית,‏ כלומר הורדת מידע שאין בו צורך 

לשיחזור האות המקורי.‏ המטרה בגישה זו,‏ הוא הגעה למצב בו אין אף סיבית ברצף 

הסיביות,‏ שהיא מיותרת.‏ 

הפעולה של הפחתת יתירות סטטיסטית נקראת קידוד אנטרופיה,‏ ומיושמת על קודים 

כדוגמת קוד .Huffman שיטות אלו מסוגלות לדחוס אותות שמע פי שניים או שלושה.‏ 

היתרון הוא שניתן לשחזר במדוייק את אות השמע 

.(lossless coding) 

הגישה השניה מבוססת על הרחקת מידע שאינו רלוונטי למערכת השמיעה האנושית.‏ 

על פי גישה זו,‏ מסווגים כל חלק באות לפי הרלוונטיות שלו:‏ חלקים שהם רלוונטים,‏ 

חלקים פחות רלוונטים וחלקים לא רלוונטים כלל.‏ 

אין צורך לשדר את החלקים הלא רלוונטים באות,‏ שלא ישמעו לאוזן האנושית,‏ כמו כן 

אין צורך בהשקעת מספר סיביות גדול עבור החלקים הפחות רלוונטים 

יישום הידע בתפיסת השמיעה מוביל למקודדים בעלי ביצועים טובים.‏ 

.[3] 

גישה זו מצריכה מודל פסיכואקוסטי,‏ הכולל הערכה של השפעת המיסוך של מערכת 

השמיעה האנושית.‏ 

בגישה זו ניתן לדחוס אותות שמע עד פי 10, מבלי לפגוע,‏ כמעט,‏ באיכות השמע.‏ 

• 

• 

כל הטכנולוגיות לדחיסת שמע משלבות את שתי הגישות.‏ 

כיום,‏ יש עדיין מגבלות על קצב הסיביות והמחיר של כל רוחב פס הוא גבוה,‏ כך שיש צורך מתמשך 

בשיפור יעילות הקידוד.‏ 

הבעיה העיקרית בהורדת כמות הסיביות,‏ היא הפגיעה באיכות השמע.‏ 

טכניקות לקידוד שמע ספרתי מסווגות לשתי קבוצות:‏ עיבוד בתחום הזמן ועיבוד בתחום התדר.‏ 

הטכניקה בתחום הזמן 

דגם,‏ עבור איכות גבוהה.‏ 

- 6 - 

[5] 

3 

ניתנת ליישום עם סיבוכיות נמוכה,‏ אבל נדרש יותר מ-‏ 10 סיביות לכל 

מרבית הטכניקות המקובלות שייכות לעיבוד בתחום התדר.‏ איכות טובה ניתנת להשגה בקצב של 

סיביות ומעלה לדגם.‏ הכלים שישנם,‏ למיפוי אות השמע לתחום התדר הם קידוד בפסי תדר 

(subband) 

וקידוד התמרה 

.(transform) 

טכניקות הקידוד השונות,‏ לרבות מקודד שמע בסיסי,‏ מקודד התמרה ,MP3 מקודד התמרה 

מתקדם TWIN-VQ והמקודד הפרמטרי - HILN מתוארים בהרחבה בפרק 2. כל הטכניקות 

משתמשות במודל הפסיכואקוסטי,‏ המתואר בפרק 

.3

בפרק 4 מוצגת טכניקה לדחיסת שמע בקצבים נמוכים מאוד ‏(סיבית אחת לדגם),‏ הנקראת מקודד 

פרמטרי - .HILN השימוש במקודד מאפשר דחיסה גבוהה במחיר של ירידה באיכות השמע.‏ בפרק 

4 מתואר כל תת מערכת במקודד בהרחבה.‏ 

עבודת המחקר מתמקדת בשיפור מקודד זה,‏ על מנת להשיג איכות שמע טובה יותר.‏ בפרק 

5 

מתואר מקודד פרמטרי אחר ‏(המקודד המוצע),‏ שנבנה במהלך העבודה.‏ המקודד המוצע,‏ משפר 

את מקודד 

,HILN 

כמעט בכל תת מערכת.‏ בשלב ראשון מבוצע מיצוי של כל המרכיבים 

הסינוסואידליים,‏ כולל טונים בעלי תדרים סמוכים.‏ בהמשך מקודדים את הפרמטרים של 

הסינוסים בצורה יעילה.‏ תדרי הסינוסים מיוצגים בעזרת שני תדרים יסודיים ‏(פרק 

ואמפליטודת הסינוסים מיוצגים בעזרת מעטפת ספקטרלית משופרת ‏(פרק 

(6 

.(7 

תוצאות בדיקות שמע של המקודד הפרמרי המוצע בהשוואה למקודד HILN מוצגות בפרק 

סיכום,‏ מסקנות והצעות להמשך מתוארים בפרק 

.9 

.10 

- 7 -

פרק 2 

סקר ספרות 

2.1 הקדמה 

מטרת פרק זה היא סקירה על הנעשה בתחום קידוד שמע בקצבים נמוכים.‏ 

תחילה מוצגת סקירה היסטורית על ההתפתחות קידוד השמע במהלך שלושים שנה האחרונות.‏ 

בהמשך מתוארים מספר מקודדים הכוללים את מבנה המקודד הבסיסי,‏ מקודד 

MP3 המפורסם,‏ 

שהביא למהפכה בתחום דחיסת השמע;‏ מקודד ,TWIN-VQ מקודד הכולל טכנולוגיות ליעילות 

קידוד מתקדמות,‏ ולבסוף סקירה מעמיקה על המודל הפרמטרי,‏ שנחקר בצורה מעמיקה במהלך 

עבודה זו.‏ 

2.2 התפתחות היסטורית 

כל הטכנולוגיות לקידוד אותות שמע בקצבים נמוכים,‏ מבוססות על צירוף שתי הגישות שתוארו 

במבוא ‏(הפחתת יתירות סטטיסטית באמצעות התמרה או קבוצת מסננים ושימוש בקודי 

אנטרופיה,‏ והרחקת מידע לא רלוונטי באמצעות המודל הפסיכואקוסטי).‏ 

מאז שנות ה-‏ 

70 

המאוחרות החלו לחקור את תחום הקידוד של אותות שמע באיכות גבוהה.‏ 

הפעילות העיקרית התרחשה החל משנת 1986. 

פריצת הדרך בקידוד שמע נרשמה ע"י התקן הבינלאומי הראשון 

[1] 1992 [2]. מאז,‏ תקני MPEG נשארו המגמה השולטת מבין הטכנולוגיות.‏ 

MPEG 1 – Audio – 

בשנת 

MPEG 

הוקמה ע"י מכון התקנים של 

ISO/IEC 

1988, בשנת 

על מנת לפתח תקנים לקידוד 

תמונות נעות,‏ אות שמע והצירוף של השניים.‏ 

MPEG-1 הוא השם עבור הפאזה הראשונה של ,MPEG שהחלה ב-‏‎1988‎ והסתיימה בשנת 

MPEG-1 Audio פותח הן עבור ערוץ יחיד 

של 

.1992 

(mono) 

,44.1 ,32 או .48kHz 

,3 

והן עבור ערוץ כפול ,(stereo) דגום בקצבים 

MPEG-1 Audio כולל שלושה אופני פעולה,‏ הנקראים שכבות,‏ הממוספרות משכבה 1 עד שכבה 

לפי עליה בסיבוכיות ובביצועים.‏ שכבה 

3 

היא בעלת הסיבוכיות הגבוהה ביותר ואופטימלית 

לקבלת איכות גבוהה בקצבים נמוכים ‏(באיזור 128kbps עבור אות סטריאו).‏ 

MPEG-1 שכבה ,3 

הידוע בשמו 

,MP3 

נעשה מאוד נפוץ באינטרנט,‏ והפך למונח המבוקש ביותר 

בעולם האינטרנט בשנת 1999. מידע מפורט על MPEG-1 ניתן למצוא ב-‏ [4] [2]. 

- 8 -

בשנת 1994 פותח MPEG-2 .MPEG-2 Audio ציין את הפאזה השנייה של .MPEG 

MPEG-2 כלל מספר הרחבות ל 

MPEG-1 שהן,‏ 

התאמה לקידוד של ריבוי ערוצי שמע,‏ כמו 

5.1 

ערוצי שמע ‏(קדמי ימין,‏ קדמי שמאל,‏ מרכז,‏ שני ערוצים אחוריים וערוץ אופציונלי להגברה 

תדרים נמוכים),‏ הידוע בשימושו בקולנוע.‏ 

הרחבה נוספת של MPEG-2 היא הקידוד בקצבי דגימה נמוכים יותר כמו 

כולל גם קצבי הדגימה המשמשים ב-‏ .MPEG-1 

מאחר ש 

ב-‏ 

22.05 ,16 או ,24kHz 

MPEG-2 

אמור לעבוד בתאימות לאחור גם מול 

שניהם מאוד דומים,‏ דבר שגרם להגבלת הביצועים של .MPEG-2 

,MPEG-1 

1994 

אלגוריתמי הקידוד של 

היה ברור שויתור על רעיון התאימות לאחור וחיפוש אחר טכנולוגיות חדשות יביא 

לאיכות טובה יותר וירידה לקצבי קידוד נמוכים עוד יותר.‏ 

כתוצאה מהמאמץ החדש,‏ גירסה מתקדמת של MPEG-2 (AAC) יצאה לאור בשנת 

במקביל,‏ תקן MPEG-4 התחיל להתפתח בשנת 1995 והסתיים בשנת 

הגירסה הראשונה של 

.1997 

.2000 

MPEG-4 Audio 

הסתיימה בסוף 

,1998 

וסיפקה את קבוצת המקודדים 

הראשונה,‏ HVXC ו-‏ ,CELP שהם מקודדי דיבור וכן מקודדי התמרה של שמע כללי 

General ) 

,MPEG-4 

.TWIN-VQ ואת AAC הכוללים את ,(Audio 

,1999 

בגירסה שניה,‏ שהסתיימה בסוף נוספו כלים חדשים ל ביניהם כלים לקידוד 

בקצבים נמוכים מאוד,‏ כמו קידוד פרמטרי-‏ .HILN 

בולט בפונקציות חדשות,‏ יותר מאשר ביעילות 

בניגוד ל או 

MPEG-4 ,MPEG-2 

MPEG-1 

דחיסה משופרת.‏ 

MPEG-4 

כולל משפחה של מקודדי שמע שנעים בקצבים החל מ-‏ 

בקצבים נמוכים ועד לקידוד שמע באיכות גבוהה בקצבים של עד 

2kbps 

.64kbps 

עבור קידוד דיבור 

2.3 מקודד שמע בסיסי 

המשימה הראשונית של מערכת קידוד שמע היא לדחוס אות שמע ספרתי,‏ בצורה ש-‏ 

• 

• 

הדחיסה תהיה יעילה ככל הניתן,‏ כלומר גודלו של קובץ דחוס יהיה מינימלי.‏ 

אות השמע המשוחזר יהיה קרוב עד כמה שניתן לאות השמע המקורי,‏ מבחינת מערכת 

השמיעה,‏ לפני הדחיסה.‏ 

דרישות אחרות מטכניקות לדחיסת שמע כוללות סיבוכיות נמוכה ‏(על מנת לאפשר חומרה זולה 

ופשוטה עם צריכת הספק נמוכה)‏ וגמישות לשימושים שונים.‏ 

מקודדי שמע מודרנים בנויים מארבעה בלוקים בסיסיים,‏ כמתואר באיור 2.1, התמרה או קבוצת 

מסננים,‏ מודל תפיסתי,‏ כימות וקידוד ליצירת רצף סיביות.‏ 

הרעיון העומד מאחורי מקודדי שמע תפיסתיים מתואר מנקודת מבט של רעש הכימות.‏ לאות 

כניסה ספרתי,‏ ,PCM יש רעש כימות אחיד בכל תחומי התדר,‏ כלומר אין הבחנה בין מידע חשוב 

- 9 -

יותר,‏ מידע חשוב פחות,‏ או מידע שהוא בכלל לא רלוונטי למערכת השמיעה.‏ כל האות מכומת 

בצורה אחידה,‏ למעשה,‏ כל דגימה בזמן מכומתת לפי מספר הסיביות שהוקצו לה,‏ בדרך כלל 

16 

סיביות.‏ אין בידינו גם את היכולת להגדיר איזו דגימה בזמן היא חשובה או לא,‏ כל הדגימות 

חשובות באותה המידה.‏ 

לכן,‏ מבצעים התמרה של אות השמע לתחום אחר,‏ כמו תחום התדר,‏ שבו ניתן יהיה לסווג מידע 

על פי סדר חשיבותו.‏ לשם כך,‏ משתמשים בהתמרה או בקבוצת מסננים 

את אות הכניסה למרכיבים ספקטרלים.‏ 

bank) (filter שמפרידים 

המודל התפיסתי משתמש באות המקורי בתחום הזמן ובתפוקות של קבוצת המסננים על מנת 

להעריך את סף המיסוך מתוך המודל הפסיכואקוסטי.‏ סף המיסוך מציין את רעש הכימות 

המירבי,‏ בכל תדר ותדר,‏ שלא ניתן להבחין בו ע"י האוזן האנושית,‏ בנוכחות אות השמע.‏ 

החלוקה לתחומי תדר/‏ זמן שונים מבוצעת גם במערכת השמיעה האנושית ובהינתן קבוצת 

תחומים,‏ ניתן להבחין בין אלמנטים רלוונטים לאלמנטים לא רלוונטים.‏ 

ב 

בעזרת תהליך הכימות מקטינים את מספר הסיביות הנדרשות לייצג את האות.‏ המטרה היא 

שמירת רעש הכימות מתחת לסף המיסוך.‏ מידע בעל חשיבות רבה,‏ הנמצא הרבה מעל סף המיסוך 

יכומת ע"י מספר רב של סיביות.‏ לעומתו,‏ מידע הנמצא מתחת לסף המיסוך לא יקודד כלל,‏ כיוון 

שאינו ניתן לאבחנה ע"י מערכת השמיעה האנושית.‏ כלומר,‏ השאיפה היא שכל המרכיבים 

הספקטרליים מכומתים ומקודדים בצורה שרעש הכימות ישאר מתחת לסף המיסוך.‏ 

בתהליך הקידוד והכימות מצמצמים את מספר הסיביות גם באמצעות קידוד אנטרופיה.‏ 

MPEG Audio 

משתמשים בקוד 

,Huffman 

הספקטרליים ומביא להורדת מספר הסיביות הממוצע.‏ 

המשתמש בתכונות סטטיסטיות של המרכיבים 

Audio in 

Filterbank/ 

Transform 

Quantization 

& Coding 

Encoding of 

bitstream 

Bitstream out 

Perceptual 

Model 

איור 2.1: סכימת מבנה בסיסי של מקודד תפיסתי.‏ 

Figure 2.1: Block diagram of a perceptual encoder. 

Bitstream in 

Decoding of 

bitstream 

Inverse 

Quantization 

Inverse Filterbank/ 

Transform 

Audio out 

איור 2.2: סכימת מבנה בסיסי של מפענח תפיסתי.‏ 

- 10 -

Figure 2.2: Block diagram of a perceptual decoder. 

המפענח,‏ המתואר באיור 

,2.2 

בנוי בצורה הפכית.‏ המפענח מקבל כקלט את רצף הסיביות שנוצרו 

במקודד,‏ מפרק את רצף הסיביות לסדרת מקדמים,‏ מחשב את המקדמים הספקטרליים בעזרת 

פעולת כימות הפכית ומשחזר את אות השמע ע"י התמרה הפכית או שימוש בקבוצת מסננים.‏ 

2.4 שיטת קידוד 

MP3 

,MPEG-1 שכבה 

(3- 3 ,(layer הידוע כ-‏ ,MP3 הוא המקודד הנפוץ ביותר בעולם האינטרנט 

[2] 

.[5] [3] 

הסיבות להיותו שימושי כל כך הן:‏ 

• 

• 

גמישות באופן הפעולה.‏ כלומר,‏ יכולת לעבוד במספר מצבים הכוללים:‏ ערוץ יחיד,‏ שני 

ערוצים נפרדים,‏ שני ערוצי סטריאו-‏ עם ובלי קידוד משותף.‏ 

גמישות בקצבי הדגימה.‏ תחום רחב של קצבי דגימה של אות הכניסה החל מ-‏ 8KHz ועד 

.48KHz 

גמישות בקצב הדחיסה.‏ ניתן לבחור קצבי סיביות לתפוקת המקודד החל מ-‏ 

32kbps ועד 

.320kpbs 

• 

3 שכבה 

מספקת את יחס הדחיסה הגבוה ביותר,‏ אבל במחיר של סיבוכיות גבוהה יותר של 

המקודד והמפענח.‏ ניתן לראות תיאור מלבני של מבנה המקודד באיור 

קבוצת המסננים,‏ מסווגת כקבוצת מסננים היברידיים 

בשכבה 

התמרת 

.2.3 

.[3] 

1 ושכבה 

תחילה ישנה קבוצת מסננים ‏(כמו 

2) המחלקת את תחום התדר ל-‏ 32 תחומי תדר שווים ברוחבם,‏ ובנוסף,‏ מבוצעת 

[44] MDCT ‏(ייחודי לשכבה ,(3 

המחלקת כל תחום תדר ל-‏ 18 תחומי תדר צרים עוד 

יותר.‏ החלוקה לתחומי תדר קטנים מגדילה את היכולת להפחתת יתירות סטטיסטית ומביאה 

לשיפור ביעילות הקידוד.‏ כמו כן,‏ שיפור ברזולוצית התדר,‏ מאפשרת שליטה יותר עדינה בסף 

המיסוך של המודל הפסיכואקוסטי.‏ 

המודל התפיסתי מפיק את ערכי סף המיסוך או רמת סף הרעש בכל תחום תדר.‏ 

במקודד MP3 תחומים אלו שקולים,‏ בצורה גסה,‏ לתחומי התדר של השמיעה האנושית.‏ 

אם ניתן לשמור את רעש הכימות מתחת לסף המיסוך בכל תחום תדר,‏ תוצאת הדחיסה צריכה 

להישמע זהה לאות המקורי.‏ 

הכימות מבוצע בצורה לוגריתמית,‏ בצורה זו ערכים גדולים מקודדים בפחות דיוק.‏ 

הערכים המכומתים מקודדים ע"י קוד 

.Huffman 

הקידוד פועל על זוגות של ערכים ולפעמים על 

רביעיות.‏ על מנת לקבל התאמה סטטיסטית טובה יותר משתמשים בטבלאות קוד שונות עבור 

חלקים שונים של הפקטרום.‏ הטבלאות מסופקות גם למקודד וגם למפענח.‏ 

- 11 -

התהליך למציאת ערך העוצמה וגורמי המכפלה האופטימליים נעשה ע"י שני מעגלי איטרציה 

בגישה של ניתוח וסינתזה synthesis) .(analysis by המטרה של מעגלי האיטרציה היא התכנסות 

אופטימלית עבור הקצאת הסיביות לכל פרמטר,‏ עוצמה גלובלית 

תחום תדר)‏ הם רק אמצעי באלגוריתם.‏ תיאור המעגלים:‏ 

(gain) 

וגורמי מכפלה ‏(עבור כל 

מעגל איטרציה פנימי:‏ קוד 

Huffman 

מקצה מילות קוד קצרות לערכים קטנים ‏(יותר 

שכיחים).‏ מצב בו מספר הסיביות,‏ כתוצאה מהקידוד,‏ עולה מעל הסיביות הפנויות עבור 

מקטע של מידע,‏ ניתן לתיקון ע"י התאמת עוצמה גלובלית,‏ שיגרום לצעד כימות גדול 

יותר ולכן לפחות ערכים מכומתים אפשריים.‏ פעולה זו תחזור על עצמה עם צעדי כימות 

שונים עד אשר הדרישה לסיביות עבור קוד Huffman תהיה קטנה מספיק.‏ 

• 

מעגל איטרציה חיצוני:‏ על מנת לעצב את רעש הכימות בהתאם לסף המיסוך,‏ משתמשים 

בגורמי מכפלה,‏ אחד לכל תחום.‏ המערכת מתחילה בערכים של אחד לכל תחום.‏ אם רעש 

הכימות בתחום מסויים עולה מעבר לסף המיסוך ‏(רעש מותר),‏ מתאמים את גורם 

המכפלה על מנת להקטין את רעש הכימות.‏ 

מאחר שהשגת רעש כימות קטן מחייבת הקטנת צעד הכימות,‏ ולכן קצב סיביות גבוה 

יותר,‏ יש צורך בהפעלת המעגל הפנימי בכל פעם שגורמי ההכפלה השתנו.‏ 

המעגל החיצוני מופעל עד אשר רעש הכימות הינו מתחת לסף המיסוך בכל תחום תדר.‏ 

• 

שני המעגלים פועלים יחדיו אבל כל מעגל גורם לתוצאה בכיוון ההפוך,‏ המעגל הפנימי פועל לכיוון 

של הגדלת צעד הכימות והורדת קצב הסיביות והמעגל החיצוני פועל להקטנת צעד הכימות 

‏(בתחומים מסויימים)‏ ולכן להעלאת קצב הסיביות.‏ 

בהרצת שני המעגלים אמורים להגיע להתכנסות,‏ אך לפעמים זה לא קורה.‏ כאשר אין התכנסות 

יש למנוע לולאה אינסופית,‏ ע"י עצירה בתנאים מסויימים.‏ 

המידע המקודד ברצף הסיביות,‏ לא חייב בהכרח להתאים למספר סיביות קבוע.‏ 

קטעי אות בהן היה ניצול נמוך של סיביות,‏ מאפשרים למסגרות אחרות לנצל את המרווח ולפיכך 

לשדר רצף סיביות ארוך יותר.‏ המידע על השימוש ב"רזרבות"‏ מועבר דרך מידע צד.‏ 

Digital Audio 

Signal (PCM) 

Filterbank 

32 Subbands 

MDCT 

Distortion 

Control Loop 

Nonuniform 

Quantization 

Rate 

Control Loop 

Haffman 

Encoding 

Bitstream 

Formatting 

FFT 

1024 Points 

Psych- 

Acoustic 

Model 

Coding of 

Sideinformation 

External Control 

- 12 -

איור 2.3: סכימת מבנה של מקודד MPEG-1 שכבה 

.3 

Figure 2.3: Block diagram of an MPEG-1 Layer-3 encoder. 

2.5 קידוד TWIN-VQ 

MPEG-4 הוא אחד התקנים המבטיחים ביותר בתחום קידוד השמע עבור מגוון רחב של שימושי 

מולטימדיה 

.[9] 

התקן מוסיף הרבה פונקציות חדשות לעולם דחיסת המוסיקה,‏ כמו שיפור ביחס 

הדחיסה,‏ תמיכה במגוון רחב של קצבי סיביות וקצבי דגימה וכדומה.‏ 

ב MPEG-4 יש מספר טכניקות קידוד וביניהם שיטת ההתמרה – קידוד זמן תדר.‏ 

TWIN-VQ משתייך לטכניקה זו.‏ TWIN VQ הוא קיצור של כימות וקטורי ממושקל ומשולב 

בתחום ההמרה 

.[8] [7] [6] (Transform-domain weighted interleaved vector quantization) 

TWIN-VQ מאפשר השגת יעילות קידוד גבוהה במחיר של הפסד מינימלי באיכות השמע,‏ ביחס 

לאיכות השמע המתקבלת ממקודד 

.MP3 

הוא מתוכנן לעבוד בקצבים נמוכים מאוד של 

16kbps 

ואף קצבים נמוכים יותר.‏ החיסרון של מקודד זה הוא הירידה באיכות השמע,‏ כאשר הוא פועל 

בקצבים נמוכים מאוד.‏ 

בשיטת הקידוד מבוצע מיפוי אות הכניסה מתחום הזמן לתחום התדר בעזרת התמרת 

מקדמי ה-‏ MDCT עוברים נירמול ‏(שיטוח)‏ בתחום התדר וכימות וקטורי.‏ 

שלוש טכניקות חדשות מיושמות ב-‏ :TWIN-VQ 

.MDCT 

נירמול מקדמי MDCT באמצעות מקדמי .LPC 

נירמול מקדמי MDCT באמצעות מעטפת .Bark 

כימות וקטורי ממושקל ומשולב.‏ 

• 

• 

• 

איור 2.4 מתאר סכימת מלבנים של המקודד.‏ 

אות הכניסה למקודד נכנס לתוך שני מודולים.‏ מודול של התמרת 

,MDCT 

הממיר את אות 

הכניסה מתחום הזמן לתחום התדר.‏ מודול שני מחשב את מקדמי החיזוי הלינארי (LPC) של אות 

הכניסה,‏ וממשיך עד לחישוב הספקטרום שנבנה ממקדמי ה-‏ .LPC 

הספקטרום משמש לנירמול מקדמי ה-‏ ,MDCT כלומר הספקטרום המיוצג ע"י MDCT מחולק 

בספקטרום המיוצג ע"י מקדמי LPC וזאת במטרה לצמצם את התחום הדינמי.‏ מקדמי ה-‏ LPC 

לא מועברים ישירות למפענח,‏ אלא מותמרים למקדמי 

ניתן לכמת ביעילות ע"י כימות וקטורי.‏ 

Pairs) (Line Spectral ,[8] שאותם 

LSP 

לאחר שלב ראשון של נירמול,‏ מבוצע נירמול שני לפי סקלת [8]. Bark מקדמי הנירמול לפי סקלת 

Bark מכומתים אף הם בצורה וקטורית ונשלחים למפענח.‏ 

- 13 -

לאחר שני שלבי הנירמול הנ"ל מבצעים נירמול נוסף המקטין את עוצמת המקדמים הספקטרליים 

לפי ממוצע האנרגיה.‏ גם מקדם נירמול זה נשלח למפענח.‏ המקדמים הספקטרליים נותרו עם 

תחום דינמי מצומצם,‏ מצב שהוא מאוד מועיל לתהליך הכימות.‏ 

במודול האחרון,‏ כפי שניתן לראות באיור 2.5, מבוצע כימות וקטורי של המקדמים הספקטרלים 

המנורמלים.‏ על מנת שלא לעבוד עם וקטורים ארוכים ‏(דבר המקשה על מציאת המילון-‏ 

,(codebook מחלקים את וקטור המקדמים למספר תתי וקטורים.‏ 

תתי הוקטורים מורכבים בצורת שילוב 

,(interleave) 

על מנת ליצור אחידות במספר הסיביות 

הנדרש לכמת כל תת וקטור.‏ ללא שילוב,‏ תת הוקטור הראשון היה מכיל מקדמים,‏ המייצגים את 

תחום התדר הנמוך,‏ ולכן היה צורך במספר גדול של סיביות בכדי לכמת אותו ‏(כיוון שהרזולוציה 

בתדרים הנמוכים חשובה יותר).‏ בתהליך השילוב,‏ כל תת וקטור מכיל מקדמים,‏ המייצגים את כל 

תחום התדר.‏ 

תתי הוקטורים עוברים גם מישקול לפי הספקטרום,‏ שחושב מתוך מקדמי ה-‏ .LPC 

הוקטורים עוברים תהליך של כימות,‏ כלומר חיפוש וקטור מתאים במילון,‏ בעל מרחק ‏(שגיאה 

ריבועית)‏ ממושקל מינימלי מן הוקטור האמיתי.‏ 

רק האינדקסים המתאימים במילונים משודרים.‏ 

- 14 -

Digital Audio Signal (PCM) 

LPC coefficients 

calculation 

MDCT 

LPC to LSP 

transform 

: 

Bark envelope 

calculation 

LSP VQ 

LPC spectrum 

Calculations 

Bark VQ 

LSP to LPC 

transform 

: 

Gain SQ 

Power 

normalization 

Interleave 

Weighted 

VQ 

Weighted 

VQ 

איור 2.4: סכימת מקודד .TWIN-VQ 

Figure 2.4: Block diagram of a TWIN-VQ encoder. 

Input signal vector 

interleave 

Perceptual 

weights 

Weighted 

VQ 

Weighted 

VQ 

Weighted 

VQ 

Weighted 

VQ 

index index index index 

איור 2.5: שיטת כימות .TWIN VQ 

Figure 2.5: TWIN VQ quantization scheme. 

- 15 -

2.6 מודל פרמטרי - HILN 

תקני 

MPEG-4 Audio 

מגדירים קידודי שמע ודיבור בקצבים נמוכים החל מ-‏ 

2kbps 

64kbps 

ועד 

ומעלה.‏ על מנת להשיג איכות שמע גבוהה עבור מגוון רחב של קצבי סיביות,‏ הוגדרו 

שלושה סוגי מקודדים 

.[13] [12] 

• 

מקודד התמרה:‏ מיועד עבור קצבי סיביות של 

16kbps 

ומעלה ‏(התחום היותר גבוה).‏ 

בקצבי סיביות אלו מקודדים אותות שמע ברוחב פס של 8KHz ומעלה.‏ מקודדי התמרה 

מכוונים אל מגוון רחב של אותות שמע,לכן המקודד לא בנוי סביב מודל מסויים,‏ אלא 

מתבסס על ההנחה שקטע אות קצר מספיק הוא סטציונרי,‏ ולכן תכונותיו נשארות 

קבועות.‏ המקודד מבצע התמרת האות לתחום התדר ומחלק אותו למספר רב של תחומי 

תדר.‏ לכל תחום מקצים סיביות בהתאם למודל השמיעה האנושית.‏ דוגמה לשיטת קידוד 

מסוג זה הוא ה-‏ ,TWIN-VQ שהוצג בסעיף 2.5. 

מקודד 

קיצור של 

בקצבים של 

:CELP 

מיועד עבור קצבי סיביות בין 

6kbps ועד .24kbps 

CELP קידוד 

.Code Excited Linear Prediction 

16KHz ו-‏ 8KHz 

הוא 

אותות הכניסה הן אותות דיבור דגומים 

מ.‏ אחר שהמקודד מיועד לאותות דיבור הוא בנוי לפי מודל 

מערכת הקול האנושית.‏ המקודד מפריד בין קטעי דיבור קוליים 

(voiced) הכוללים 

רכיבים מחזוריים,‏ לבין קטעי דיבור א-קוליים (un-voiced) הכוללים רכיבים לא 

מחזוריים.‏ 

מקודד פרמטרי:‏ מיועד עבור קצבי סיביות בתחום הנמוך ביותר שבין 

2kbps 

.16kbps 

הדגום בקצב של 

ועד 

טכניקות הקידוד מותאמת למודל פרמטרי.‏ אותות הכניסה הן בעיקר דיבור,‏ 

.8KHz 

• 

• 

העניין בשיטת הקידוד הפרמטרי גדל במהלך השנים האחרונות,‏ בשל היכולת לעבוד בקצבים 

מאוד נמוכים.‏ השימושים הראשוניים התמקדו בעיקר בדיבור,‏ אבל עם הזמן היתה הרחבה לכיוון 

של אותות שמע כלליים.‏ 

המודל הפרמטרי נותן ביצועים טובים לאותות שמע לא מורכבים במיוחד,‏ כמו אות מוסיקלי 

הכולל כלי יחיד או מספר מצומצם של כלים.‏ שיטות הקידוד האחרות נותנות ביצועים נמוכים 

יחסית עבור סוג כזה של אות שמע.‏ 

ישנם מספר קשיים בגישה הפרמטרית,‏ במיוחד עבור קידוד אותות שמע מורכבים מאוד,‏ בהם 

המודל מניב ביצועים פחות טובים 

.[13] 

המודל הפרמטרי,‏ שהוצע במסגרת ,MPEG-4 Audio 

נקרא בשם Harmonic Individual ) HILN 

.(Lines and Noise 

- 16 -

שיטת הקידוד ‏(חלק מהסטנדרט של 

נמוכים מאוד.‏ 

MPEG-4 

2) גירסה 

השיטה מבוססת על חלוקת האות למסגרות ‏(אורך טיפוסי 

מיועדת לדחיסת אותות שמע בקצבים 

(32ms 

והפרדת המסגרת למספר 

מרכיבים ‏(אובייקטים).‏ לכל מרכיב תכונות שונות,‏ הניתנות לתיאור ע"י מספר מודלים.‏ 

כל מודל מכיל מספר מצומצם של פרמטרים,‏ שאותם נדרש לקודד.‏ 

בגירסה מוקדמת של HILN היה רק מרכיב אחד שתמך בסינוסים בדידים בלבד 

מתואר ע"י תדר אמפליטודה ופאזה.‏ גישה זו הורחבה למספר מודלים.‏ 

ב-‏ HILN המודלים הם הרמוניות,‏ סינוסים בדידים ורעש.‏ 

.[16] 

כל סינוס 

סינוסים בדידים מיוצגים ע"י תדר ואמפליטודה.‏ 

הרמוניות מיוצגות ע"י תדר יסודי 

(pitch) 

והאמפליטודות של ההרמוניות 

משתמשים במעטפת הספקטרלית על מנת לחסוך במספר הפרמטרים).‏ 

רעש מיוצג ע"י מעטפת ספקטרלית ואמפליטודה.‏ 

‏(למעשה,‏ 

• 

• 

• 

מודלים אלו משולבים עם המודל של השמיעה האנושית [13], בכדי להוריד את מרכיבי האות שלא 

נשמעים כמעט או כלל ע"י האוזן.‏ 

בגלל הדרישה לקצב סיביות נמוך,‏ ניתן לשדר רק פרמטרים עבור מספר נמוך של מרכיבים.‏ 

תפקידו של מודל השמיעה האנושית הוא לסייע בבחירת מרכיבי האות החשובים לאיכות השמע.‏ 

סכימת מלבנים של מקודד HILN מתוארת באיור 

.2.6 

המקודד מבצע בשלב הראשון תהליך ניתוח ע"י סינתזה,‏ על מנת למצוא את כל הסינוסים 

הבדידים.‏ הסינוסים הבדידים מחושבים בצורה איטרטיבית,‏ כאשר בכל איטרציה מחושב אות 

הסינוס הרלוונטי ביותר.‏ החשיבות של הסינוסים נמדדת על פי המודל הפסיכואקוסטי,‏ הבנוי 

עפ"י תכונות האוזן האנושית.‏ 

כל סינוס מיוצג באמצעות שלושה פרמטרים:‏ אמפלטודה,‏ תדר ופאזה.‏ 

רגישות האוזן לפאזה נמוכה מאוד,‏ ולכן ניתן להוריד פרמטר אחד בתהליך הקידוד של כל סינוס.‏ 

מכיוון שסינוס המתמשך על פני מספר מסגרות חייב להיות בעל פאזה רציפה,‏ אחרת האוזן תבחין 

בעיוותים,‏ יש להבטיח ביצוע מעבר חלק בין מסגרות למרות הורדת מידע על הפאזות.‏ 

בשלב שני,‏ משפרים את יעילות הקידוד ע"י הורדת מספר הפרמטרים שצריך לקודדם.‏ התהליך 

מתבצע ע"י חיפוש גורם משותף לחלק ‏(או למרבית)‏ מהסינוסים.‏ 

מחפשים הרמוניות מתוך כל הסינוסים,‏ כלומר סינוסים בתדרים שהם כפולות של תדר יסודי 

.(pitch) שידור התדר היסודי חוסך את שידורם של כל קבוצת התדרים המשוייכים לתדר זה.‏ 

שארית האות ‏(לאחר הורדת כל המרכיבים הסינוסואידלים)‏ היא מרכיב הרעש.‏ 

מרכיב הרעש מיוצג ע"י מעטפת ספקטרלית ועוצמה.‏ 

כל פרמטרי האות מכומתים ומייצרים סדרת סיביות,‏ המסודרת לפי סדר חשיבותם.‏ כאשר 

הסיביות הראשונות הן החשובות יותר ‏(בעלי משמעות גדולה יותר לאוזן)‏ ועליהן נצטרך להגן יותר 

מפני שגיאות.‏ 

- 17 -

Perception 

Model 

Parameter 

Coding 

Audio 

Signal 

Individual 

Sinusoid 

Extraction 

Parameters 

Residual 

Signal 

Grouping to 

Harmonic 

Components 

Noise 

Parameter 

Estimation 

Harmonic 

Components 

Sinusoidal 

Components 

Noise 

Components 

Quant 

Quant 

Quant 

Mux 

Bit- 

Stream 

איור 2.6: סכימת מלבנים של מקודד .HILN 

Figure 2.6: Block diagram of HILN encoder. 

2.7 סיכום 

בפרק זה הוצגה הפעילות שדווחה בספרות בתחום קידוד שמע בקצבים נמוכים.‏ 

הסקירה ההיסטורית של ההתפתחות קידוד השמע מראה התקדמות אדירה בתחום במהלך 

העשרים שנה האחרונות.‏ 

בפרק הוצגו מספר מקודדים הכוללים מקודד בסיסי,‏ מקודד 

והמקודד הפרמטרי-‏ .HILN 

,MP3 

מקודד ,TWIN-VQ מקודד 

מהתפתחות הקידוד ניתן ללמוד,‏ שעם השנים הומצאו טכנולגיות קידוד מתקדמות,‏ שהצליחו 

להתגבר על מגבלות של טכנולוגיות קידוד ישנות יותר.‏ היכולת להוריד את קצב הסיביות היא 

הצלחה גדולה.‏ כיום,‏ העברת שמע רחב סרט בתווך מוגבל סרט,‏ נראה כדבר מובן מאליו.‏ 

הבעיה העיקרית,‏ שעדיין נותרה היא הפגיעה באיכות השמע בקצבים הנמוכים.‏ המודל הפרמטרי 

המקודד שמע בקצבים הנמוכים ביותר,‏ אינו מפיק שמע באיכות מספיק גבוהה.‏ 

האתגר של עבודת מחקר זו הוא לנסות ולשפר את המודל על מנת שנוכל להנות משמיעת מוסיקה 

דחוסה בקצבים נמוכים 

.(16kbps ) 

בהשוואה לשיטות אחרות כמו Twin-VQ או ,AAC אות כניסה לא מורכב,‏ הכולל מספר קטן של 

מרכיבים,‏ הוא הרבה יותר יעיל לייצוג בעזרת מודל פרמטרי,‏ כמו 

.HILN 

מצד שני,‏ הקידוד 

הפרמטרי פחות יעיל כאשר האות הוא מאוד מורכב או כשהוא כולל מרכיבים שלא ניתן לייצגן 

באמצעות המודלים שהונחו 

.[11] 

- 18 -

פרק 3 

המודל הפסיכואקוסטי 


אחת המטרות המרכזיות של מקודד שמע הוא קידוד האות תוך שימוש במספר מינימלי של 

סיביות.‏ על מנת לבצע קידוד יעיל,‏ יש צורך בלימוד מערכת השמיעה האנושית על מנת להשתמש 

בתכונותיה ולנצל מגבלותיה בטכניקת הדחיסה.‏ מערכת השמע האנושית מתוארת בסעיפים 

3.2 

ו-‏ 3.3. 

האפשרות של הורדת קצב הסיביות נובעת מהעובדה שבאות השמע ישנם חלקים שאינם 

רלוונטיים לשמיעה.‏ בכדי למצוא ולהרחיק חלקים אלו משתמשים במודל השמיעה האנושית.‏ 

מקודד טיפוסי ממיר את אות השמע לתחום התדר,‏ תהליך שקורה גם באוזן האנושית.‏ לאחר 

התמרת האות מחושב סף מיסוך,‏ בהתאם למודל הפסיכואקוסטי.‏ בסעיף 

3.4 

מתואר תהליך 

חישוב סף המיסוך הפסיכואקוסטי,‏ שבאמצעותו ניתן להרחיק חלקים לא רלוונטים של האות,‏ 

שאינם נשמעים ממילא לאוזן האנושית.‏ 

3.2 מערכת השמע האנושית 

מערכת השמע 

לתאי העצב,‏ 

קולטת קולות ומעבדת אותם.‏ הקול עובר דרך מערכת השמע עד אשר הוא מגיע 

המקודדים את הגירוי,‏ 

מעובדות ומועברות למוח [19]. 

מבנה האוזן מוצג באיור 

התפקידים המיועדים לו 

.3.1 

.[21] 

• 

• 

• 

הנוצר ע"י הקול,‏ 

לרמות 

מתח אלקטרוני.‏ 

האוזן האנושית מחולקת לשלושה חלקים נפרדים,‏ 

האוזן החיצונית:‏ מורכבת מן האוזן הנראית לעין,‏ מצינור השמע ומקרום התוף.‏ 

האוזן התיכונה:‏ מכילה שלושה עצמות זעירות,‏ הפטיש,‏ הסדן והארכובה.‏ 

האוזן הפנימית:‏ הכוללת את השבלול והתעלות הקשתיות.‏ 

רמות המתח 

ולכל חלק 

חלק האוזן החיצונית,‏ הנראה לעין,‏ נקרא אפרכסת.‏ האפרכסת עשויה ברובה מחומר צמיג הנקרא 

סחוס.‏ צורתה מותאמת לקליטת קולות והכוונתם לתוך צינור השמע,‏ שאורכו 

המתאים לרבע אורך גל של תדרים באיזור ה 

זה.‏ 

2.5 עד 2 

,4KHz 

ס"מ,‏ 

דבר הגורם לרגישות גבוהה לתדרים באיזור 

בקצה צינור השמע מתוח קרום דק,‏ הנקרא קרום התוף.‏ גלי הקול,‏ הנכנסים מן האפרכסת לצינור 

השמע,‏ מכים בקרום התוף.‏ אנרגיית גלי הקול מועברת לקרום התוף ומרעידה אותו בחוזקה.‏ זהו 

השלב הראשון בתהליך השמיעה.‏ 

- 19 -

במרכז קרום התוף,‏ מחובר קצה של אחת העצמות הזעירות הנמצאות באוזן התיכונה,‏ הנקראת 

פטיש.‏ 

האוזן התיכונה פועלת כמגבר מכאני פשוט,‏ המגביר את תנודות קרום התוף ומעבירה אותן לאוזן 

הפנימית,‏ שם נמצאים איברי החישה.‏ התנודות עוברות לאורך שלוש עצמות קטנטנות.‏ העצם 

הראשונה היא,‏ כאמור הפטיש,‏ מחוברת לקרום התוף ונעה כאשר הוא רועד.‏ כשהפטיש נע הוא 

פוגע בסדן,‏ התלוי על סיבים דקים ולכן הוא מסוגל לנוע חופשי בחלל האוזן התיכונה.‏ הסדן תלוי 

וחובר כך,‏ שהוא קולט את התנועות הקלילות של הפטיש בצד אחד,‏ ומגביר אותן פי אחד וחצי 

בקצהו האחר.‏ 

הסדן מתחבר לעצם הקטנה ביותר בין שלוש העצמות:‏ הארכובה.‏ עצם זו מחוברת לקרום אחר,‏ 

הנפתח אל האוזן הפנימית ונקרא האשנב הסגלגל 

.(oval window) 

איור 3.1: מבנה האוזן 

.[21] 

האוזן החיצונית ear) (Outer 

צינור השמע canal) (external auditory 

(hearing bones-hammer, anvil and stirrup) 

תעלות קשתיות canals) (semicircular 

.1 

.2 

.3 

.4 

.5 

.6 

.7 

.8 

עצמות השמע-‏ פטיש,‏ סדן וארכובה 

שבלול האוזן-בתוכו נמצאת הממברנה (cochlea) 

עצב השמע 

קרום התוף (eardrum) 

חצוצרת אויסטכיוס 

Figure3.1: The ear structure [21]. 

(hearing nerves) 

(Eustachian tube) 

החלק המסובך ביותר הוא האוזן הפנימית,‏ הכוללת את איברי השמיעה.‏ 

האוזן הפנימית היא מבנה עדין וחלול,‏ העשוי מרקמה דקה מאוד והיא ממוקמת בחלל בעצם 

הגולגולת.‏ באוזן הפנימית נהפכות תנודות קרום התוף ועצמות האוזן התיכונה לסוג אחר של 

אנרגיה,‏ לאנרגיה היכולה לעבור דרך העצבים אל המוח.‏ 

החלק המופקד על השמיעה נקרא שבלול 

הצינור רחב בבסיס והולך ונעשה צר.‏ 

,(cochlea) 

והוא צינור לולייני בעל כשלושה פיתולים.‏ 

- 20 -

השבלול מחולק לאורכו לשלושה ערוצים,‏ הצמודים זה לזה לכל אורכם,‏ כמתואר באיור 

.3.2 

,(oval window) 

נפתח אל הצינור העליון.‏ הצינור התחתון נפתח גם הוא אל 

האשנב הסגלגל 

האוזן התיכונה,‏ בפתח הרבה יותר קטן ומכוסה בקרום,‏ הנקרא האשנב העגול 

.(round window) 

שני הצינורות,‏ הצינור העליון והצינור התחתון,‏ מלאים בנוזל דליל הנקרא פרילימפה 

.(perilymph) 

הצינור האמצעי שהוא קטן הרבה יותר,‏ נקרא תעלת השבלול.‏ גם הוא מלא בנוזל,‏ אבל זה נוזל 

אחר הנקרא אנדולימפה .(endolymph) תעלת השבלול מכילה תאים מיוחדים,‏ הקולטים תנודות 

קול והופכים אותם לאותות עיצביים,‏ העוברים למוח.‏ 

בתוך השבלול ישנו חומר דק מאוד,‏ הנקרא הקרום המכסה 

אורך הקרום הוא 32mm והוא קיים לאורך כל השבלול.‏ 

.(basilar membrane) 

מתחת לקרום המכסה נמצא מספר רב של תאי חישה,‏ וכל תא מצויד בריס,‏ הנוגע בקרום.‏ מכל 

תא חישה יוצא עצב דקיק,‏ המעביר את הגירוי העצבי.‏ 

איור 3.2: מבנה השבלול.‏ 

Figure 3.2: Cochlea structure. 

.3.3 

הקול עובר בנוזל שבאוזן הפנימית בצורת תנודות,‏ שנוצרו ע"י עצם הארכובה.‏ הוא נכנס לשבלול 

דרך האשנב הסגלגל.‏ גלי הקול עוברים בצינור העליון אל עבר קצהו הרחוק והמחודד.‏ הם 

מרעידים את הדפנות הדקות,‏ המפרידות בין שלושת צינורות השבלול:‏ תחילה עוברים הגלים 

בדופן הצינור האמצעי ואחר כך בדופן הצינור התחתון.‏ 

כשגלי הקול עוברים בדופן הצינור האמצעי,‏ הם מניעים את הקרום המכסה.‏ 

ככל שהנוזל נע קדימה לאורך הקרום,‏ הוא בא במגע עם התאים המפעילים את הגירוי העצבי.‏ 

תנודות הנוזל הנגרמות ע"י קול עוברות על פני הקרום כגלים,‏ ותדרים שונים גורמים לתנודות 

באיזורים שונים על פני הממברנה.‏ 

התדרים הגבוהים ממוקמים בתחילת הקרום ‏(קרוב ל (oval window ותדרים נמוכים מגיעים עד 

לקצה הקרום,‏ כפי שמתואר באיור 

הגלים,‏ שנעים לאורך הממברנה,‏ מאבדים את התדרים הגבוהים ככל שהם מתקדמים.‏ מעבר 

לאורך הממברנה ‏(מבחינת מרחק)‏ בצורה לינארית שקול למעבר לוגריתמי בתדר.‏ תכונה זו היא 

הבסיס לתחומים הקריטים bands) (critical המגדירים איזורים קבועים לאורך הממברנה.‏ 

- 21 -

2000 

400 

3000 

500 300 

100 

200 

600 

1000 

4000 

700 

800 

900 

10000 

5000 

6000 7000 8000 

15000 

20000 

3.3: איור 

פריסת תדרים לאורך השבלול.‏ 

Figure 3.3: Frequencies spreading over the cochlea. 

3.3 תחומים קריטיים 

ההתמרה מתדר למקום מתבצעת באיבר השמע,‏ השבלול,‏ בתוך האוזן הפנימית.‏ 

ההתמרה משפיעה על רגישות התדר של האוזן האנושית 

.[19] 

המונח רגישות תדר מגדיר את היכולת של מערכת השמיעה האנושית להפריד בין מרכיבי התדר.‏ 

הרעיון של תחומים קריטיים מוצג על מנת להגדיר את תחומי התדר,‏ בהם שינויי אנרגיה 

משפיעים בצורה משמעותית על השמע.‏ האוזן האנושית מסוגלת לקשר בין אנרגית קול לבין תחום 

קריטי.‏ 

ניתן לדמות את איבר השמע,‏ כקבוצה של מסננים מעבירי פס 

,(band pass filters) 

כאשר רוחב הפס של כל מסנן מתאים לרוחב של כל תחום קריטי.‏ 

מספר התחום הקריטי הוא מדד למיקום על פני הקרום והוא נמדד ביחידות .Bark 

תחום קריטי,‏ המתאים ליחידת 

, 

Bark 

תאים שעירים.‏ ניסויים הראו שקיימים 

מייצג אורך של 1.3mm לאורך הקרום המכסה ו-‏ 

150 

25 

תחומים קריטיים לאורך תחום התדר של השמיעה 

האנושית שנע בין 20Hz ועד .20KHz רוחבי התחומים הקריטים מוצגים בטבלה 

.3.1 

ההתמרה מתדר לתחום קריטי ‏(ביחידות של (Bark מופיעה בנוסחה 3.1 ומוצגת גרפית באיור 

.3.4 

Z( 

f ) = 13arctan(0.00076 f ) + 3.5arctan[ ⎜ 

⎛ f 

⎝ 

7500 

⎟ 

⎞ 

⎠ 

2 

] 

(3.1) 

כאשר Z הוא תחום התדר החדש ‏(לפי המודל השמיעתי)‏ ביחידות של .Bark 

.Hz מייצג את התדר האמיתי ביחידות של f 

- 22 -

Bark 

Frequency [KHz] 

איור 3.4: 

גרף התמרה מיחידות תדר ליחידות .Bark 

Figure 3.4: Conversion from frequency to Bark scale. 

ניתן להגדיר גם את רוחב הסרט ‏(ביחידות הרץ)‏ של כל תחום קריטי ע"י הנוסחה:‏ 

BW ( f ) = 25 + 75⋅[1 

+ 1.4( f 

1000) 

2 ] 0.69 

(3.2) 

[Hz] 

Frequency band 

100 - 0 

200 - 100 

300 - 200 

400 - 300 

510 - 400 

630 - 510 

770 – 630 

920 - 770 

1080 - 920 

1270 – 1080 

1480 – 1270 

1720 – 1480 

2000 – 1720 

2320 – 2000 

2700 – 2320 

3150 – 2700 

3700 – 3150 

4400 – 3700 

5300 – 4400 

6400 – 5300 

7700 – 6400 

9500 – 7700 

12000 - 9500 

15500 - 12000 

20000 - 15500 

מספר 

תחומי תדר 

רוחב התחום הקיטי ב-‏ [Hz] 

Critical band bandwidth 

100 

100 

100 

100 

110 

120 

140 

150 

160 

190 

210 

240 

280 

320 

380 

450 

550 

700 

900 

1100 

1300 

1800 

2500 

3500 

4500 

Bark index 

1 

2 

3 

4 

5 

6 

7 

8 

9 

10 

11 

12 

13 

14 

15 

16 

17 

18 

19 

20 

21 

22 

23 

24 

25 

טבלה 3.1: רוחב הסרט של התחומים הקריטיים.‏ 

Table 3.1: Critical bands bandwidth. 

- 23 -

3.4 מיסוך השמע 

המיסוך הוא אלמנט בסיסי במערכת קידוד השמע.‏ מיסוך מוגדר כשינויים ברגישות לאותות קול 

שונים בנוכחות קול אחר.‏ מיסוך שמע הוא תהליך שבו אות שמע חזק מונע את יכולת השמיעה של 

אות חלש אחר.‏ יש צורך בהעלאת עוצמת האות החלש בכדי שיוכל להישמע ע"י מאזין אנושי.‏ 

סף המיסוך מותאם לסף השמיעה המוגבר,‏ כתוצאה מנוכחותו של אות ממסך חזק 

.[21] [19] 

מגוון רחב של מקרי מיסוך נוצרים בחיי היום יום.‏ למשל,‏ מוסיקה של רדיו ברכב יכולה למסך את 

הקול של מנוע הרכב,‏ בהנחה שהמוסיקה היא בעוצמה מספיק חזקה.‏ בצורה דומה,‏ דובר חייב 

להרים את קולו בנוכחות רעש רקע חזק על מנת שיוכל להישמע.‏ 

מיסוך קורה הן בתחום התדר והן בתחום הזמן,‏ וההשפעה של האות הממסך תלויה במבנה האות,‏ 

בתדר בועוצמת הממסך והממוסך.‏ המיסוך משפיע בצורה משמעותית בתוך התחום הקריטי בו 

נמצא האות הממסך,‏ אך ישנה גם השפעה מסויימת לתחומים קריטיים אחרים.‏ 

מגדירים שני סוגים טיפוסיים של ממסכים:‏ ממסך טונלי וממסך רעש.‏ 

ממסך טונלי נוצר ע"י טון יחיד.‏ האיזור הקרוב לתדר הטון,‏ במיוחד בתחום הקריטי של הטון,‏ 

ממוסך בצורה שתדרים אחרים הנמצאים באיזור זה לא ישמעו,‏ בהנחה שעוצמתם נמוכה מספיק.‏ 

ממסך רעש נוצר ע"י קיום רעש בתחום הקריטי.‏ ממסך זה מונע שמיעת תדרים אחרים קרובים.‏ 

בכל המקרים בהם מעורבים אותות רעש,‏ רוחב הסרט שלהם מתאים לרוחב הסרט של התחום 

הקריטי,‏ בו נמצא הרעש.‏ 

ניסויים הראו שישנם הבדלים בין ממסך שהוא טון לבין ממסך שהוא רעש.‏ ממסך רעש הוא יותר 

משמעותי [21]. 

3.4.1 סף השמיעה המוחלט 

אוזנו של האדם אינה רק רגישה מאוד,‏ היא גם מסוגלת לגלות הבדלים מזעריים בין הצלילים 

השונים שהיא שומעת 

.[20] 

הצלילים הגבוהים ביותר הם בתדר 

20KHz 

והם נשמעים כשריקה חדה.‏ לעומתם,‏ הצלילים 

הנמוכים ביותר הם בתדר ,10Hz ואז אנו חשים את האות כהמייה עמוקה.‏ 

האוזן רגישה לכל תדר במידה אחרת.‏ הסף המוחלט מגדיר את רגישות אוזן כפונקציה של התדר.‏ 

סף השמיעה המוחלט,‏ הנקרא גם הסף בשקט,‏ מוגדר כעוצמת הקול שניתן לשמעו,‏ כאשר אין 

ברקע אותות אחרים,‏ כלומר רקע שקט באופן מוחלט.‏ 

עוצמת הקול נמדדת ע"י SPL 

.dB ביחידות (Sound Pressure Level) 

ניתן לתאר את הסף המוחלט בעזרת משוואה 3.3 או בצורה גרפית באיור 

.[20] 3.5 

T ( f ) = 3.64 ⋅ ( f 

q 

/1000) 

−0.8 

− 6.5 ⋅ e 

2 

−0.6( 

f /1000−3.3) 

+ 10 

−3 

⋅ ( f 

/1000) 

4 

(3.3) 

כאשר f מתאר את התדר ביחידות של Hz ו-‏ T q מסמל את הסף המוחלט ביחידות של .dB 

- 24 -

ניתן לראות מהגרף ‏(איור 

,(3.5 

שהאוזן האנושית רגישה מאוד לתדרים באיזור ה 

3KHz 

,4KHz 

‏(מעל 

ופחות רגישה לתדרים נמוכים מאוד ‏(פחות מ-‏ 

(20Hz 

.(15KHz 

טבלה 3.2 מציגה מספר ערכים אופיינים של עוצמות קול 

עד 

וגם עבור תדרים גבוהים מאוד 

.dB ביחידות של (SPL) 

דוגמה טיפוסית 

עוצמה 

Sound level SPL dB 

120 

100 

70 

50 

30 

20 

6 

0 

Typical example 

קונצרט רוק רועש 

צעקה בטווח קרוב 

שיחה נורמלית 

שיחה שקטה 

לחישה שקטה 

איזור כפרי בלילה 

הסף המוחלט ב-‏ 

רמת התייחסות 

1KHz 

טבלה 3.2: דוגמאות לעוצמות קול.‏ 

Table 3.2: Examples of sound pressure level. 

180 

160 

140 

120 

100 

SPL[dB] 

80 

60 

40 

20 

0 

-20 

10 2 10 3 10 4 

frequency[Hz] 

איור 3.5: סף השמיעה המוחלט 

Figure 3.5: The absolute hearing threshold. 

- 25 -

3.4.2 מודל לחישוב סף המיסוך 

בתקני MPEG 

לקידוד שמע משתמשים ב-‏ 

32 מסננים 

banks) (filter המפרידים את האות ל-‏ 

32 

פסים שווים בגודלם במישור התדר [5]. כל תחום משודר באמצעות מספר סיביות שונה,‏ בהתאם 

למודל הפסיכואקוסטי.‏ 

חלוקת תחום התדר בצורה שווה היא בעייתית כיוון שהייצוג שונה לגמרי מהתחומים הקריטיים,‏ 

שהיא החלוקה האמיתית של האוזן.‏ 

רוחב הסרט של התחום הקריטי גדל עם עליית התדר המרכזי בתחום,‏ לכן צריך לבחור קבוצת 

מסננים 

(filter banks) 

בעלי רוחב סרט השקול לרוחב הקטן ביותר של התחומים הקריטיים ‏(סדר 

גודל של ,(100Hz ואז הרזולוציה תהיה מספיק טובה.‏ 

המודל הפסיכואקוסטי מבוסס על חישוב יחס אות למיסוך (SMR) בכל אחד מ-‏ 32 התחומים.‏ 

המודל מחשב את עוצמת הספקטרום של האות ע"י .FFT ‏(תיאור מפורט בהמשך הפרק).‏ 

מחפשים בספקטרום מרכיבים טונליים ומרכיבי רעש.‏ מחשבים את סף המיסוך של כל מרכיב 

לבדו.‏ ובסוף מחברים לינארית את כל הספים ביחד עם סף המיסוך המוחלט לקבלת סף מיסוך 

גלובלי.‏ מרכיבי מיסוך בתדר מסויים מוזנחים אם רמתם מתחת לרמת סף המיסוך המוחלט 

‏(בשקט).‏ 

המודל מורכב מחמישה שלבים 

:[21] 

.1 

ניתוח ספקטרלי והמרה ל .SPL 

המטרה של שלב זה היא ייצוג מרכיבים ספקטרליים ע"י רמות .SPL 

תחילה,‏ מנרמלים את דגימות הכניסה,‏ 

,s(n) 

באורך N ‏(של 

,FFT 

ובמספר הסיביות המשתמשים לייצור הדגימה.‏ הנירמול מתואר ע"י:‏ 

ערך טיפוסי הוא 

512 דגמים)‏ 

s( 

n) 

x( n) 

= 

b−1 

N ⋅ (2 ) 

(3.4) 

הנירמול מביא לעוצמת ספקטרום מקסימלית של 0. dB 

האות המנורמל מחולק לקטעים ע"י הכפלה בחלון Hann ‏(מסומן ע"י 

ומבוצעת המרה לתדר,‏ לפי המשוואה:‏ 

(w(n) 

P( 

k) 

= PN + 10 log 

N −1 

10 ∑ w( 

n) 

x( 

n) 

n= 

0 

e 

2 

− j(2πkn 

/ N ) 

N 

0 ≤ k ≤ 

(3.5) 

2 

כאשר PN נקבע ל-‏ .90.302dB 

דוגמה לאות שמע,‏ שעבר את התהליך ומיוצג ברמות ,SPL מופיע באיור 

.3.6 

- 26 -

100 

80 

60 

SPL [dB] 

40 

20 

0 

-20 

-40 

0 1000 2000 3000 4000 5000 6000 7000 8000 

frequency[Hz] 

איור 3.6: ספקטרום של אות שמע בייצוג .SPL 

Figure 3.6: The spectrum of an audio signal in SPL. 

.2 

זיהוי ממסך טונלי וממסך רעש.‏ 

לאחר שבשלב הראשון נמצאה העוצמה בתחום התדר,‏ מחפשים על פני הערכים מקסימה 

לוקליים.‏ נקודת המקסימום מוגדרת כמרכיב טונלי רק כאשר ערכה גדול בלפחות 7dB משכנותיה 

במרחק בסדר גודל של .Bark המרכיב הטונלי מהווה ממסך שעוצמתו מחושבת לפי:‏ 

P 

TM 

∑ 

( i ) = 10 log 10 

10 

1 

j=−1 

0.1P( 

k+ 

j) 

(3.6) 

כלומר לכל מקסימום אוספים אנרגיה גם משני השכנים לקבלת עוצמת הממסך.‏ 

במשוואה 

P TM 

,3.6 

מציין את עוצמת הממסך ביחידות 

מציין את מיקום הממסך בתחום התדר.‏ 

דוגמה לממסכים טונלים,‏ ניתן לראות באיור 

ביחידות של 

i ,dB 

מציין את אינדקס הממסך ו-‏ 

k 

.3.7 

,SPL dB 

מסומנים בעיגולים.‏ 

באיור ניתן לראות חמישה ממסכים טונליים.‏ 

בגרף מופיעה ‏(בקו מלא)‏ ספקטרום האות 

הסף המוחלט משורטט בקו מקווקו,‏ והמרכיבים הטונליים ‏(ממסכים)‏ 

- 27 -

100 

80 

60 

SPL [dB] 

40 

20 

0 

-20 

-40 

0 1000 2000 3000 4000 5000 6000 7000 8000 

frequency[Hz] 

איור 3.7: ממסכים טונלים 

Figure 3.7: Tonal maskers 

∑ 

(3.7) 

ממסך מסוג רעש נוצר כאשר לא נמצא בתחום קריטי מסויים מרכיב טונלי,‏ או כאשר נמצא 

מרכיב טונלי והתחום הקריטי הוא מספיק גדול על מנת להכיל רכיבים נוספים שהם לא טונליים.‏ 

חישוב עוצמת הממסך נתון לפי:‏ 

P NM 

( i) 

= 10 log 10 

10 

j 

0.1P( 

j) 

כאשר j הם כל אותם מרכיבים בתחום הקריטי אשר לא שמשו לחישוב הטונליות.‏ 

P NM מציין את עוצמת הממסך ביחידות i .dB מציין את מיקום הממסך בתחום התדר.‏ 

המיקום של ממסך רעש נקבע בעזרת הממוצע הגאומטרי ‏(מרכז הכובד)‏ של הקווים הספקטרלים 

בתוך התחום הקריטי.‏ 

הרעיון העומד מאחורי משוואה 

3.7 

הוא ששארית האנרגיה הספקטרלית בתוך תחום קריטי,‏ 

שאינה קשורה עם ממסך טונלי,‏ חייבת להיות משוייכת לממסך רעש.‏ 

דוגמה לממסכי רעש,‏ ניתן לראות באיור 

.3.8 

- 28 -

100 

80 

60 

SPL [dB] 

40 

20 

0 

-20 

0 1000 2000 3000 4000 5000 6000 7000 8000 

frequency[Hz] 

איור 3.8: ממסכי רעש.‏ 

Figure 3.8: Noise maskers. 

בגרף מופיע ספקטרום האות ‏(משורטט בקו מלא)‏ 

ביחידות של ,SPL dB 

בקו מקווקו,‏ וממסכי הרעש מסומנים בעיגולים.‏ באיור 3.8 ניתן להבחין ב-‏ 

המיקרים,‏ תחום קריטי מכיל מממסך רעש אחד.‏ 

הסף המוחלט משורטט 

21 ממסכים.‏ 

במרבית 

3. צמצום מספר הממסכים.‏ 

מטרת תהליך הצמצום,‏ היא ניפוי ממסכים שהשפעתם זניחה.‏ 

קיימים שני סוגי ניפויים:‏ 

• 

כל ממסך ‏(טונלי או רעש),‏ שהוא מתחת לסף המוחלט,‏ יוזנח.‏ ממסכים שעוצמתם כה 

נמוכה לא משפיעים כלל ולכן ניתן להוציאם.‏ באיור 3.9 ניתן לראות את הצמצום בכמות 

הממסכים ‏(ביחס לאותו קטע המוצג באיור 

.(3.8 

• 

מ-‏ 4000Hz נופו ‏(ממסך טונלי אחד וארבעה ממסכי רעש).‏ 

כל הממסכים שהיו בתדרים הגבוהים 

צמצום נוסף מתבצע כאשר יש שני ממסכים טונליים הנמצאים במרחק הקטן מ 

0.5 

Bark האחד מהשני,‏ הופכים אותם לממסך אחד עם העוצמה המקסימלית מבין שניהם,‏ 

כלומר את הממסך החלש יותר מורידים.‏ 

הטונליים הוצא ‏(בתדר 

3.9 באיור 

,(3500Hz 

זאת ביחס לאותו קטע,‏ המוצג באיור 

ניתן לראות שאחד הממסכים 

כיוון שבסמוך לו היה ממסך טונלי נוסף ‏(ניתן לראות 

.(3.7 

- 29 -

100 

80 

60 

SPL [dB] 

40 

20 

0 

-20 

-40 

0 1000 2000 3000 4000 5000 6000 7000 8000 

frequency[Hz] 

איור 3.9: ממסכים טונליים ורעש לאחר צמצום.‏ 

Figure 3.9: Tonal and noise maskers after decimation. 

4. חישוב ספי מיסוך לכל מרכיב.‏ 

עבור ממסך טונלי סף המיסוך מוגדר במשוואה הבאה:‏ 

T 

TM 

( i, 

j) 

= P ( j) 

− 0.275z( 

j) 

+ SF( 

i, 

j) 

− 6.025 

TM 

(3.8) 

כאשר ב-‏ j נמצא הממסך וב-‏ i השונים נבדקת עוצמת הסף ביחידות (i .dB ו-‏ j מציינים מיקום 

תא תדר).‏ P TM הוא עוצמת הממסך עצמו.‏ 

z(j) הוא תדר הממסך ביחידות Bark ‏(ההמרה מתדר ל Bark מופיע במשוואה 3.1). 

SF היא פונקציה המתוארת במשוואה 3.9. 

SF מגדיר את צורת הסף – צורתו היא מעין משולש המתואר ע"י:‏ 

SF( 

i, 

⎧ 17∆ 

z 

− 0.4PTM 

( j) 

+ 11 

⎪ 

(0.4PTM 

( j) 

+ 6) ∆ 

z 

j) 

= ⎨ 

⎪ 

−17∆ 

z 

⎪ 

⎩(0.15PTM 

( j) 

−17) 

∆ 

z 

− 0.15P 

TM 

( j) 

− 3 ≤ ∆ 

−1 

≤ ∆ 

0 ≤ ∆ 

1 ≤ ∆ 

z 

z 

z 

z 

< −1 

< 0 

< 1 

< 8 

(3.9) 

∆ 

z 

= z( i) 

− z( 

כאשר (j 

מציין את המרחק בין נקודת הממסך ובין נקודת הבדיקה ביחידות של 

.Bark ניתן לראות ממשוואה 3.9, שהמרחקים הרלוונטיים של הממסך ‏(התחום שבו הוא משפיע)‏ 

- 30 -

הם 3 תחומים קריטיים לפני הממסך ועד 8 תחומים קריטיים לאחר הממסך.‏ מעבר לתחום זה 

ההשפעה היא זניחה.‏ 

צורת SF ניתן לדמותה למשולש,‏ כמתואר באיור 3.10. 

סף המיסוך לרעש מוגדר ע"י המשוואה:‏ 

T 

NM 

( i, 

j) 

= P ( j) 

− 0.175z( 

j) 

+ SF( 

i, 

j) 

− 2.025 

NM 

(3.10) 

באיור 3.10, 

ניתן לראות דוגמאות לספי מיסוך בודדים.‏ 

באיור מופיעים שלושה ספי מיסוך הנוצרים עקב ממסכים טונליים וסף מיסוך יחיד הנוצר 

כתוצאה ממסך רעש יחיד ‏(בתדר .(2200Hz 

ניתן לראות באיור (3.10) שסף המיסוך יורד בצורה חדה יותר עבור ממסכים בתדרים הנמוכים,‏ 

כמו כן הירידה חדה יותר עבור התדרים הקטנים מתדר הממסך.‏ 

100 

90 

80 

SPL [dB] 

70 

60 

50 

40 

0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 

frequency[Hz] 

איור 3.10: ספי מיסוך עבור ממסכים בודדים.‏ 

Figure 3.10: Masking thresholds created by maskers. 

5. חישוב סף המיסוך הכולל.‏ 

סך המיסוך הוא חיבור של כל הספים של המרכיבים ‏(ממסכים טונלים וממסכי רעש)‏ וחיבור של 

הסף המוחלט,‏ כמתואר במשוואה:‏ 

L 

M 

⎛ 0.1Tq 

( i) 

0.1TTM 

( l 

= ⎜ + ∑ i , ) 

Tg 

( i) 

10log 10 10 + ∑ 

⎝ 

l= 1 m= 

1 

0.1T 

10 

10 

- 31 - 

NM 

( i, 

m) 

⎞ 

⎟ 

⎠ 

(3.11) 

כאשר יש L ממסכים טונליים ו M ממסכים רעש.‏

3.11, באיור 

ניתן לראות דוגמה לסף המיסוך,‏ המשורטט בשחור ‏(קו מלא)‏ על גבי הספקטרום 

המשורטט בכחול ‏(קו מלא).‏ ניתן להבחין בתחומי תדר רבים ‏(במיוחד התדרים הגבוהים מ-‏ 

(4000Hz הנמצאים מתחת לסף המיסוך.‏ תחומי תדר אלו לא ישמעו לאוזן האנושית.‏ 

100 

80 

60 

SPL [dB] 

40 

20 

0 

-20 

-40 

0 1000 2000 3000 4000 5000 6000 7000 8000 

frequency[Hz] 

איור 3.11: סף המיסוך הכולל.‏ 

Figure 3.11: Global masking threshold. 

3.5 בדיקת המודל הפסיכואקוסטי 

במסגרת העבודה בוצעו בדיקות של המודל הפסיכואקוסטי על מנת לבדוק את מספר הסינוסים 

שניתן להרחיק ‏(כמות המידע הלא רלוונטית לשמיעה).‏ 

לשם כך נבדקו מספר רב של קטעי שמע.‏ קטעי השמע נבדקו תחת המודל הסינוסואידלי,‏ במהלכו 

נמצאו כל המרכיבים הטונליים של כל קטע.‏ אותם קטעים נבדקו גם תחת המודל הפסיכואקוסטי,‏ 

במהלכו חושבו ספי מיסוך.‏ 

כל הסינוסים שעוצמתם היתה נמוכה מסף המיסוך בתדר המסויים,‏ הורדו מרשימת הסינוסים.‏ 

סינוסים אלו הוצאו כיוון שלא ישמעו לאוזן האנושית.‏ תוצאות הבדיקה מסוכמות בטבלה 3.3. 

בטבלה 3.3 מוצגים מספר רב של קטעי שמע ‏(אורכו של כל קטע מגיע עד ל-‏ 20 שניות),‏ המופיעים 

בעמודה הימנית בשמם.‏ 

בעמודה האמצעית,‏ מסוכמים מספר הסינוסים שנמצאו ע"י המודל הסינוסואידלי ‏(לפני מיסוך)‏ 

ובעמודה השמאלית מסוכמים מספר הסינוסים שנותרו לאחר ביצוע המודל הפסיכואקוסטי.‏ 

מספר התדרים בממוצע לפני שלב המיסוך הוא 71.63 לעומת מספר תדרים בממוצע לאחר שלב 

המיסוך הוא 

.44.55 

התוצאות מראות שישנה ירידה של כ-‏ 

38% 

במספר הסינוסים הנדרשים 

- 32 -

לייצוג.‏ המודל הפסיכואקוסטי חוסך צורך שידור של מידע מיותר,‏ שכן כל הסינוסים שנופו לא היו 

נשמעים כלל לאוזן האנושית.‏ 

ניתן לראות שהירידה במספר הסינוסים לא קבועה,‏ והיא משתנה בהתאם לאות.‏ 

שם קובץ 

File name 

Music13 

Music14 

neck 

Not 

notclose 

Original 

piano 

relax 

Sax1mon 

signal 

step 

שם קובץ 

File name 

Music1 

Music2 

Music3 

Music4 

Music5 

Music6 

Music7 

Music8 

Music10 

Music11 

Music12 

לפני 

אחרי 

לפני 

אחרי 

לפני 

אחרי 

after 

58.48 

62.52 

35.30 

37.13 

33.56 

28.93 

37.45 

33.95 

45.08 

37.28 

40.65 

before 

67.49 

69.99 

71.43 

73.85 

72.67 

77.49 

75.40 

82.24 

65.02 

79.59 

77.89 

after 

63.56 

51.79 

24.05 

61.34 

50.40 

65.71 

62.12 

56.53 

30.60 

19.48 

59.84 

before 

70.03 

80.02 

61.46 

70.34 

67.99 

77.39 

73.20 

74.82 

64.24 

69.98 

69.83 

after 

51.37 

49.83 

35.11 

42.15 

39.87 

58.37 

56.57 

27.36 

39.81 

22.26 

28.05 

before 

67.46 

67.73 

62.31 

68.04 

70.40 

72.61 

67.97 

79.16 

75.43 

72.01 

78.28 

שם קובץ 

File name 

4eyes 

10four 

banjo 

bethoven 

Clar_d_a 

drums 

goodan 

ibml 

incor 

Logoff 

mic 

בטבלה 

טבלה 3.3: סיכום השפעת המודל הפסיכואקוסטי על מספר הסינוסים.‏ 

Table 3.3: The influence of the psychoacoustic model on the total number of 

sinusoids. 

3.3 העמודה 

‏'לפני'‏ מציינת את מספר הסינוסים לפני הפעלת המודל הפסיכואקוסטי 

‏(מספר הסינוסים הכולל שנמצאו על פי המודל הסינוסואידלי).‏ העמודה ‏'אחרי'‏ מציינת את מספר 

הסינוסים שנותרו לאחר הפעלת המודל הפסיכואקוסטי,‏ במהלכו נופו סינוסים.‏ 


בפרק תוארה בפירוט רב מערכת השמע האנושית.‏ האיבר החשוב ביותר במערכת השמע הוא 

השבלול 

.(cochlea) 

השבלול מחולק לכל אורכו לאיזורים שווים באורכם,‏ כאשר כל איזור מייצג 

תחום תדר.‏ האיבר יודע להמיר תדר למיקום מדוייק על פני הקרום המכסה שבתוך השבלול.‏ 

הצורך בהבנת מערכת השמיעה הינו משמעותי לתחום קידוד השמע,‏ כיון שבתהליך הקידוד 

מתייחסים ליכולת הפרדת תדרים של האוזן לפי אותם איזורים על פני השבלול.‏ איזורים אלו 

שקולים לתחומים הקריטיים.‏ 

לאוזן האנושית יש מגבלה בשמיעת אות חלש בנוכחות אות חזק.‏ מגבלה זו מנוצלת במודל 

הפסיכואקוסטי ובתהליך חישוב סף המיסוך.‏ 

כל טון או רעש מייצר סביבו מיסוך,‏ כך שאותות אחרים הנמצאים בסמוך לו ועוצמתם מספיק 

נמוכה ימוסכו ‏(לא ישמעו).‏ 

בפרק מוצגת שיטה לחישוב סף המיסוך עפ"י 

[20] [19] 

הכולל את השפעתם של כל המרכיבים 

הטונלים ומרכיבי רעש באות.‏ התוצאות מראות שהמודל הפסיכואקוסטי חוסך כמות רבה מאוד 

של מידע,‏ ואכן גורם לשיפור יעילות הקידוד.‏ 

- 33 -

פרק 4 

מקודד פרמטרי HILN 


המקודד הפרמטרי הנבדק בעבודה זו,‏ 

נקרא (Harmonic, Individual Lines, and Noise) HILN 

[16]. מקודד זה מהווה בסיס למקודד המשופר המוצע בעבודה זו ‏(פרק 

.(5 

מתואר ביתר פירוט ותוצאות מבחני השמע של המקודד המשופר יבחנו ביחס אליו.‏ 

שיטת קידוד זו ‏(חלק מהתקן של 


MPEG-4 Audio 

2) גירסה 

16kbps) ומטה).‏ 

השיטה מבוססת על חלוקת האות למסגרות ‏(אורך טיפוסי הוא 

לפיכך,‏ מקודד HILN 

מיועדת לדחיסת אותות שמע 

(32ms 

והפרדת המסגרת למספר 

מרכיבים ‏(אובייקטים).‏ לכל מרכיב תכונות שונות,‏ הניתנות לתיאור ע"י מספר מודלים.‏ 

כל מודל מכיל מספר מצומצם של פרמטרים,‏ שאותם נדרש לקודד.‏ 

ב-‏ HILN המודלים הם הרמוניות,‏ סינוסים בדידים ורעש.‏ 

סינוסים בדידים המיוצגים ע"י תדר ואמפליטודה.‏ 

הרמוניות המיוצגות ע"י תדר יסודי 

(pitch) 

ואמפליטודות של ההרמוניות ‏(למעשה,‏ 

על מנת לחסוך במספר 

לייצוג אמפליטודות,‏ הספקטרלית משתמשים במעטפת הפרמטרים).‏ 

רעש המיוצג ע"י מעטפת ספקטרלית ועוצמה.‏ 

• 

• 

• 

מודלים אלו משולבים עם מודל השמיעה האנושית 

,[13] 

על מנת להרחיק מידע שאינו רלוונטי 

למערכת השמיעה האנושית.‏ בגלל הדרישה לקצב סיביות נמוך,‏ ניתן לשדר רק פרמטרים עבור 

מספר נמוך של מרכיבים.‏ תפקידו של מודל השמיעה האנושית הוא לסייע לבחור את מרכיבי 

האות החשובים לאיכות השמע.‏ 

4.2 מודל סינוסואידלי 

כאשר מתייחסים לאות כניסה x(t) כאל אוסף של מספר צלילים,‏ אזי ניתן לייצגו ע"י סכום סופי 

של סינוסים,‏ כמתואר במשוואה:‏ 

L 

xˆ( 

t) 

= ∑ ai 

( t) 

⋅sin( 

ϕi 

+ 2π 

i= 

1 

- 34 - 

t 

∫ 

0 

f ( τ ) dτ 

) 

i 

(4.1) 

כאשר L הוא מספר הסינוסים.‏

(t) a i מייצג את האמפליטודה של כל סינוס.‏ 

f i מייצג את התדר של הסינוס ה-‏ 

.i 

ϕ i מייצג את הפאזה ההתחלתית,‏ של כל רכיב סינוסי.‏ 

כל סינוס מתואר לפיכך ע"י אמפליטודה,‏ תדר ופאזה.‏ 

פרמטרים אלו מחושבים לפי הסדר הבא:‏ תחילה מחשבים את התדרים ולאחר מכן את 

האמפליטודות והפאזות המתאימות.‏ התדרים מחושבים ע"י תהליך של ניתוח/סינתזה,‏ המתואר 

בהרחבה בסעיף 

.4.3 

הערכות סובייקטיביות הראו שהרגישות לפאזות של סינוסים היא נמוכה ולכן אין צורך לשלוח 

אותם,‏ אבל יש צורך לשמור על רציפות הפאזה בין מסגרות סמוכות.‏ 

4.3 המקודד 

סכימת מלבנים של המקודד מתוארת באיור 

הוא 

.4.1 

המקודד פועל על מסגרות ‏(דגימות כניסה)‏ 

באורך זמן קבוע.‏ אורך המסגרת משפיע מאוד על רזולוציית הזמן והתדר.‏ מצד אחד יש לבחור 

קטע מסגרת קצר מספיק על מנת לעקוב אחר שינויים בזמן של תכונות האות ולנתח אותם,‏ ומצד 

שני יש לבחור במסגרת מספיק ארוכה המאפשרת רזולציית תדר מספיק גבוהה ויכולת ניתוח טוב 

בתחום התדר.‏ לפיכך,‏ בוחרים באורך מסגרת שתתאים את שני הצרכים.‏ אורך טיפוסי של מסגרת 

.32msec 

.[16] 

המקודד משתמש במסגרות עם חפיפה בזמן,‏ על מנת להחליק תכונות משתנות של אות הכניסה 

.1 

.2 

.3 

.4 

המקודד מבצע בשלב ראשון תהליך איטרטיבי של ניתוח/סינתזה על מנת למצוא את כל הסינוסים 

הבדידים,‏ כאשר התהליך משלב בתוכו את המודל הפסיכואקוסטי,‏ בהתאם לתכונות האוזן 

האנושית.‏ 

בשלב שני מחפשים הרמוניות מתוך כל הסינוסים,‏ כלומר סינוסים בתדרים שהם כפולות של תדר 

מסויים .(pitch) שארית האות ‏(לאחר הוצאת כל המרכיבים הסינוסואידלים)‏ הוא מרכיב הרעש.‏ 

כל מרכיבי האות מחושבים בצורה מחזורית,‏ לפי סדר הפעולות:‏ 

הוצאת מרכיב אות מתוך מסגרת נוכחית.‏ 

עבור כל מרכיב אות,‏ בוחרים מודל מתאים ומחשבים את פרמטרי המודל.‏ 

משחזרים את מרכיב האות באמצעות הפרמטרים.‏ 

מחסירים מהאות המקורי את האות המשוחזר ואז נשארים עם שארית האות.‏ 

פעולות אלו נעשות בצורה מחזורית,‏ עד אשר מוציאים את כל מרכיבי האות.‏ 

כל פרמטרי האות מכומתים ומייצרים סדרת סיביות,‏ המסודרת לפי סדר חשיבותם.‏ כאשר 

הסיביות הראשונים הן החשובות יותר ‏(בעלי משמעות גדולה לרגישות האוזן)‏ ועליהן צריך להגן 

יותר מפני שגיאות.‏ 

- 35 -

Perception 

Model 

Parameter 

Coding 

Audio 

Signal 

Individual 

Sinusoid 

Extraction 

Parameters 

Residual 

Signal 

Grouping to 

Harmonic 

Components 

Noise 

Parameter 

Estimation 

Harmonic 

Components 

Sinusoidal 

Components 

Noise 

Components 

Quant 

Quant 

Quant 

Mux 

Bit- 

Stream 

איור 4.1: סכימת מלבנים של מקודד .HILN 

Figure 4.1: Block diagram of HILN encoder. 

הבלוק הראשון וגם המרכזי במודל הוא הבלוק להוצאת כל המרכיבים הטונלים מאות הכניסה.‏ 

האלגוריתם מבוסס על שיטת אנליזה/סינתזה ומתואר באיור 

.4.2 

מעגל אנליזה/סינתזה הוא מעגל הפועל באיטרציות.‏ בכל איטרציה מוצאים סינוס חדש,‏ הכולל 

את הפרמטרים המאפיינים שלו,‏ אמפליטודה,‏ תדר ופאזה המסומנים ע"י 

הסינוס נבחר מתוך הסתכלות בתחום התדר על אות השארית 

. f , 

i 

a i 

, ϕ 

i 

.e(t) 

אות השארית הוא אות הכניסה עצמו מופחת מכל הסינוסים שחושבו ע"י איטרציות קודמות.‏ 

באיטרציה הראשונה אות השארית הוא האות המקורי.‏ 

אות השארית מומר לתחום התדר באמצעות 

DFT 

ומפחיתים ממנו את סף המיסוך 

המחושב מתוך המודל הפסיכו-אקוסטי והמושפע מכל אותם מרכיבים שכבר סונתזו 

אותם סינוסים שנמצאו באיטרציות קודמות)‏ . 

התדר הבולט 

,M(f) 

s(t) 

(coarse decision) f c,i 

‏(כל 

של הסינוס הרלוונטי ביותר לשמיעה האנושית מתגלה ע"י 

חיפוש ערך מקסימלי.‏ התדר שנמצא הוא הערכה גסה של תדר הסינוס.‏ לשם כך קיים בלוק שבו 

מעריכים בצורה עדינה את הפרמטרים של הסינוס.‏ מבנה הבלוק,‏ המבצע הערכה עדינה יותר של 

תדר הסינוס מתואר באיור 

.4.3 

מספר האיטרציות של מסלול זה נקבע ע"י מספר הפרמטרים שניתן לקודד בתחום קצב 

המוגדר.‏ 

בעיה עיקרית של השיטה היא כיצד להבדיל בין מרכיב סינוסי לבין מרכיב רעש.‏ 

הסיביות 

- 36 -

Accu 

Synthesis 

M(f) 

Parametric 

Psychoacoustic 

Model 

S(t) 

Log|DFT| 

+- 

argmax 

f 

c , i 

X(t) 

+- 

e(t) 

Frequency, Amplitude 

And Phase Estimation 

f , 

i 

a i 

, ϕ 

i 

איור : 4.2 מעגל אנליזה/סינתזה.‏ 

Figure 4.2: Analysis/Synthesis loop. 

e i (n) 

X 

Low Pass 

K arg( ) 

F c,i − 

j 

2π 

f 

c 

, 

i 

n 

e 

Linear 

regression 

f i 

+ 

f i 

איור 4.3: הערכת תדר בדיוק גבוה.‏ 

Figure 4.3: High accuracy frequency estimation 

התדר f c,i מחושב במעגל אנליזה/סינתזה,‏ כתא התדר בו מתקבל מקסימום.‏ הדיוק של התדר אינו 

גבוה,‏ בגלל מגבלת הרזולוציה של תא התדר.‏ 

אלגוריתם להערכה מדוייקת של תדר הסינוס מוצג באיור 4.3. 

שארית האות 

האלגוריתם מקבל כקלט את 

(n) e i המתקבלת באיטרציה מספר i ‏(מספר האיטרציה שקול לאינדקס התדר,‏ כיוון 

שבכל איטרציה מחושב תדר אחד).‏ בשלב ראשון מזיזים את הספקטרום של שארית האות בצורה 

כזו,‏ שהתדר המרכזי f c,i נהפך להיות אפס.‏ 

לאחר מכן מבצעים סינון מעביר נמוכים pass) (low 

חדש,‏ אות צר סרט הכולל את איזור התדר 

ודצימציה בגודל K. פעולה זו,‏ יוצרת אות 

f c,i בלבד.‏ הנגזרת של זווית האות נותנת את הפרש 

התדר.‏ הפרש זה מסוכם עם התדר f c,i 

לקבלת התדר המדוייק.‏ 

4.4 מודל הרמוניות 

- 37 -

החיפוש אחר הרמוניות מתוך קבוצת הסינוסים ‏(שנמצאה ע"י מעגל אנליזה/סינתזה)‏ מאפשר 

חיסכון של פרמטרים,‏ כיוון שבמקום לתאר את פרמטרי התדר של כל סינוס בנפרד,‏ מתארים תדר 

אחד יסודי,‏ עבור קבוצה שלמה של סינוסים.‏ 

במסגרת המודל ההרמוני משדרים רק את תדר הבסיס,‏ המייצג את כל תדרי הסינוסים של הטון 

ההרמוני,‏ ואת האמפליטודות של ההרמוניות.‏ 

מציאת תדר הבסיס 

(pitch) 

של אות השמע אינו נעשה בעזרת תפוקות המעגל ניתוח/סינתזה.‏ 

האלגוריתם למציאת תדר הבסיס מבוסס על ניתוח cepstrum של אות הכניסה 

.[16] 

עבור מספר כלי מוסיקה,‏ ניתן להבחין שהתדרים של ההרמוניות הגבוהות הן לא בדיוק מכפלה 

שלמה של תדר הבסיס ולכן,‏ לוקחים בחשבון פרמטר נוסף,‏ המציין את מתיחת התדר ‏(סטיית 

התדר).‏ 

פרמטר מתיחת התדר,‏ המסומן ע"י 

מחושבות על פי:‏ 

,S 

משודר במסגרת המודל ההרמוני.‏ תדרי ההרמוניות 

f i 

= 

f 

⋅i 

⋅(1 

+ S ⋅ 

0 

i 

) 

(4.2) 

כאשר i הוא אינדקס התדר וגם מספר ההרמוניה,‏ (M i = M,…1,2 מציין את מספר ההרמוניות).‏ 

f 0 הוא תדר הבסיס 

.(pitch) 

כפי שניתן לראות ממשוואה 

,4.2 

הסטייה ממכפלה שלמה של תדר 

בסיס הולכת וגדלה בהרמוניות הגבוהות.‏ 

על מנת לקודד בצורה יעילה את האמפליטודות של ההרמוניות,‏ מקודדים מעטפת ספקטרלית 

אשר דגימתה בתדרי ההרמוניות תיתן את עוצמתם בקירוב מספיק טוב.‏ 

המעטפת הספקטרלית מקודדת באמצעות מספר קבוע של מקדמי .LPC 


לאחר הורדת כל המרכיבים הטונליים ‏(סינוסים בדידים והרמוניות)‏ מאות השמע,‏ מקבלים את 

שארית האות,‏ המורכב רק מרעש.‏ 

את הרעש ניתן למדל באמצעות מעטפת ספקטרלית של הרעש ומקדם עוצמה 

משתמשים במקדמי ה-‏ 

.[15] 

LPC 

לייצוג המעטפת הספקטרלית,‏ בדומה לייצוג אמפליטודות 

ההרמוניות,‏ אך במקרה זה ניתן להשתמש במספר מקדמים קטן יותר.‏ הרעש מיוצר ע"י הכנסת 

רעש לבן למסנן IIR בעל קטבים בלבד.‏ 

4.6 כימות 

- 38 -

הפרמטרים של כל מודל מכומתים בהתאם לרגישות האוזן האנושית.‏ 

לקידוד מופיע בטבלה 4.1. 

סיכום כל הפרמטרים 

מודל 

הרמוניות 

בדידים 

רעש 

מספר 

סיביות 

תיאור 

סימון קיום הרמוניות 

מספר הרמוניות 

תדר הבסיס 

מקדם מתיחת התדר 

שם 

Harm_flag 

Num_Harm_Trans 

Harm_Freq 

Harm_Freq_Stretch 

Lpc_coeff 

Harm_gain 

Num_Line 

Prev_Line_Cont_Flag 

Line_Ampl 

Line_Freq 

Line_Ampl_Delta 

Line_Freq_Delta 

Noise_Flag 

Noise_Norm 

Noise_Para 

20 מקדמי LPC 

עוצמת המעטפת 

מספר בדידים 

דגל המציין רציפות 

ממסגרת קודמת 

אמפ'‏ הבדיד 

תדר הבדיד 

יחס אמפ'‏ 

הפרש תדר 

סימון קיום רעש 

עוצמת רעש-‏ ‏(נירמול 

הפרמטרים)‏ 


1 

6 

11 

5 

48 

6 

8 

1 

6 

10 

4 

6 

1 

6 

24 

טבלה 4.1: סיכום פרמטרים לשידור במקודד .HILN 

בטבלה מסודרים הפרמטרים לפי מודל ‏(הרמוניות,‏ בדידים או רעש).‏ כל פרמטר מוצג לפי שמו,‏ 

תיאור קצר ומספר הסיביות שצריך להקצות לו.‏ 

Table 4.1: Summary of all the parameters for transmission in HILN encoder. 

The parameters, which appear in the table are order by model type (harmonics, individual sinusoids or 

noise). Each parameter appear by his name, short description and the number of bits. 

במודל סינוסים בדידים מקודדים את התדר ואת האמפליטודה של כל סינוס.‏ 

תחילה מקודדים את מספר הבדידים באמצעות הפרמטר 

,Num_Line 

ע"י 

8 סיביות.‏ 

אם הסינוס מתגלה כמתמשך ‏(רציף)‏ ממסגרת קודמת ישודרו רק שינויי אמפליטודה ותדר במקום 

הפרמטרים עצמם,‏ כיוון שהשינויים קטנים מספיק ומאפשרים קידוד יעיל יותר 

הרציפות מאפשר עד 15% סטיה בתדר ועד פי 3 שינוי באמפליטודה.‏ 

שינוי באמפליטודה משודר באמצעות הפרמטר 

.[11] 

,Line_Ampl_Delta 

קריטריון 

בצורה לוגריתמית ע"י ארבע 

סיביות.‏ שינוי בתדר משודר באמצעות הפרמטר Line_Freq_Delta ע"י שש סיביות.‏ לצורך קידוד 

זה,‏ יש לזכור את כל התדרים הבדידים ששודרו במסגרת קודמת ‏(פרמטרי תדר ואמפליטודה).‏ 

- 39 -

על מנת לדעת אילו תדרים ממסגרת קודמת רציפים,‏ משדרים את דגלי הרציפות,‏ 

.Prev_Line_Cont_Flag "0" משמעו שהתדר לא ממשיך למסגרת נוכחית ו-‏ "1" משמעו שהתדר 

מתמשך למסגרת נוכחית.‏ מספר הדגלים שווה למספר הבדידים שהיו במסגרת קודמת ‏(כל דגל 

הוא סיבית אחת).‏ 

לאחר מכן משודרים כל הבדידים החדשים,‏ ע"י אמפליטודה,‏ 

ע"י שש סיביות ותדר,‏ 

,Line_Ampl 

,Line_Freq 

ואמפליטודות צריך להיות מותאם לסף הרגישות.‏ 

במודל הרמוניות מקודדים תחילה את הדגל,‏ 

בסקלה לוגריתמית ע"י 

10 

,Harm_Flag 

בסקלה לוגריתמית 

סיביות.‏ הכימות של תדרים 

המציין את קיום ההרמוניות.‏ הדגל 

משודר ע"י סיבית אחת.‏ "0" משמעו שאין הרמוניות וברצף הסיביות אין מידע הקשור 

להרמוניות,‏ "1" מציין קיום של הרמוניות ‏(לפחות שלוש הרמוניות)‏ . 

תדר הבסיס,‏ 

,Harm_Freq 

מכומת בסקלה לוגריתמית ע"י 

11 

סיביות בתחום בין 

30Hz 

.4000Hz 

פרמטר מתיחת התדר,‏ 

,Harm_Freq_Stretch 

מכומת באופן אחיד ע"י 

5 

ל-‏ 

סיביות 

בתחום שבין 0.001- ל-‏‎0.001‎‏.‏ 

על מנת לשדר את אמפליטודות ההרמוניות,‏ מקודדים מעטפת ספקטרלית המיוצגת בעזרת עשרים 

מקדמי LPC ופרמטר עוצמה.‏ 

מאחר שמקדמי ה-‏ LPC הם בעלי תחום דינמי רחב,‏ הם מומרים לקבוצה אחרת של מקדמים,‏ 

בעלי תחום דינמי מצומצם 

.[13] ניתן להמירם לפרמטרי ,(Logarithmic Area Rations) LAR או 

לפרמטרי .(Line Spectrum Frequency) LSF 

LSF מספקים יעילות קידוד טובה יותר,‏ אבל LAR עדיפים כאשר מספר המקדמים משתנה ‏(סדר 

המסנן משתנה).‏ מאחר שמספר המקדמים לא משתנה,‏ ויש צורך ביעילות קידוד גבוהה,‏ 

משתמשים בפרמטרי ה-‏ .LSF עשרים מקדמי LPC מומרים ל-‏ עשרים פרמטרי .LSF 

פרמטרי ה-‏ 

לוגריתמית ע"י 

LSF 

מכומתים בצורה וקטורים 

48 ע"י (VQ) 


סיביות.‏ פרמטר העוצמה מכומת 

במודל הרעש מקודדים דגל,‏ ,Noise_Flag המציין את קיום הרעש.‏ 

10) LPC 

מודל הרעש מבוסס על מקדמי מקדמים),‏ לייצוג המעטפת הספקטרלית של הרעש 

ופרמטר של עוצמה.‏ 

מקדמי ה-‏ LPC מומרים לפרמטרי ה-‏ ,LSF להם תחום דינאמי מצומם.‏ 


לוגריתמית ע"י 

LSF 

מכומתים בצורה וקטורית ע"י 

24 


סיביות ופרמטר העוצמה מכומת בסקלה 

בקצב נמוך של 16kbps ניתן לקודד פרמטרים עבור 

10 עד 

20 סינוסים במסגרת של 

.32ms מספר 

הסינוסים הנשלחים משתנה ממסגרת למסגרת ותלויה בעיקר במספר הסינוסים הנמשכים 

מהמסגרת הקודמת.‏ 

- 40 -

4.7 המפענח 

תרשים של המפענח מוצג באיור 

.4.4 

הפרמטרים מפוענחים מתוך סדרת הסיביות ע"י פעולה 

הפכית לכימות.‏ פיענוח פרמטרי המודל ההרמוני נותן את מספר ההרמוניות,‏ תדר הבסיס,‏ מתיחת 

התדר,‏ מקדמי ה-‏ LPC המייצגים את המעטפת הספקטרלית ופרמטר העוצמה.‏ 

בעזרת תדר הבסיס,‏ מתיחת התדר ומספר הרמוניות מרכיבים קבוצה של תדרים.‏ כמתואר 

במשוואה 

.4.2 

בעזרת מקדמי ה-‏ LPC ופרמטר העוצמה,‏ קובעים את האמפליטודות המתאימות 

תדרי 

דגלי רציפות,‏ לקבוצת התדרים.‏ 

פיענוח פרמטרי מודל הסינוסים הבדידים נותן את מספר הסינוסים,‏ 

הסינוסים ואמפליטודות הסינוסים.‏ 

אם הדגל מציין תדר חדש אזי האמפליטודה והתדר מפוענחים ישירות.‏ כאשר הדגל מציין תדר 

מתמשך ממסגרת קודמת ‏(רציף),‏ האמפליטודה והתדר מחושבים מתוך הפרמטרים המתאימים 

ממסגרת קודמת וכוללים שינויים קלים בהתאם לפרמטרים החדשים.‏ 

המפענח משחזר את הפרמטרים ומסנתז אותות טונליים באמצעות מחולל סינוסים 

מאחר [11]. 

ומידע על הפאזה אינו משודר מיוצרת הפאזה אקראית עבור כל סינוס חדש ובמקרה של סינוסים 

מתמשכים ממסגרת למסגרת,‏ המפענח מחשב את הזווית המתאימה.‏ 

לבסוף,‏ המפענח מייצר רעש ע"י הכנסת רעש לבן לתוך מסנן IIR שמקדמיו הם .LPC 

בין היתרונות של המקודד הפרמטרי הוא היכולת לשנות קצב או pitch של אות המוצא ע"י שינוי 

פשוט של פרמטר במפענח 

.[15] 

Parameter 

Decoding 

Model Based 

Synthesis 

Dequant 

Harmonic 

Components 

Bitstream 

Demux 

Dequant 

Sinusoidal 

Components 

+ 

Audio 

Signal 

Dequant 

Noise 

Components 

4.8 גירסאות מוקדמות של HILN 

איור 4.4: סכימת מלבנים של מפענח .HILN 

Figure 4.4: Block diagram of HILN decoder. 

בגירסה הראשונה היה רק מרכיב אחד,‏ שתמך בסינוסים בדידים בלבד 

.[16] 

- 41 - 

כל סינוס תואר ע"י 

תדר,‏ אמפליטודה ופאזה.‏ גישה זו הורחבה למספר מרכיבים,‏ הכוללים את ההרמוניות ואת הרעש.‏ 

הוספת המרכיב ההרמוני מאפשרת קידוד יעיל יותר של קבוצת סינוסים מתוך הסינוסים 

הבדידים.‏ הקידוד מבוצע בעזרת תדר יסודי 

(pitch) 

והאמפליטודות של ההרמוניות מסודרות

בקבוצות ורק האמפליטודה המייצגת את הקבוצה מקודדת.‏ סידור ההרמוניות בקבוצות מסוכמת 

בטבלה 4.2. 

מספר הקבוצות מקודד באמצעות הפרמטר ,Num_Harm_Trans המכומת ע"י שש סיביות.‏ 

עשר ההרמוניות הראשונות מסודרות בקבוצות הכוללות הרמוניה אחת בלבד,‏ כלומר 

האמפליטודות של עשר ההרמוניות הראשונות מקודדות כפי שהן 

.[11] 

כאשר ישנם יותר מעשר הרמוניות,‏ מאחדים אותם לקבוצות,‏ כך שגודל הקבוצה הולך וגדל ככל 

שמתקדמים באינדקס ההרמוניה.‏ לכל קבוצה מקודדת רק אמפליטודה אחת מייצגת עבור כל 

ההרמוניות השייכות לקבוצה.‏ האמפליטודה המייצגת היא ממוצע האמפלטודות של ההרמוניות 

בקבוצה 

.[12] 

האמפליטודה של הקבוצה הראשונה מיוצגת ע"י 

Harm_Trans_Ampl[0] 

(0 מסמן את האינדרס 

הראשון),‏ המכומת בסקלה לוגריתמית ע"י 6 סיביות ובצעד כימות של .1.5dB האמפליטדות של 

שאר הקבוצות ‏(קבוצה מספר 

2 

ומעלה)‏ מיוצגות ע"י 

,Harm_Tran_Ampl[k] 

הפרש האמפליטודה מהקבוצה הקודמת.‏ הפרש זה מכומת לוגריתמית ע"י חמש סיביות.‏ 

המקודדות את 

Group 

Width 

אינדקס ההרמוניה 

של תחילת הקבוצה 

גודל 

הקבוצה 

אינדקס 

הקבוצה 

Transmitted 

amplitude 

index 

0,1,2,3,4,5,6,7,8,9 

10,11,12,13,14,15 

16,17,18,19,20 

21,22,23,24 

25,26,27 

28,29 

30 

1 

2 

3 

4 

5 

6 

7 

Harmonic 

line start 

index 

0,1,2,3,4,5,6,7,8,9 

10,12,14,16,18,20 

22,25,28,31,34 

37,41,45,49 

53,58,63 

68,74 

80 

טבלה 4.2: חלוקת קווים הרמוניים לקבוצות 

Table 4.2: Harmonic line grouping 

החסרונות של שיטת קידוד זו הם:‏ 

- 42 - 

• 

• 

חוסר הדיוק בייצוג אמפליטודות של הרמוניות גבוהות,‏ כיוון שרק הממוצע של מספר 

אמפליטודות מקודד.‏ 

יעילות קידוד נמוכה במצב בו מספר ההרמוניות גדול מאוד.‏ 

מרכיב הרעש מקודד בעזרת מעטפת ספקטרלית המיוצגת ע"י מקדמי .DCT ניתן לשלוט על דיוק 

ייצוג הרעש ע"י בחירת מספר המקדמים 

(DCT) 

לשידור.‏ 

מספר המקדמים נע בין ארבעה לשבעה מקדמים והוא מיוצג באמצעות 

,Num_Noise_Para_Cod המכומת ע"י שתי סיביות.‏ 

מאחר שלפרמטרי ה-‏ 

DCT 

תחום דינאמי רחב,‏ 

העוצמה הגבוהה ביותר ומביאים את התחום של הפרמטרים ל-‏ 

מנרמלים את הפרמטרים לפי הפרמטר בעל 

.[-1,1] 

מקדם הנירמול,‏

,Noise_Norm 

מכומת לוגריתמית ע"י 

6 

סיביות,‏ עם צעד כימות של 

.3dB 

המנורמלים,‏ ,Noise_Para מכומתים בצורה אחידה ע"י 3 סיביות לכל פרמטר.‏ 

תוצאת הסינתזה שקולה לסינון רעש לבן ע"י מסנן 

מקדמי ה-‏ .DCT 


DCT 

FIR 

בעל מספר מקדמים,‏ שתלוי במספר 

התוצאה שהתקבלה,‏ היתה שהרעש לא נשמע טבעי ‏(במיוחד עבור אותות דיבור).‏ מסנן קטבים 

יכול ליצור תגובות חדות ולכן ממדל רעשים צרי סרט בצורה עדיפה מאשר מסנן מסוג 

בהינתן מספר מקדמים.‏ לפיכך,‏ משתמשים במקדמי LPC לייצוג המעטפת.‏ 

,FIR 


בפרק זה מתואר המקודד הפרמטרי 

,HILN - 

על כל מרכיביו.‏ מקודד 

HILN 

מפריד את אות 

השמע למרכיבים ‏(הרמוניות,‏ בדידים ורעש),‏ כאשר כל מרכיב מיוצג ע"י קבוצה של פרמטרים.‏ 

בפרק מתוארים שיטות הקידוד והכימות של הפרמטרים עד ליצירת רצף סיביות,‏ הנשלח למפענח.‏ 

רצף הסיביות כולל אך ורק מידע על פרמטרים,‏ המייצגים תכונות של אות השמע.‏ מכיוון 

שמשודרים רק פרמטרים,‏ מתאפשרת יעילות קידוד גבוהה וקידוד בקצבים נמוכים ביותר.‏ 

המודל הפרמטרי יעיל מאוד בקידוד אותות שמע לא מורכבים ‏(הכוללים מספר קטן של מרכיבים),‏ 

כמו אות מוסיקלי הכולל כלי יחיד או מספר מצומצם של כלים.‏ לעומת זאת,‏ המודל פחות יעיל 

כאשר אות השמע מאוד מורכב או שהוא כולל מרכיבים שלא ניתן לייצגם באמצעות המודלים 

שתוארו 

.[13] [11] 

5, בפרק 

מוצע מודל פרמטרי שונה,‏ בו כל בלוק במערכת מבוסס על שיטה שונה.‏ השיטות 

והרעיונות המוצעים מנסים להתמודד עם הבעיתיות של ה-‏ HILN בקידוד אותות שמע מורכבים.‏ 

- 43 -

פרק 5 

מקודד פרמטרי מוצע 


במסגרת עבודת המחקר,‏ יושם מקודד HILN על כל שלביו.‏ 

HILN מודל 

מקודד בקצבי סיביות נמוכים מאוד 

16kbps) 

ומטה).‏ בעקבות הדחיסה הגבוהה,‏ 

ישנה ירידה טבעית באיכות השמע.‏ אחת המטרות המרכזיות בעבודת המחקר הוא הניסיון לשפר 

את איכות השמע המופקת.‏ 

במהלך הבנייה של מודל HILN נבחן כל מודול ‏(בלוק)‏ במערכת לפי ביצועיו ונבדקו אפשרויות 

אחרות למימוש על מנת לשפר הן את יעילות הקידוד והן את איכות השמע.‏ 

נמצאו מספר בעיות במודל :HILN 

השימוש במודל השמיעה לא מדוייק מספיק.‏ בתהליך יצירת סף המיסוך הפסיכואקוסטי,‏ 

לא נלקחו בחשבון השפעתם של כל מרכיבי האות.‏ דהיינו,‏ כל המרכיבים הטונליים וכל 

מרכיבי הרעש.‏ 

מספר הסינוסים שמוצו,‏ בתהליך האנליזה/סינתזה,‏ מוגבל בשל הגבלת מספר הפרמטרים 

שניתן לקודד.‏ הסינוסים חושבו אחד אחד לפי סדר חשיבותם לשמיעה האנושית.‏ 

לא ניתן למצוא סינוסים בעלי תדרים סמוכים בגלל מגבלת רזולוציה בתחום התדר.‏ שני 

סינוסים בעלי תדרים סמוכים מתגלים בתחום התדר כסינוס יחיד.‏ 

יעילות הקידוד אינה מספיק גבוהה במצבים בהם לא מתגלים מרכיבים הרמוניים או 

כאשר מספרם הוא נמוך.‏ במצבים אלו נשארים הרבה סינוסים בדידים ושידור 

הפרמטרים של כל סינוס צורך הרבה סיביות.‏ בשל קיום מגבלה על כמות הסיביות,‏ מספר 

מועט של סינוסים בדידים משודר בסופו של דבר.‏ 

המודל משתמש בתדר יסודי 

(pitch) 

מורכבים,‏ הכוללים מספר תדרים יסודיים 

יחיד לייצוג הרמוניות גם עבור אותות שמע 

.(multi-pitch) 

שיטת ייצוג אמפליטודות,‏ בעזרת מעטפת ספקטרלית,‏ לא מספיק יעילה.‏ המעטפת 

מייצגת את כלל האות ולא את המרכיבים ההרמונים בלבד ולכן עוברת בצורה גסה דרך 

העוצמות האמיתיות בתדרי ההרמוניות.‏ 

• 

• 

• 

• 

• 

• 

בפרק זה מתואר המודל הפרמטרי בדיאגרמת בלוקים,‏ כאשר כל בלוק מתואר בנפרד.‏ בפרק 

מתוארים מספר שיטות שנבחנו על מנת להתמודד עם הבעיות שתוארו לעיל,‏ לרבות שיפור המודל 

הסינוסואידלי ושיטות למציאת פרמטרים במודל הסינוסואידלי.‏ שיטות למציאת תדרים יסודיים 

במסגרת המודל ההרמוני מתוארות בפרק 6 ושיטות לייצוג יעיל של אמפליטודות מתוארות בפרק 

7. תהליך הקידוד וכימות הפרמטרים מתואר בפרק 

.8 

- 44 -

5.2 תיאור המודל 

בדומה לשיטת ,HILN המודל מניח שאות שמע מורכב ממרכיבים טונליים ומרכיבי רעש.‏ בשלב 

ראשון מוציאים את כל המרכיבים הטונלים מאות השמע,‏ ושארית האות תהווה מרכיב הרעש.‏ 

מרכיבים טונליים ניתן לפרק למרכיבים הרמוניים ולמרכיבים של סינוסים בדידים,‏ כאשר 

המרכיבים ההרמונים כוללים סינוסים עם תדרים יסודיים משותפים.‏ 

.5.1 

סכימה של המקודד הפרמטרי המוצע,‏ 

מתוארת 

באיור 

המקודד הפרמטרי דומה מאוד 

במבנהו למקודד .HILN 

מודל 

פסיכואקוסאטי 

סדרת 

סיביות 

קידוד 

וכימות 

מרכיבים 

הרמוניים 

מרכיבים 

סינוסואידלים 

מרכיבי 

רעש 

קבוצות יצירת 

תדרים סביב 

משותפים 

הערכת 

פרמטרי 

רעש 

פרמטרים 

האות שארית 

מרכיבים מיצוי 

טונליים 

שמע אות 

איור 5.1: מבנה המקודד הפרמטרי המוצע.‏ 

Figure 5.1: Block diagram of the proposed parametric encoder. 

אות הכניסה למקודד הפרמטרי הוא אות שמע הדגום בקצב של 

.16KHz 

אות הכניסה מחולק 

למסגרות בגודל של 32msec או 512 דגימות.‏ חלוקת האות למסגרות נובעת מההנחה שאות השמע 

הוא סטציונרי בקטע זמן קצר מספיק,‏ כלומר תכונותיו הסטטיסטיות קבועות.‏ אורך המסגרת 

קובע את רזולוצית זמן/תדר.‏ מסגרות ארוכות מאפשרות רזולוצית תדר גבוהה,‏ גורם שהוא מאוד 

משמעותי במודל הפרמטרי,‏ כיוון שניתוח תכונות אות השמע מבוצע בתחום התדר.‏ מצד שני 

מסגרות ארוכות מדי פוגעות ברזולוצית הזמן ולכן מקשות על ניתוח אות שמע המשתנה בקצב 

מהיר בתחום הזמן.‏ 

אורך המסגרת שנבחר הוא אורך סטנדרטי,‏ המיושם גם במודל .HILN 

עבור אורך מסגרת של ,32msec רזולוצית התדר היא 

,31.25Hz 

.(frequency bin) 

מסגרת הכניסה מסומנת ע"י 

.n = כאשר 0,1,2,…,511 x(n) 

.5.3 

זהו למעשה רוחב של כל תא תדר 

מסגרת הכניסה מוכפלת בחלון,‏ ,h(n) בעל ניחות גבוה של אונות הצד.‏ 

הבלוק הראשון,‏ מטרתו מיצוי כל המרכיבים הטונליים ממסגרת הכניסה.‏ בלוק זה מתואר בסעיף 

- 45 -

לאחר מיצוי כל המרכיבים הטונליים ממסגרת הכניסה,‏ מבצעים הרחקה של מרכיבים טונלים 

שאינם רלוונטיים לשמיעה האנושית,‏ דבר המונע קידוד פרמטרים מיותרים.‏ סינון זה מבוצע 

בבלוק של המודל הפסיכואקוסטי,‏ המתואר בהרחבה בפרק 

.3 

בתוך הבלוק מחושב סף המיסוך 

הנובע ממסגרת הכניסה ע"י השפעתם של כל המרכיבים הטונליים וכל מרכיבי הרעש.‏ כל מרכיב 

תורם השפעתו למיסוך והמיסוך הכולל הוא סיכום של כל ההשפעות.‏ סף המיסוך מראה את 

רגישות האוזן האנושית בכל תדר,‏ בהתאם לאות הכניסה.‏ לפיכך,‏ בכל תדר ניתן לדעת מהי 

העוצמה המינימלית שמעליה האוזן שומעת את האות.‏ 

סף המיסוך מסנן את כל אותם מרכיבים טונליים שעוצמתם נמוכה מהעוצמה המינימילית 

המתאימה לתדר הטון.‏ באות השמע ישנם מקרים רבים בהם טון חלש נמצא בסמוך ‏(בתחום 

התדר)‏ לטון חזק,‏ הגורם למיסוך הטון החלש,‏ כלומר,‏ עוצמת הטון החלש תהיה מתחת לסף 

המיסוך ולכן אין צורך לשדרו.‏ 

צמצום מספר המרכיבים הטונליים הוא מאוד משמעותי לתהליך הדחיסה.‏ כפי שניתן לראות 

3.5 בסעיף 3, בפרק 

‏(תוצאות המודל הפסיכואקוסטי)‏ הצמצום הוא בכ-‏ 

40% 

מהמרכיבים 

הטונליים.‏ 

שלב נוסף בתהליך הדחיסה מבוצע בבלוק המאגד טונים סביב תדר יסודי משותף ‏(לפי המודל 

ההרמוני).‏ הרעיון במודל הוא שבמקום לשדר את כל תדרי הטונים,‏ משדרים תדר יסודי אחד 

(pitch) או מספר קטן של תדרים יסודיים,‏ המייצגים את כלל הטונים.‏ 

תדרי טונים,‏ השקולים למכפלה שלמה של תדר יסודי,‏ מיוצגים ע"י תדר זה בלבד.‏ 

ישנם מספר שיטות למציאת תדר יסודי 

(pitch) 

יחיד.‏ שיטות אלו מתאימות לאותות שמע 

ספציפיים,‏ כמו אות דיבור או אות מוסיקלי הכולל כלי נגינה יחיד המייצר אקורד אחד בלבד בכל 

זמן נתון.‏ 

שיטות אלו אינן מתאימות עבור כלל אותות השמע,‏ במיוחד עבור אותות שמע מורכבים,‏ כמו 

שילוב של אות דיבור ואות מוסיקלי,‏ אות דיבור הכולל מספר דוברים במקביל,‏ אות מוסיקלי 

הכולל מספר כלים וכדומה.‏ באותות שמע כללים אין תדר יסודי יחיד,‏ אלא מספר של תדרים 

יסודיים.‏ לפיכך,‏ יש לפתח אלגוריתם למציאת תדרים אלו.‏ שיטות אלו,‏ ופיתוח אלגוריתם 

למציאת מספר תדרים יסודיים,‏ מתוארים בהרחבה בפרק 

.6 

בפרק מתוארים גם השיקולים 

למציאת תדרים יסודיים אמיתיים,‏ או תדרים יסודיים ‏(לא בהכרח אמיתיים)‏ הנותנים כיסוי 

מקסימלי.‏ 

כל המרכיבים הטונלים ששוייכו לתדרים יסודיים משודרים לפי המודל ההרמוני.‏ שאר המרכיבים 

הטונליים ‏(להם לא נמצא תדר משותף)‏ משודרים כטונים בדידים,‏ לפי המודל של סינוסים 

בדידים.‏ 

במסגרת הבלוק מייצרים קבוצה של טונים ע"י תדר יסודי משותף.‏ ניתן לייעל את תהליך הדחיסה 

ע"י שידור יעיל של אמפליטודות הטונים בקבוצה.‏ 

בגירסה הראשונה של מודל ,HILN הטונים חולקו לקבוצות ורק אמפליטודה מייצגת אחת לכל 

קבוצה שודרה,‏ כמתואר בפרק 

.4 

שיטה זו היא בעייתית במקרים בהם מספר ההרמוניות גדול.‏ 

אמנם,‏ החלוקה לקבוצות הקטינה את מספר האמפליטודות לשידור,‏ אך מספר הקבוצות הוא 

גדול,‏ ולכן גם מספר האמפליטודות,‏ שהיה צורך לשדרם,‏ גדול.‏ שיטה יעילה יותר לייצוג 

אמפליטודות מיושמת בגירסה המתקדמת של 

.HILN 

מספר הפרמטרים לשידור אינו תלוי 

במספר ההרמוניות הקיימות,‏ והשידור נעשה ע"י מעטפת ספקטרלית,‏ המיוצגת בעזרת מספר 

- 46 -

קבוע של פרמטרים 

‏(מקדמי .(LPC 

שיטה זו יעילה מאוד לתהליך הדחיסה,‏ אולם,‏ מציגה בעיה 

מבחינת נדרישה לייצוג מדוייק של אמפליטודות.‏ זאת מכיוון שלא מובטח שהמעטפת 

הספקטרלית עוברת במדוייק ‏(או קרוב)‏ דרך ערכי העוצמות האמיתיות של הטונים.‏ באופן 

טיפוסי,‏ המעטפת מתקשתה בייצוג טוב,‏ במיוחד במצבים בהם טון בעל עוצמה חזקה הוא סמוך 

לטון בעל עוצמה חלשה ‏(במצבים אלו המעטפת ‏"מעדיפה"‏ בד"כ את העוצמות החזקות ומייצגת 

די במדוייק את העוצמה החזקה וגורמת להגברת העוצמה של הטון החלש).‏ תופעות אלו גורמות 

להחלשת צלילים חזקים והגברתם של צלילים חלשים,‏ דבר שמתבטא באיכות שמע לא טובה 

ולפעמים צורמת.‏ שיטות לייצוג יעיל יותר של האמפליטודות מתוארות בפרק 

.7 

.5.4 

לאחר הוצאת כל המרכיבים הטונליים מאות הכניסה,‏ נשארים עם אות שארית הנראה די אקראי 

והוא מיוצג בעזרת רעש.‏ הבלוק להערכת פרמטרי הרעש ‏(לפי מודל רעש)‏ מתואר בפרק זה בסעיף 

בשלב האחרון,‏ שלב של קידוד וכימות כל הפרמטרים,‏ מייצרים סדרת סיביות המשודרת לעבר 

המפענח.‏ סדרת הסיביות משודרת בקצב של 16,000 ‏(או 12000) סיביות בשניה.‏ 

הפרמטרים לקידוד הם אמפליטודות ותדרים של טונים המהווים סינוסים בדידים,‏ תדרים 

יסודיים,‏ מעטפת ספקטרלית ועוצמה עבור טונים הרמוניים ופרמטרי רעש לייצוג שארית האות.‏ 

בתהליך הכימות ישנם פרמטרים המכומתים ישירות בצורה אחידה או לוגרימית,‏ על פי מודל 

השמיעה האנושית וישנם פרמטרים המכומתים וקטורית.‏ תיאור של בלוק הכימות מתואר 

בהרחבה בפרק 

.8 

5.3 מיצוי מרכיבים טונליים 

הרעיון סביבו נבנה המודל הסינוסואידלי טוען כי ניתן לייצג קטע אות שמע בעזרת סכום סופי של 

מרכיבים טונליים ‏(סינוסים),‏ כמתואר במשוואה 

כל סינוס,‏ המייצג טון אמיתי של אות השמע 

אמפליטודה ופאזה.‏ 

.2.1 

, 

מיוצג באמצעות שלושה פרמטרים:‏ תדר,‏ 

מאחר שאורך הקטע הוא מספיק קצר,‏ ניתן להניח שהוא סטציונרי ותכונותיו כמעט ואינן 

משתנות.‏ 

בשל עובדה זו,‏ מניחים שהפרמטרים של הסינוס אינם משתנים במהלך מסגרת הזמן,‏ ולכן ניתן 

לייצג את הסינוס בעזרת פרמטרים קבועים כמתואר במשוואה:‏ 

M 

x( 

t) 

= ∑ a ⋅cos(2πf 

t + θ ) 

i= 

1 

i 

i 

i 

(5.1) 

בבלוק של מיצוי מרכיבים טונליים יש למצוא את הפרמטרים המייצגים כל סינוס.‏ מציאת 

פרמטרי התדר מתוארים בסעיף 5.3.1, מציאת פרמטרי האמפליטודות והפאזות מתוארים בסעיף 

.5.3.3 

בתהליך מיצוי המרכיבים הטונליים,‏ עלו מספר בעיות,‏ כמו אי יכולת למצוא את כל המרכיבים 

הטונליים,‏ במיוחד אלה שתדריהם סמוכים,‏ וזאת בגלל מגבלות רזולוציה.‏ בסעיף 

אלגוריתם המנסה להתמודד עם בעיות אלו.‏ 

מתואר 5.3.2 

- 47 -

5.3.1 מציאת תדרי הסינוסים 

תהליך מציאת תדרי הטונים באות השמע,‏ הוא אחד התהליכים החשובים במודל כולו.‏ בתהליך 

החיפוש אחר הטונים עולות שתי דרישות:‏ 

• 

• 

דרישה למציאת כל הטונים באות הכניסה ‏(או לפחות את הטונים המשמעותיים ביותר 

עפ"י מערכת השמיעה).‏ 

דרישה למציאת תדרים בדיוק מירבי.‏ 

הצורך במציאת תדרים בדיוק גבוה הוא חשוב,‏ כיוון שהאוזן האנושית רגישה מאוד לשינויי 

תדרים עד כדי סדר גודל של 

.1Hz 

מאחר והאות מורכב ממספר גדול של טונים,‏ רגישות האוזן 

לשינויי תדר,‏ בהתייחס לטון יחיד,‏ יורדת,‏ אבל עדיין עומדת על סדר גודל של מספר הרצים.‏ 

ניתן להבחין בטונים כשיאים (peaks) בתחום התדר.‏ כל שיא נראה כקפיצה או כמקסימום מקומי 

בתחום התדר,‏ כמתואר באיור 

.5.2 

10 

9 

8 

7 

amplitude 

6 

5 

4 

3 

2 

1 

0 

0 200 400 600 800 1000 1200 1400 1600 1800 2000 

frequency[Hz] 

איור 5.2: תחום התדר של אות שמע.‏ 

ספקטרום האות משורטט בקו מלא.‏ באיור ניתן לראות את תחום התדר שבין 

הטונים מופעים כשיאים,‏ למשל,‏ הטון הכי חזק מופיע באיזור 

0 ל-‏ 2000 הרץ.‏ 

400 הרץ.‏ 

Figure 5.2: Audio signal in frequency domain. 

The spectrum is drawn with a solid line. The frequency band in the figure is between 0 to 2KHz. 

The tones appear as peaks, for example the strongest tone is around 400Hz. 

מסגרת של אות הכניסה מסומנת ב-‏ 

הוא 

x(n) כאשר,‏ 1-N,...,0,1,2 (N n = הוא אורך המסגרת וערכו 

.(512 

על מנת להביא לייצוג טוב יותר של תחום התדר,‏ מכפילים את אות הכניסה בחלון 

Hamming ‏(בעל 512 מקדמים)‏ 

במשוואה:‏ 

ומבצעים המרה מתחום הזמן לתחום התדר ע"י ,DFT כמתואר 

X ( k) 

= 

N 

∑ − 1 

n= 

0 

x( 

n) 

⋅h( 

n) 

⋅e 

2π 

− j⋅ 

kn 

N 

(5.2) 

- 48 -

X(k) מקבל ערכים קומפלקסיים עבור כל 

.k = 0,1,2,3,…,N-1 

כל k מייצג תא תדר עם קפיצות 

תדר של 31.25 הרץ.‏ מכיוו שהאמפליטודות של X(k) סימטריות אין צורך לכסות את תחום התדר 

שבין 8KHz הרץ ל-‏ 

,16KHz 

לכן האינדקסים הרלוונטים הם:‏ 

. k = 

N 

0,1,2..., 

2 

עוברים על הקטע בתחום התדר ומסמנים כל מקסימום מקומי,‏ כלומר מחפשים נקודה שעוצמתה 

גדולה מעוצמת הנקודה הקודמת ומהנקודה הבאה לה,‏ לפי 

X ( m −1) 

< X ( m) 

> X ( m + 1) 

(5.3) 

כל אינדקסי 

m 

המקיימים את משוואה 

5.3 

מסומנים בתור תדרי הטונים.‏ ניתן לראות שכל 

התדרים מתקבלים בכפולות של 31.25Hz ‏(רזולוצית תא התדר).‏ מאחר שתדר הטון אינו בהכרח 

בתדר של אחת מנקודות ה-‏ 

לרזולוצית תא התדר.‏ 

,DFT 

יש לבצע תהליך של מציאת מקסימום יותר מדוייק,‏ מעבר 

לשם כך מבצעים קירוב פרבולי באיזור המקסימום המקומי,‏ הכולל את תא התדר המקבל ערך 

מקסימלי ושני תאי תדר שכנים.‏ דוגמה לכך מוצגת באיור 

.5.3 

20 

15 

maximum point 

10 

5 

0 

dB 

-5 

-10 

-15 

-20 

-25 

m-1 m m+1 

-30 

700 720 740 760 780 800 820 840 860 880 900 

frequency[Hz] 

איור 5.3: קירוב פרבולי 

ס פ ק ט ר ו ם ה א ו ת מ ש ו ר ט ט ב ק ו מ ל א,‏ כ א ש ר ש ל ו ש נק ו ד ו ת ב א י ז ו ר ה ש י א מ ס ו מ נ ו ת ב ע י ג ו ל מ ל א.‏ 

ה מ ק ס י מ ו ם ה ל ו ק ל י ע ל פ נ י ה ס פ ק ט ר ו ם מ ת ק ב ל ב נ ק ו ד ה m ‏(ב ד ו ג מ ה,‏ ה ו א כ-‏ ( 780Hz . א ך ז ה ו א י נ ו 

ה מ ק ס י מ ו ם ה מ ד ו י י ק . מ ק ס י מ ו ם מ ד ו י י ק נ י ת ן ל ק ב ל ב ע ז ר ת י צ י ר ת פ ר ב ו ל ה ‏(מ ש ו ר ט ט ב ק ו מ ל א 

עבה)‏ העוברת דרך שלושת הנקודות.‏ ניתן לראות שהמקסימום האמיתי מתקבל קרוב ל-‏ 

.790Hz 

Figure 5.3: Quadratic model 

The signal spectrum is drawn with a solid line, where the three dots around the peak are marked with a 

circle. The local maximum over the spectrum is achieved at m bin (near 780Hz in the example). This is 

not the exact maximum. An exact maximum can be achieved by creating a parabola (drawn with thick 

line), which passes through the three dots. The real maximum gets near 790Hz. 

תהליך מציאת מקסימה מקומיים בעזרת משוואה ריבועית מתואר ב-‏ [47] 

- 49 -

יש לקחת בחשבון שהמודל הפרבולי הוא מודל מקורב ולכן,‏ 

האמיתיים.‏ 

יתכנו סטיות קטנות מהתדרים 

חיפוש תדרים לפי השיאים הנראים בתחום התדר,‏ אינו מספיק וישנם תדרים נוספים אשר אינם 

נראים כשיאים בפני עצמם.‏ למשל מצבים בהם שני תדרים סמוכים מאוד אחד לשני,‏ מתגלים 

בספקטרום כשיא יחיד.‏ תופעה זו מתרחשת עקב מגבלות רזולוציית תדר.‏ אחד הרעיונות לפתרון 

בעיה זו הוא הכפלת אורך הקטע הנבחן,‏ דבר המשפר את רזולוציית התדר פי שניים,‏ כלומר אם 

כל תא תדר מייצג 31.25 הרץ,‏ אז לאחר השינוי,‏ אורך כל תא הוא 15.625 הרץ.‏ שיפור זה בא על 

חשבון קילקול רזולוציית הזמן.‏ במצב בו אורך המסגרת התארך,‏ יתכנו שינויים בתכונות האות 

ולכן המודל לא מתאים.‏ 

רעיון אחר לפיתרון הבעיה הוא שימוש באיטרציה שניה למציאת שיאים בתחום התדר.‏ רעיון זה 

מיושם לאחר מציאת תדרים,‏ בצורה הרגילה,‏ ע"י חיפוש שיאים בתחום התדר.‏ מחשבים את אות 

השארית,‏ שהוא האות המקורי שמחסירים ממנו את סכום של סינוסים שנמצאו באיטרציה 

הראשונה.‏ לאחר מכן מבצעים איטרציה שניה של חיפוש שיאים על פני אות השארית בתחום 

התדר ומאחדים את קבוצות התדרים ‏(משתי האיטרציות).‏ גישה זו מביאה לשיפור המודל 

הסינוסואידלי,‏ אך אינה מדוייקת,‏ כיוון שהתדרים שנמצאו באיטרציה הראשונה אינם מדוייקים.‏ 

שיטה להפרדה טובה של תדרים מפורטת בסעיף 

.5.3.2 

5.3.2 מציאת תדרים סמוכים 

מציאת תדרים,‏ על פי חיפוש ערכי מקסימום מקומיים על פני האות בתחום התדר,‏ מביאה 

לקבוצת תדרים מייצגים.‏ אולם,‏ שיטה זו איננה מסוגלת להתמודד עם מצבים בהם שני תדרים 

נמצאים סמוך זה לזה,‏ וזאת בגלל מגבלת רזולוצית תדר.‏ רזולוצית התדר של התצוגה 

הספקטרלית היא בגודל של 

,31.25Hz 

בעלי תדרים הקרובים זה לזה פחות מרזולוציית תא התדר.‏ 

דוגמה למצב זה ניתן לראות באיור 

אחד,‏ המייצג למעשה,‏ שני תדרים.‏ 

,5.4 

לפיכך לא יהיה ניתן להבחין בשני שיאים כאשר שני טונים 

בו הספקטרום של אות כניסה מציג מקסימום מקומי 

250 

1 

200 

150 

100 

2 

50 

3 4 5 6 

0 

0 100 200 300 400 500 600 700 800 900 1000 

frequency[Hz] 

- 50 -

איור 5.4: ספקטרום האות 

בשרטוט מופיע ספקטרום של אות כניסה ‏(קו מלא עבה),‏ כאשר אות הכניסה מורכב משני טונים 

קרובים ו-‏ וכל טון מורכב משש הרמוניות.‏ התדרים האמיתיים משורטטים בקו 

מקווקו אנכי.‏ ניתן לראות שההרמוניה הראשונה של שני הטונים ו-‏ מתלכדים 

למקסימום מקומי אחד,‏ המקבל מקסימום ב-‏ .133Hz מצב דומה מתרחש עבור ההרמוניה השניה 

של הטונים ו-‏ ההרמוניה הרביעית ו-‏ וההרמוניה החמישית של 

מתגלים 

לעומתם,‏ ההרמוניה השלישית של הטונים 

הטונים 

כשני ערכי מקסימום מקומיים,‏ אך מאוד לא מדוייקים כתוצאה מההשפעה ההדדית של שניהם 

על הצורה הספקטרלית.‏ ניתן לראות שבהרמוניה השישית ‏(בהרמוניות הגבוהות)‏ ההפרש בין 

התדרים גדול מספיק וחיפוש על פי מקסימום מקומי בלבד יכול להתאים.‏ 

(140Hz 

130Hz) 

(560Hz 

(420Hz ו-‏ 390Hz) 

520Hz) 

140Hz 

130Hz 

,(280Hz 260Hz) 

.(700Hz ו-‏ 650Hz) 

Figure 5.4: Signal spectrum 

The spectrum is drawn with a solid thick line. The input signal is compose of two near tones at 130Hz 

and 140Hz, and each tone has 6 harmonics. The real frequencies are ploted with dashed vertical line. It 

can be seen that the first harmonic of the tones (130Hz and 140Hz) appear as one local maximum, in 

133Hz. The second harmonic (260Hz and 280Hz), the fourth harmonic (520Hz and 560Hz) and the 

fifth harmonic (650Hz and 700Hz) also appear as one local maximum. In a special case the third 

harmonic (390Hz and 420Hz) appeared as two local maxima, but they are very inaccurate, as a result of 

the mutual influence on the spectral shape. It can be seen that in the sixth harmonic (high harmonics) 

the difference between the frequencies is high enough and searching by the principle of local maxima 

can be suitable. 

שלב ראשון של תהליך מיצוי המרכיבים הטונליים תואר בסעיפים קודמים,‏ 

והוא מבוצע ע"י 

, 

{ } P i i 

f 

= 1 

חיפוש ערכי מקסימום מקומיים בתחום התדר והרכבת קבוצה של תדרים מייצגים 

תדר מחושבים עוצמות בשיטת 

לכל 

.Least Squares 

, 

f i 

בשלב שני בודקים האם כל תדר בקבוצה,‏ 

‏("מסתתר"‏ מאחוריו תדר נוסף).‏ הבדיקה מבוצעת בשני שלבים:‏ 

הוא אכן תדר יחיד או שהוא מייצג שני תדרים 

fi +1 

− fi 

< 

בדיקת תדרים קרובים בתוך הקבוצה עצמה.‏ 

df 

(5.4) 

• 

מ-‏ 

כמו למשל,‏ ההרמוניה השלישית של שני הטונים ‏(איור 5.4). בספקטרום מתגלים שני ערכי 

מקסימום מקומיים שיוכנסו לתוך קבוצת התדרים.‏ מכיוון ששני התדרים סמוכים ‏(פחות 

(df הם,‏ ככל הנראה,‏ לא מדוייקים ולכן שני התדרים יועברו לאלגוריתם למציאת שני 

תדרים סמוכים.‏ 

• בדיקת שארית האות.‏ שארית האות מחושבת ע"י,‏ 

M 

n 

residual( n) 

= x( 

n) 

− ∑ ai 

⋅cos(2πf 

i 

⋅ + φi 

) 

i= 

1 

fs 

(5.5) 

,a i הם φ i 

כאשר x(n) 

הוא אות הכניסה,‏ f i הוא תדר בקבוצת M תדרים מייצגים,‏ ו-‏ 

האמפליטודה והפאזה של הסינוס ה-‏ i. 

השארית מומרת לתחום התדר ע"י:‏ 

- 51 -

R = 

DFT (residual) 

(5.6) 

ערכי השארית בתחום התדר 

(R) 

נבדקים סביב כל תדר מקבוצת התדרים.‏ 

המשמעות של ערך שארית גבוה הוא שהייצוג של איזור התדר באמצעות תדר יחיד אינו 

מספיק טוב ולכן באיזור תדר זה מחפשים שני תדרים על פי האלגוריתם,‏ המתואר בסעיף 

הבא.‏ 

5.3.2.1 תיאור אלגוריתם למציאת תדרים סמוכים 

בגישה הישירה מנסים להביא למינימום את השגיאה E לפי,‏ 

E 

⎛⎛ 

N 1 

= ∑ 

− M 

⎜ 

⎜ x( 

n) 

− 

n= 0 i= 

1 

⎝⎝ 

n ⎞ 

cos(2 ) ( ) 

⎟ ⎞ 

∑ ai 

⋅ πfi 

⋅ + φi 

⎟ ⋅ w n 

fs ⎠ ⎠ 

2 

(5.7) 

כאשר x(n) הוא אות הכניסה,‏ f i הוא תדר בקבוצת M תדרים מייצגים,‏ ו-‏ 

והפאזה של הסינוס ה-‏ 

,a i 

φ i הם האמפליטודה 

.i 

כאשר ישנם שני תדרים סמוכים,‏ 

fs הוא קצב הדגימה של אות הכניסה ו-‏ w(n) הוא פונקצית החלון.‏ 

מסמנים:‏ 

.M=2 

יש למצוא את הפרמטרים שאינם ידועים 

‏(אמפליטודה,‏ תדר ופאזה של שני הסינוסים)‏ אשר יביאו את השגיאה למינימום.‏ 

אולם הפיתרון אינו פשוט כל כך.‏ השוואת הנגזרת של 

E 

לאפס מובילה לקבוצת משוואות לא 

לינאריות מסובכות.‏ על מנת לפשט את הבעיה נניח תחילה שקבוצת התדרים ידועה.‏ פיתרון למצב 

זה מוצג בנספח א'.‏ 

השגיאה E מוצגת בתחום התדר ומוגדרת ע"י הביטוי:‏ 

E = 

T 

( X − Q ⋅ A) ⋅( X − Q ⋅ A) 

(5.8) 

X כאשר 

הוא ספקטרום האות,‏ 

A 

בתחום התדר מוזזות לפי קבוצת התדרים.‏ 

הוקטור 

, A 

(LeastSquare) הוא:‏ 

וקטור אמפליטודות ו-‏ Q מטריצה הכוללת פונקציות חלון 

אשר מביא למינימום השגיאה והמחושב בעזרת שיטת הריבועים הפחותים 

A = ( Q 

T 

⋅ Q) 

−1 

⋅ Q 

T 

⋅ X 

(5.9) 

ע"י הצבת A 

בביטוי השגיאה ‏(משוואה 

,(5.9 

ניתן לראות שהשגיאה E ניתנת לתיאור במונחים של 

המטריצה Q ע"י:‏ 

- 52 -

E = X 

T 

T −1 

T 

T 

( I − Q( 

Q Q) 

Q ) X = X ( I − P ) X 

T 

(5.10) 

כאשר P T קרויה מטריצת ההיטל של Q. 

ניתן לראות שהשגיאה מקבלת מינימום כאשר מביאים את הביטוי X T·P T·X למקסימום.‏ הרעיון 

של הבאת השגיאה E למינימום,‏ מתאים במיוחד למיקרים בהם קבוצת התדרים לא ידועה.‏ 

לפיכך,‏ אם האות מורכב משני סינוסים קרובים,‏ ניתן להפרידם ע"י הבאת הביטוי 

X T·P T·X 

למקסימום.‏ בביטוי זה אין תלות כלל בוקטור העוצמות a, הביטוי תלוי אך ורק בקבוצת תדרים.‏ 

לא ניתן לפתור בעיה זו ע"י סט משוואות,‏ כמו בשיטת הריבועים הפחותים,‏ אלא ע"י הצבת 

צירופים שונים של תדרים ‏(זוג תדרים)‏ וחיפוש הזוג המביא את הביטוי X T·P T·X למקסימום.‏ 

מאחר שקבוצת התדרים כוללת כאן רק שני תדרים,‏ ובנוסף ידוע ששני התדרים קרובים אחד 

לשני,‏ אפשר ‏(וגם רצוי)‏ להתמקד באיזור מסויים בתחום התדר,‏ מאשר לבצע את החישוב על פני 

כל תחום התדר.‏ הרעיון לבצע את החישובים בתחום מצומצם על פני תחום התדר הוא עדיף הן 

בגלל קבלת תוצאות מדויקות יותר והן מבחינת סיבוכיות ‏(עומס חישובים),‏ שכן חישוב המטריצה 

P T מצריך הפיכת מטריצות והכפלת מטריצות בגודל מספר תאי התדר.‏ 

כמו כן,‏ לקבלת תוצאות מדוייקות יותר מבודדים גם את אות הכניסה X, כך שיכיל רק את שני 

התדרים,‏ על מנת שטונים אחרים לא ישפיעו על ההחלטה ‏(כיוון שכל טון משפיע על כלל הצורה 

הספקטרלית).‏ תהליך זה מבוצע ע"י הורדת כל שאר המרכיבים הטונלים מאות הכניסה המקורי 

כמתואר במשוואה:‏ 

⎧ 

M 

n ⎫ 

X = DFT ⎨x( n) 

− ∑ ai 

⋅cos(2π 

⋅ fi 

⋅ + φi 

) ⎬ 

(5.11) 

⎩ 

i= 

1, i≠J 

fs ⎭ 

ניתן לראות,‏ שמאות הכניסה מוציאים את כל הטונים פרט לטון J, שחשוד כמייצג שני תדרים.‏ 

וקטור X הוא בגודל של 

512 ערכים 

‏(למעשה רק 256 בגלל סימטריה).‏ אבל מקצצים אותו לתחום 

התדר הרלוונטי סביב האינדקס בו מתקבל מקסימום מקומי.‏ תחום התדר כולל את הערך בו 

מתקבל מקסימום מקומי,‏ שני ערכים לפניו ושני ערכים אחריו ובסה"כ חמישה ערכים.‏ 

גם המטריצה Q ‏(המרכיבה את המטריצה 

,(P T 

‏(חמישה ערכי תדר בלבד,‏ במקום כל תחום התדר,‏ הכולל 

כוללת חלונות מוזזים בתחום המצומצם של התדר 

256 ערכים).‏ 

באיור 5.5 ניתן לראות שרטוט תלת מימדי של הביטוי X T·P T·X עבור שני תדרים בלתי תלויים 

f 1 

ו-‏ .f 2 

השרטוט הוא סימטרי ביחס לאלכסון,‏ מכיוון ששמות הפרמטרים 

להחליפם.‏ 

f 1 ו-‏ 

f 2 הם לא יחודיים וניתן 

המיקום של המקסימום הגלובלי בשרטוט התלת מימדי נותן שיערוך של שני תדרי 

הסינוסים,‏ כל אחד לאורך כל ציר.‏ 

איורים 

סמוכים,‏ 

5.7 

-5.5 

מתארים את מדד ההתאמה 

.X T·P T·X 

.140Hz ו-‏ 130Hz 

באיור 5.6 ניתן לראות את אותו השרטוט בהגדלה 

אות הכניסה מורכב משני תדרים 

(zoom in) 

ובאיור 

- 53 -

5.7 משורטט מבט על,‏ שם ניתן לראות בבירור את שני הצירים ואת ההחלטה על שני התדרים ‏(לפי 

הערך המקסימלי).‏ 

איור 5.5: מדד התאמה כפונקציה של שני תדרים.‏ 

הביטוי הוא פונקציה של שני משתנים ‏(שני תדרים).‏ כל זוג תדרים נותן ערך מסויים 

ובצירוף כל זוגות התדרים מרכיבים את הגרף התלת מימדי המקסימום מסומן ע"י נקודה 

שחורה . בדוגמה אות הכניסה מורכב משני טונים בעלי תדרים 130Hz ו-‏ .140Hz 

. 

X T·P T·X 

Figure 5.5: Matching measure as a function of two frequencies. 

The expression X T·P T·X is a function of two variables (two frequencies). Each couple of frequencies 

gives a specific value, and the combination of all the couples construct the tri-dimensional plot. The 

maximum is marked with black dot. In the example the input signal is compose of two tones with 

frequencies at 130Hz and 140Hz. 

איור 5.6: מדד התאמה כפונקציה של שני תדרים ‏(איזור מוגדל).‏ 

גרפים של הביטוי X T·P T·X כפונקציה של שני תדרים ‏(ציר x וציר y). הגרפים הם הגדלות של הגרף 

באיור 5.5. איור שמאלי מציג הגדלה אחת ואיור ימין מציג הגדלה נוספת.‏ 

Figure 5.6: Matching measure as a function of two frequencies (zoom in). 

Plots of the expression X T·P T·X as a function of two frequencies (x axis and y axis). The plots are zoom 

in of figure 13. The left plot is one zoom in and the right plot present a further zoom in. 

- 54 -

איור 5.7: מדד התאמה כפונקציה של שני תדרים ‏(מבט על)‏ 

הגרף מציג מבט על של איור 5.5, ממבט זה ניתן להבחין בתדרים המביאים לערך המקסימלי.‏ 

ניתן לראות שאכן זוג התדרים 140Hz הם אלה המביאים את הביטוי למקסימום.‏ 

130Hz ו-‏ 

Figure 5.7: Matching measure as a function of two frequencies (overhead look). 

The plot indicate a overhead look of figure 13, from this look it can notice the frequencies that gets the 

maximal value. It can be seen that indeed the couple of frequencies 130Hz and 140Hz are those who 

maximize the expression. 

לאחר מציאת התדרים של כל הטונים בקטע האות,‏ מחשבים את עוצמתם לפי אלגוריתם המתואר 

בסעיף הבא.‏ 

5.3.3 מציאת אמפליטודות הסינוסים 

בהינתן תדרי הטונים,‏ ניתן לחשב את העוצמות למיזעור פונקציית השגיאה:‏ 

511⎛⎛ 

M 

n ⎞ 

∑ ( ) cos(2 ) ( ) 

⎟ ⎞ 

E = ⎜ 

⎜ x n − ∑ ai 

⋅ πfi 

⋅ + φi 

⎟ ⋅ w n 

n= 0 1 

⎝⎝ 

i= 

fs ⎠ ⎠ 

2 

(5.12) 

כאשר x(n) הוא אות הכניסה,‏ (i=1,2…,M) f i 

ו-‏ 

הם תדרי הטונים שנמצאו,‏ fs הוא קצב הדגימה 

(16000) 

קבוצת הנעלמים הם 

φהם i a, i האמפליטודה והפאזה של הטון ה-‏ w(n) i. היא פונקצית החלון.‏ 

אמפליטודות ופאזות שאותם צריכים למצוא כך שהביטוי יתן ערך 

,5.12 

M 

מינימלי.‏ 

ביטוי השגיאה,‏ 

כפי שהוא מופיע במשוואה 

השגיאה למקביל לו בתחום התדר.‏ 

כתוב בתחום הזמן.‏ 

ניתן להפוך את ביטוי 

- 55 -

הפרמטרים מחושבים לפי שיטת Least Squares ‏(המרובעים הפחותים).‏ תהליך החישוב מפורט 

בנספח א'.‏ 

תוצאת החישוב נותנת סדרת עוצמות,‏ המביאה להתאמה מירבית בין מסגרת הכניסה ובין המודל 

של סכום סינוסים בתדרים נתונים.‏ 


שארית האות לאחר הורדת כל המרכיבים הטונליים הוא אות אקראי,‏ 

ומתואר ע"י:‏ 

הניתן לייצוג כרעש 

M 

n 

residual( n) 

= x( 

n) 

− ∑ ai 

⋅cos(2πf 

i 

⋅ + φi 

) 

i= 

1 

fs 

(5.13) 

כאשר x(n) הוא אות הכניסה ו-‏ M מספר הסינוסים שנמצאו.‏ 

ההנחה היא ששארית האות הוא אות אקראי ‏(רעש),‏ לכן ניתן לייצגו ע"י ייצור רעש לבן הנכנס 

,IIR למסנן 

שמקדמיו הן מקדמי ה-‏ 

LPC 

‏(מעטפת ספקטרלית של הרעש)‏ ובעל עוצמה 

(Gain) 

מתאימה.‏ 

לפיכך,‏ הפרמטרים המייצגים את הרעש הם מקדמי ה-‏ LPC ופרמטר של עוצמה.‏ תהליך חישוב 

הפרמטרים מתואר ב-‏ [48]. 

יש לציין,‏ ששישנם מסגרות אות שמע בהם המרכיבים הטונליים משמעותיים ולעומתם מרכיב 

הרעש קטן מאוד ואף זניח.‏ במסגרות אלו אין צורך בשידור מרכיב הרעש.‏ הבדיקה של קיום 

מרכיב הרעש באות הכניסה נעשת ע"י בדיקת האנרגיה של אות השארית 

לאנרגיית האות עצמו.‏ ערך הסף הוא 10% מאנרגית אות הכניסה.‏ 

(residual) 

ביחס 

5.5 פיענוח וסיתזה 

מבנה המפענח של המודל הפרמטרי המוצע דומה מאוד למפענח .HILN 

5.8, באיור 

ניתן לראות סכימת מלבנים של המפענח.‏ 

שמע אות 

יצירת 

טונים 

הרכבת 

פאזות 

פרמטרי 

טונים 

הפכי קידוד 


מקודדים 

הפכי כימות 

הפרמטרים של 

סיביות רצף 

+ החלקה 

ייצור 

רעש 


רעש לייצור 

- 56 -

איור 5.8: מבנה המפענח של המודל המוצע.‏ 

Figure 5.8: Block diagram of the proposed model decoder. 

בשלב ראשון מבוצע במפענח תהליך של כימות הפכי לקבלת הפרמטרים המקודדים.‏ 

בשלב השני מבצעים תהליך של קידוד הפכי.‏ במסגרת בלוק זה מייצרים את קבוצת התדרים של 

כל ההרמוניות,‏ תחילה התדרים השייכים לתדר היסודי הראשון ולאחר מכן,‏ תדרים השייכים 

לתדר היסודי השני,‏ אם הוא קיים.‏ 

תדרי ההרמוניות מיוצרים ע"י הכפלת התדר היסודי הראשון בכפולות שלמות.‏ כאשר,‏ הכפולות 

מצויינות ע"י הסדרה 

.Harm_Place1 

אם קיים תדר יסודי שני,‏ מרחיבים את קבוצת התדרים 

תוך הכפלת תדר הבסיס השני בכפולות שלמות,‏ המתוארות ע"י הסדרה .Harm_Place2 

לכל תדר בקבוצה מחושבת אמפליטודה ע"י דגימת המעטפת הספקטרלית בתדר כמתואר 

במשוואה:‏ 

a 

m 

= 

N 

1− 

Gain 

∑ 

i= 

1 

a ⋅ z 

i 

−i 

(5.14) 

כאשר 

. z = e 

− j 2πfm 

FS 

המעטפת הקומפלקסית מחושבת מפרמטרי 

למילה מתאימה במילון.‏ 

תהליך ההמרה מתואר בנספח ג'.‏ 

המילה מורכבת מ-‏ 

,LPC 

20 

המפוענחים על ידי שיוך האינדקס ששודר 

פרמטרי 

,LSF 

שמומרים למקדמי ה-‏ 

.LPC 

לאחר פיענוח הפרמטרים ‏(תדר ואמפליטודה)‏ של כל ההרמוניות,‏ מפענחים את הפרמטרים של 

הסינוסים הבדידים.‏ 

על פי דגלי הרציפות,‏ 

ניתן לדעת אם תדרים בדידים ממסגרת קודמת 

נמשכים גם למסגרת נוכחית.‏ במצב בו דגל הרציפות שווה ל-‏ '1' ‏(קיום רציפות),‏ אזי תדר הסינוס 

שווה לתדר שקודד ממסגרת קודמת כפול הפרמטר החדש,‏ המראה על שינוי התדר.‏ אותו תהליך 

מתרחש לפיענוח האמפליטודה של הסינוס.‏ 

סינוסים חדשים ‏(שאינם רציפים)‏ מפוענחים ישירות בעזרת פרמטר תדר ופרמטר אמפליטודה.‏ 

לאחר פיענוח הפרמטרים של כל המרכיבים הטונליים 

פרמטר הפאזה שלא משודר ברצף הסיביות.‏ 

‏(הרמוניות ובדידים),‏ 

נשאר לפענח את 

למעשה,‏ הפאזה ההתחלתית של כל טון אינה חשובה,‏ ולכן היא מיוצרת בצורה אקראית בין 

0 ל-‏ 

. 2π אולם,‏ האוזן האנושית מבחינה בעיוות כאשר הפאזה אינה רציפה ממסגרת למסגרת ולכן יש 

צורך בשמירה על פאזה רציפה.‏ 

חישוב פאזה עבור טון המתמשך ממסגרת קודמת נתון ע"י:‏ 

θ 

new 

= θ + 2π 

⋅rem( 

f ⋅ 

old 

i 

frame _ size 

,1) 

fs 

(5.15) 

- 57 -

כאשר frame_size מציין את גודל המסגרת 

תדר הטון.‏ 

(512 דגימות).‏ 

Fs הוא תדר הדגימה 

,(16000) i f הוא 

הביטוי בתוך rem מציין את מספר אורכי הגל שעבר הסינוס במהלך המסגרת האחרונה.‏ שינוי 

o 

הזווית מוגדר כשארית של אורכי הגל כפול , 2π שכן אורך גל שלם מוגדר כהפרש של 360. 

פיענוח פרמטרי הרעש מבוצע ע"י קבלת 

מקדמי 

10 פרמטרי ,LSF 

לפי האינדקס במילון,‏ המרתם ל-‏ 

10 

LPC 

מפוענח פרמטר העוצמה.‏ 

‏(תהליך ההמרה מתואר בנספח ג'),‏ המהוים מקדמיו של מסנן 

.All-pole 

בנוסף 

שלב ייצור האות מבוצע בעזרת שני מייצרי אות,‏ לפי סוג המרכיב ‏(טונים או רעש).‏ 

המרכיבים הטונליים מיוצרים בעזרת מחולל סינוסים,‏ בתדר,‏ אמפליטודה ופאזה נתונים.‏ מחולל 

רעש מייצר את מרכיב הרעש ע"י הכנסת רעש לבן למסנן 

,All-pole 

.LPC 

שמקדמיו הם מקדמי ה-‏ 

האותות המשוחזרים מסוכמים יחד ועוברים שלב של החלקה.‏ מטרת ההחלקה היא לבצע מעבר 

שמע חלק ממסגרת למסגרת,‏ כיוון שהייצור מבוצע על מסגרת בודדת והחיבור בין המסגרת עלול 

להישמע צורם לאוזן.‏ פונקציית ההחלקה מתוארת באיור 

.5.9 

512 samples 

5.9: איור 

פונקצית ההחלקה.‏ 

Figure 5.9: Smoothing function. 


בפרק תואר המודל הפרמטרי המוצע.‏ המודל מנסה לשפר את המודל הפרמטרי הסטנדרטי עפ"י 

.HILN השיפור הוא בתחום באיכות השמע,‏ בעזרת מיצוי מירבי של טונים באות השמע וייצוג 

אמפליטודות משופר.‏ השיפור הוא גם בתחום יעילות הקידוד,‏ בעזרת חישוב תדרים יסודיים,‏ 

- 58 -

הנותנים כיסוי מירבי של תדרי הטונים ולפיכך משאירים מספר מצומצם יותר של סינוסים 


השוואה בין המקודדים והשינויים העיקריים שבוצעו במודל ה-‏ HILN מסוכמים בטבלה 

.5.1 

מקודד פרמטרי מוצע 

Offered Parametric Encoder 

תקן HILN 

HILN Standard 

מציאת סינוסים בדידים בלולאת 

ניתוח/סינתזה.‏ בכל שלב מחושב סינוס יחיד,‏ 

וקלט חדש נכנס ללולאה והוא מחושב ע"י 

החסרת כל הסינוסים שנמצאו,‏ מאות הכניסה 

המקורי.‏ 

אין שלב של חיפוש סינוסים בעלי תדרים 

סמוכים.‏ 

תדרי הסינוסים מחושבים בצורה מדוייקת יותר 

בעזרת שינויי פאזה.‏ 

המודל הפסיכואקוסטי משולב בשלב של מציאת 

הסינוסים בלולאה.‏ בכל שלב מחושב סף מיסוך 

חדש המושפע מכלל הסינוסים שנמצאו עד 

השלב הנוכחי.‏ הסינוס שנבחר בכל שלב הוא זה 

שעוצמתו היא מקסימלית ביחס לסף המיסוך.‏ 

במסגרת המודל ההרמוני מחושב תדר יסודי 

כל הסינוסים מחושבים בשלב אחד,‏ 

ע"י מציאת 

מקסימה מקומי בתחום התדר.‏ 

שלב שני של מציאת סינוסים,‏ הכולל סינוסים סמוכים 

מאוד בתחום התדר לסינוסים שנמצאו בשלב הראשון.‏ 

תדרי הסינוסים מחושבים בצורה מדוייקת יותר בעזרת 

מודל פרבולי ‏(מציאת מקסימום במשוואה ריבועית).‏ 

המודל הפסיכואקוסטי משולב לאחר מציאת כל 

הסינוסים.‏ מחושב סף מיסוך המושפע מכלל האות,‏ 

מרכיבים טונליים ומרכיבי רעש.‏ 

המודל הפסיכואקוסטי משמש לדילול הסינוסים.‏ כל 

(pitch) 

יחיד.‏ ה-‏ 

pitch 

מחושב בתהליך נפרד 

‏(בשיטת ה-‏ (cepstrum ישירות מאות הכניסה.‏ 

ישנם אותות שמע בהן לא קיים .pitch 

ה-‏ 

סינוס,‏ שעוצמתו לא עוברת סף מיסוך,‏ מוצא מן 

הרשימה.‏ 

במסגרת המודל ההרמוני מחושבים מספר תדרים 

יסודיים.‏ תמיד משודר תדר יסודי (pitch) אחד לפחות.‏ 

pitch 

מחושב בהמשך התהליך ‏(על פני קבוצת 

הסינוסים שנמצאה)‏ והוא מהווה גורם משותף למרבית 

קבוצת התדרים.‏ 

1 

2 

3 

4 

5 

- 59 -

התדר היסודי המחושב הוא 

pitch 

אמיתי,‏ 

וסביר להניח שבכל ‏(או מרבית)‏ ההרמוניות 

קיימים תדרים,‏ אך מספר התדרים שהתדר 

היסודי מייצג הוא לא גדול,‏ ונשארים הרבה 

סינוסים,‏ שישודרו באמצעות מודל סינוסים 


קיים פרמטר של מתיחת תדר,‏ המתקן את 

סטיית תדרי ההרמוניות מכפולות שלמות של 

תדר ה-‏ 

התדרי היסודיים אינם אמיתיים.‏ הם תדרים 

שכפולותיהם נותנים כיסוי מקסימלי לקבוצת התדרים 

הקיימת,‏ ומותירים מספר מועט של סינוסים בדידים.‏ 

לא קיים פרמטר מתיחת תדר,‏ כיוון שהסטייה אקראית.‏ 

.pitch 

הסטייה גדלה בצורה לינארית 

עם מספר ההרמוניה.‏ 

ייצוג עוצמות של הרמוניות ע"י מעטפת 

ספקטרלית 

שיפור מודל ייצוג מעטפת ספקטרלית,‏ באמצעות 

,warping צמצום תחום דינמי ואיטרציות ושימוש בשתי 

מעטפות ספקטרליות.‏ 

‏(מקדמי (LPC 

6 

7 

8 

טבלה 5.1: השוואה בין מקודד HILN למקודד הפרמטרי המוצע.‏ 

Table 5.1: Comparing the HILN encoder to the proposed parametric encoder. 

- 60 -

פרק 6 

מציאת תדרים יסודיים 


תדר יסודי 

(pitch) 

הינו פרמטר המציין את מחזוריות האות בתחום הזמן ולכן כפולותיו 

‏(הרמוניות)‏ מופיעות באות השמע.‏ 

הקיום של ה-‏ pitch בולט מאוד באותות דיבור.‏ כאשר מתבוננים על אות דיבור בתחום הזמן ‏(על 

קטע מספיק ארוך),‏ ניתן לראות מחזוריות בולטת,‏ כאשר באותות דובר יחיד יש pitch יחיד.‏ 

אלגוריתמים למציאת תדר יסודי באותות דיבור מניב בד"כ תוצאות אמינות.‏ לעומתם,‏ חיפוש 

תדר יסודי באותות שמע כלליים,‏ לרבות אותות מוסיקה,‏ אינו תהליך כל כך פשוט.‏ אותות 

מוסיקה הם אותות מורכבים הרבה יותר מאותות דיבור,‏ כיוון שהם יכולים לכלול מספר תדרים 

יסודיים.‏ 

תכונה זו מצריכה אלגוריתם למציאת מספר רב של תדרים יסודיים.‏ 

בפרק מתוארות מספר שיטות למציאת מספר תדרים יסודיים ובסעיף 

המוצעת.‏ 

6.6 

מתוארת השיטה 

6.2 אלגוריתם למציאת תדרים יסודיים בשיטת האוטוקורלציה 

האלגוריתם הנדון מתאר שיטה למציאת מספר תדרים יסודיים 

(multi-pitch) 

ב-‏ [22] .[23] 

בשלב ראשון אות הכניסה מוכפל בחלון 

מעביר תחום 

.Hamming 

(bandpass) 

עד 70Hz בין 

.1000Hz 

ומוסבר בהרחבה 

לאחר מכן,‏ מעבירים את האות דרך מסנן 

הסינון מבוצע על מנת להקל בחישוב 

האוטוקורלציה ולהתמקד בתחום התדרים הרלוונטי.‏ נקודת החיתוך התחתונה של המסנן,‏ 

,70Hz 

נבחרה כך ש-‏ DC ותדרים נמוכים מאוד לא יילקחו בחשבון.‏ 

נקודת החיתוך העליונה של המסנן,‏ ב-‏ 

,1000Hz 

לא קריטית,‏ והיא יכולה לנוע בין 

,2000Hz בתלות בגבול העליון של התדרים היסודיים,‏ שניתן להעריכם.‏ 

לאחר מכן מחושבת פונקציית האוטוקורלציה של המסגרת לפי הנוסחה:‏ 

ל-‏ 800Hz 

corr = IDFT 

{ DFT{ x} 

} 

k 

(6.1) 

כאשר x הוא אות הכניסה ו-‏ k הוא קבוע.‏ 

- 61 -

עבור אוטוקורלציה רגילה משתמשים ב 2=k אבל עדיף להשתמש בערך קטן יותר (0.5=k), לקבלת 

תוצאות טובות יותר.‏ 

באיור 6.1 ניתן לראות דוגמה לפונקציית אוטוקרלציה.‏ 

0.5 

0.4 

0.3 

0.2 

0.1 

220Hz 

185Hz 

147Hz 

0 

-0.1 

0 0.002 0.004 0.006 0.008 0.01 0.012 0.014 

time [sec] 

איור פונקציית אוטוקורלציה.‏ 

בדוגמה נבדק אות מוסיקלי של קלרינט,‏ הכולל שלושה תדרי בסיס ב-‏ 

כל שיא על פני פונקציית האוטוקרלציה יכול לתת אינדיקציה לתדר יסודי.‏ מאחר והפונקציה היא 

בתחום הזמן,‏ הערך ההופכי נותן את התדר,‏ למשל ב-‏ שניה מתקבל שיא המייצג את 

185 ,147 ו-‏ 220 הרץ.‏ 

0.0045 

:6.1 

.1/0.0045=220Hz 

Figure 6.1: Autocorrelation function. 

Autocorrelation function of a musical (clarinet) signal, which is composed of three fundamental 

frequencies at 147, 185 and 220 Hz. Each peak in the autocorelation function gives an indication for a 

fundamental frequency. Since the function is presented in the time domain, the inverse value gives the 

frequency, for example, there is a peak at 0.0045 sec which represents 1/0.0045 = 220Hz. 

(peaks) 

כפי שניתן לראות באיור 6.1, 

פונקציית האוטוקורלציה מתארת הרבה נקודות שיא 

וקשה 

להחליט אילו מהן מייצגות תדרים יסודיים.‏ 

הפונקציה מייצרת נקודות שיא בכל כפולה שלמה של תדר יסודי.‏ לכן,‏ מבצעים תהליך של דילול 

וקיצוץ בנקודות השיא.‏ 

תחילה משאירים רק את הערכים החיוביים,‏ כמתואר באיור 6.2. 

- 62 -

0.4 

0.35 

0.3 

0.25 

0.2 

0.15 

0.1 

0.05 

0 

220Hz 

185Hz 

147Hz 

איור 

-0.05 

0 0.002 0.004 0.006 0.008 0.01 0.012 0.014 

time [sec] 

:6.2 

פונקציית האוטוקרלציה לאחר השארת ערכים חיוביים בלבד.‏ 

Figure 6.2: Autocorrelation function after leaving positive values only. 


ניתן לראות בבירור את שלושת השיאים המייצגים את שלושת התדרים היסודיים.‏ 

בנוסף,‏ ניתן לראות שיאים גם בכפולות של המחזור היסודי,‏ למשל תדר הבסיס ,220Hz מיוצג ע"י 

שיא בזמן 

,0.0045sec 

מתקבל גם שיא בכפולה שלו בזמן 

.0.009sec 

אם השרטוט היה מוצג על 

פני כל תחום הזמן ,(0.032sec) היה ניתן לראות גם שיאים המופיעים בכפולות זמן של פי 

וכך הלאה.‏ למעשה,‏ שיאים הנמצאים מעל הזמן 

תדרים של 50Hz ומטה.‏ 

4 פי ,3 

0.02sec 

אינם מעניינים,‏ כיוון שהם מייצגים 

על מנת להוריד את השיאים הלא רלוונטים,‏ למשל את השיאים הנמצאים בכפולות השיא 

הבסיסי,‏ מייצרים אות הזהה לאוטוקורלציה,‏ אבל הוא מורחב בתחום הזמן פי 2. אות זה מוחסר 

מאות האוטוקרלציה המקורי ‏(המוצג באיור 

(6.2 

ולבסוף משאירים,‏ שוב,‏ רק את הערכים 

החיובים.‏ פעולה זו מוציאה את כל נקודות השיא עם זמן כפול,‏ כאשר השיא הראשוני גבוה יותר 

מהשיא בזמן הכפול.‏ פעולה זו גם מוציאה חלקים מפריעים הקרובים לאפס בתחום הזמן.‏ תוצאת 

הדילול מוצגת באיור 

.6.3 

0.1 

0.08 

0.06 

0.04 

0.02 

0 

-0.02 

0 0.002 0.004 0.006 0.008 0.01 0.012 0.014 

time [sec] 

6.3: איור 

פונקציית אוטוקרלציה מדוללת.‏ 

Figure 6.3: Diluted autocorrelation function. 

- 63 -

ניתן לחזור על פעולה זו עבור הרחבת ציר הזמן פי 

4 ,3 

וכך הלאה,‏ עד אשר מוציאים את כל 

הכפולות.‏ בסופו של דבר נשארים עם מספר מצומצם של נקודות שיא המייצגות את התדרים 

היסודיים.‏ 

אלגוריתם זה אינו מתאים בהרבה מקרים,‏ במיוחד עבור אותות שמע מורכבים,‏ כיוון שנותרים 

‏(לאחר הדילול)‏ שיאים נוספים,‏ כמו השיא שנראה באיור 

,6.3 

בזמן .0.0015sec שיא זה מייצג את 

תדר ,660Hz שהוא למעשה ההרמוניה השלישית של תדר יסודי 220Hz והוא בעל עוצמה גבוהה 

מהאחרים,‏ כלומר העוצמה של הטונים משפיעה על התוצאות.‏ כמו כן,‏ האלגוריתם הוא בעייתי,‏ 

כאשר התדרים היסודיים גבוהים יחסית ולכן ממוקמים קרוב לזמן אפס בפונקציית 

האוטוקורלציה.‏ כתוצאה מכך,‏ פונקצית האוטוקורלציה מציגה שיאים במספר רב של כפולות,‏ 

ותהליך הדילול יצטרך להתבצע גם עבור כפולות גבוהות ‏(פי 

6 פי ,5 

וכדומה).‏ פעולת הדילול 

בכפולות גבוהות עלולה לדרוס את השיאים ‏(של הכפולה הראשונה),‏ כיוון שקרוב מאוד לאפס 

הפונקציה נותנת ערכים לא רלוונטים ‏(כפי שניתן לראות באיור 6.2) חיוביים וגדולים.‏ 

חסרון נוסף המתבלט כאשר ישנם לפחות שני תדרי בסיס גבוהים,‏ הוא הרזולוצייה בתחום הזמן.‏ 

במצב זה,‏ פונקציית האוטוקרלציה לא תציג שני שיאים,‏ אלא שיא אחד.‏ 

תופעה זו מוצגת באיור 

.6.4 

0.1 

0.08 

130Hz 

0.06 

0.04 

570Hz 

390Hz 

0.02 

0 

-0.02 

0 0.002 0.004 0.006 0.008 0.01 0.012 0.014 

tim e [sec] 

:6.4 

איור פונקצית אוטוקרלציה לאחר דילול אחד.‏ 

בדוגמה,‏ קטע אות מוסיקלי הכולל שלושה תדרים יסודיים:‏ 

השיאים המייצגים מופיעים בתחום הזמן קרוב לאפס.‏ ניתן לראות שאין שני שיאים עבור 

התדרים 520 הרץ ו-‏ 660 הרץ,‏ אלא שיא אחד ב-‏ 570 הרץ.‏ 

520 ,390 ו-‏ 660 הרץ.‏ 

Figure 6.4: Autocorrelation function after one dilution. 

The example shows the autocorelation function of a musical signal, which is composes of three 

fundamental frequencies at: 390, 520, 660 Hz. The represented peaks appear in the time domain near 

zero. It can be seen that there aren't two peaks for the frequencies 520 and 660 Hz, but one peak at 

570Hz. 

באיור 6.4 ניתן לראות שיא חזק מאוד,‏ שהוא נחלש מעט לאחד דילול עבור הכפולות פי 

4. השיא 

נמצא בזמן 0.0077 שניה המייצג תדר של .130Hz תדר זה הוא למעשה התדר המשותף לשלושת 

התדרים היסודיים ולכן הוא מופיע בצורה בולטת.‏ דוגמה למצב בעייתי נוסף מוצג באיור 

.6.5 

- 64 -

0.07 

0.06 

380Hz 

0.05 

0.04 

300Hz 

0.03 

0.02 

0.01 

0 

-0.01 

-0.02 

0 0.002 0.004 0.006 0.008 0.01 0.012 0.014 

time [sec] 

:6.5 

איור פונקצית אוטוקורלציה – דוגמה למצב בעייתי.‏ 

בדוגמה,‏ פונקציית אוטוקרלציה של אות פסנתר הכולל שלושה תדרים יסודיים:‏ 

הרץ.‏ בפונקציה לא הובחנו שלושה שיאים.‏ שני התדרים 440 הרץ הובחנו ע"י שיא אחד 

מייצג בתדר 

370 ,295 ו-‏ 440 

370 ו-‏ 

.380Hz 

Figure 6.5: Autocorrelation function – example of a problematic situation. 

The example shows the autocorelation function of musical (piano) signal, which is composed of three 

fundamental frequencies at:295, 380 and 440 Hz. The function does not show three peaks. The two 

frequencies, 370 and 440Hz were observed as one peak at 380Hz. 

לפיכך,‏ בהרבה מצבים,‏ אלגוריתם זה אינו מפיק את התדרים היסודיים.‏ פונקציית האוטוקרלציה 

מציגה הרבה שיאים,‏ ולא תמיד ניתן לדעת אלו מהשיאים מייצגים את התדרים היסודיים.‏ כפי 

שהוצג בדוגמאות,‏ לא תמיד מבחינים בשיאים נפרדים בגלל מגבלת רזולוציה בזמן ‏(עבור תדרים 

יסודיים גבוהים).‏ 

6.3 אלגוריתם למציאת תדרים יסודיים בעזרת החלקת ספקטרום 

אלגוריתם נוסף למציאת תדרים יסודיים בשיטה איטרטיבית בעזרת החלקת ספקטרום מתואר 

ב-‏ [24]. 

האלגוריתם פועל באיטרציות,‏ כאשר בכל איטרציות,‏ מוצאים תדר יסודי 

התדר היסודי הדומיננטי.‏ 

(pitch) 

יחיד,‏ שהוא 

בכל שלב מחסירים את ההרמוניות של התדר היסודי מאות הכניסה,‏ ולאחר מכן מתחיל שלב חדש 

של מציאת התדר היסודי הדומיננטי הבא ‏(מתוך שארית אות הכניסה).‏ 

סכימת מלבנים של תהליך זה מתואר באיור 

.6.6 

- 65 -

הרמוניות הוצאת 

הכניסה מאות 

החלקה 

ספקטרלית 

תדר הערכת 

דומיננטי יסודי 

שמירת 

התדר ערך 

מעורב אות 

A 

B 

:B 

:A 

איור 6.6: מבנה מערכת למציאת תדרי בסיס.‏ 

המערכת ניתנת למיתוג בין שני מצבי עבודה.‏ 

החלקה ספקטרלית.‏ 

מצב 

גישה איטרטיבית ישירה.‏ 

כולל מצב 

Figure 6.6: System structure of fundamental frequencies search. 

The system can be switched between two modes. A: straightforward iterative approach. B: spectral 

smoothness based model. 

הגילוי של תדר יסודי דומיננטי ראשון ‏(באיטרציה הראשונה),‏ שהוא למעשה התדר הדומיננטי 

באות הכניסה,‏ מצליח באחוזים גבוהים מאוד.‏ לעומת זאת,‏ אחוז הגילוי של התדרים היסודיים 

הבאים,‏ הולך וקטן ככל שמספר האיטרציות גדל.‏ 

עובדה זו מצביעה על כך שהספקטרום הנבנה ‏(מהתדר היסודי וההרמוניות שלו)‏ אינו מדוייק 

מספיק,‏ כלומר החסרתו מהספקטרום המקורי נותן תוצאה שאינה מדוייקת,‏ ולכן הגילוי של 

התדר היסודי הבא כבר לא יהיה מדוייק.‏ 

בנייה לא מדוייקת של הספקטרום גורם לכישלון האלגוריתם במיוחד כאשר קיימות התנגשויות 

בין הרמוניות של תדרים יסודיים שונים ‏(הרמוניות המשותפות למספר תדרים יסודיים).‏ התנאי 

להתנגשות בין הרמוניה h של הצליל S עם ההרמוניה ה-‏ j של הצליל R היא:‏ 

h⋅ 

F 

= j ⋅ 

S 

F R 

(6.2) 

ולכן הקשר בין שני תדרים יסודיים נתון ע"י:‏ 

F 

m 

= ⋅ 

n 

R 

F s 

(6.3) 

כאשר m ו-‏ n הם מספרים שלמים.‏ 

כאשר קיימת התנגשות בין שתי הרמוניות בעלות אמפליטודה של 

הוא Q, האמפליטודה המסוכמת נתונה ע"י:‏ 

a1 ו-‏ 

a2 והבדל פאזה ביניהם 

a 

s 

a + a ⋅e 

= 

1 2 

jQ 

(6.4) 

- 66 -

כאשר האמפליטודות a1 ו-‏ a2 הן באותו סדר גודל,‏ הסיכום עלול להגביר את העוצמה הכוללת או 

לבטל אותה,‏ בתלות ב-‏ Q, אך אם אחת האמפליטודות גדולה בהרבה מהשניה,‏ הסכום נותן את 

הגדול מבין שניהם.‏ במרבית המקרים עוצמת ההרמוניה מוגברת.‏ 

לפיכך,‏ הוצאת הרמוניות ‏(הקשורות לתדר יסודי)‏ מאות הכניסה גורמת להורדת הרמוניות 

השייכות גם לתדרים יסודיים אחרים ולכן מורידות את הסיכוי לגילויים.‏ 

על מנת לפתור את הבעיה משתמשים בהחלקת ספקטרום.‏ החלקת הספקטרום מקטינה את אחוז 

השגיאה במציאת תדרים יסודיים.‏ 

האלגוריתם להחלקה עובר על כל ההרמוניות של צליל ומחליף את האמפליטודה 

ה-‏ h במינימום בינה לבין ההרמוניה השכנה לפי,‏ 

a h של ההרמוניה 

a 

h 

← 

h h+ 

min( a , a 

1) 

(6.5) 

ההחלקה נעשית בעזרת שני ערכים בלבד.‏ 

אלגוריתם החלקה אחר המתחשב במספר רב יותר של ערכים,‏ מחשב ממוצע,‏ 

הרמוניות ‏(הרמוניות הנמצאות בתוך חלון סביב ההרמוניה המחושבת).‏ 

,m h 

על פני מספר 

a ← min( a 

h 

h 

, m 

h 

) 

(6.6) 

פעולת ההחלקה מנסה לייצר ספקטרום אמיתי של תדר יסודי יחיד,‏ ומורידה את הקורלציה עם 

תדרים יסודיים אחרים.‏ כלומר,‏ במצב של התנגשות,‏ אחת ההרמוניות תהיה בעלת עוצמה שונה 

מעוצמת הרמוניות בסביבתה ‏(לרב תהיה בעלת עוצמה גבוהה משמעותית)‏ ולכן פעולת מינימום 

בתהליך ההחלקה תעניק להרמוניה עוצמה נמוכה יותר.‏ במצב זה ההרמוניה לא תוחסר כולה 

מאות הכניסה,‏ ויהיה ניתן לגלות,‏ ביתר קלות,‏ את התדר היסודי האחר,‏ המשוייך גם כן להרמוניה 

זו.‏ 

אלגוריתם זה אינו מספיק טוב,‏ כיוון שחישוב הספקטרום,‏ עדיין,‏ אינו מדוייק.‏ 

ישנם מצבים,‏ בהם ההתנגשות של הרמוניה משני תדרים יסודיים,‏ גורמים להחלשת העוצמה,‏ לפי 

משוואה 

.6.4 

במצבים אלו,‏ תהליך ההחלקה אינו עוזר,‏ שכן הוא בוחר בערך מינימלי וההרמוניה 

תוצא כליל מאות הכניסה לאיטרציה הבאה.‏ 

גם במצבים אחרים פעולת ההחלקה גורמת לשינוי העוצמה האמיתי של ההרמוניה,‏ ולפיכך ישארו 

‏"שאריות"‏ של ההרמוניה לאיטרציה הבאה שישפיעו על מציאת התדר היסודי הדומיננטי הבא.‏ 

בנוסף ישנם מצבים בהם התדר הדומיננטי הנבחר הוא לא אחד מהתדרים היסודיים אלא תדר 

שהוא גורם משותף לשניים או יותר מהתדרים היסודיים.‏ למשל,‏ טון בעל תדר בסיס 2F וטון נוסף 

בעל תדר בסיס 3F. עלול להיווצר מצב שיתגלה תדר יסודי F, למרות שהוא אינו קיים.‏ 

6.4 אלגוריתם למציאת תדרים יסודיים בתחום התדר 

- 67 -

האלגוריתם המתואר בסעיף זה הוא אחד משני רעיונות למציאת תדרים יסודיים,‏ שפותחו במהלך 

העבודה ‏(האלגוריתם השני מתואר בסעיך 

.(6.6 

האלגוריתם מבוסס על חיפוש הרמוניות בתחום התדר.‏ הקלט למערכת הוא קבוצה של תדרים,‏ 

המחושבת במודל הסינוסואידלי.‏ האלגוריתם מחפש תדר ‏(או מספר תדרים)‏ שכפולותיו יחפפו עם 

מספר רב של איברי קבוצת התדרים.‏ ההרמוניות צריכות להיות רציפות כמה שיותר,‏ כלומר יש 

למנוע מצבים בהם חסרים הרמוניות.‏ 

האלגוריתם מפיק מספר תדרים,‏ חלקם הם תדרים יסודיים,‏ חלקם כפולות שלהם וחלקן חלוקה 

שלמה של תדר יסודי.‏ לא בהכרח כל התדרים היסודיים נמצאים,‏ וזאת בגלל רזולוציית תדר 

מוגבלת.‏ 

מתוך התדרים ‏(תפוקות)‏ בוחרים את התדרים שנותנים את התוצאות הטובות ביותר מבחינת 

דחיסה,‏ לא בהכרח תדרים יסודיים עצמם,‏ לפעמים חלוקה שלמה של התדרים.‏ 

לדוגמה,‏ אות הכולל את התדרים היסודיים:‏ 

.330Hz ,220Hz 

לעיתים,‏ עדיף יהיה לבחור בתדר המשותף לשניהם,‏ ,110Hz משיקולי דחיסה בלבד.‏ לעיתים עדיף 

יהיה לייצג רק אחד מהם,‏ למשל רק את 

,330Hz 

כיוון שלתדר היסודי השני ישנן מעט הרמוניות,‏ 

או שהתדר 330Hz חופף עם מרבית ההרמוניות של .220Hz 

לכן,‏ לא בהכרח נעדיף את התדרים היסודיים האמיתיים,‏ אלא את התדרים שיתנו את ייצוג 

המתאים ביותר,‏ משיקולי דחיסה.‏ 

האלגוריתם מתואר 

בשלבים הבאים,‏ 

כאשר הקלט הוא קבוצה של M 

תדרים 

‏(המופקת במודל 

הסינוסיואידלי),‏ שתסומן ע"י 

.{ F} M i = 1 

{ F} M i 1 

בהנחה שתדרי הבסיס נמוכים מ-‏ ,2000Hz 

= 

הקטנים מ 

בוחרים את כל התדרים מתוך 

• 

תדר יסודי.‏ 

2000Hz ונסמנם ב-‏ 

.optional_pitches 

כל אחד מהתדרים האלו יכול להיות 

מייצרים מטריצה A בגודל .size(optional_pitchs) x 10 כל שורה במטריצה מייצגת את 

אחד התדרים בקבוצה 

,option_pitchs 

התדר.‏ במטריצה יש שני ערכים אפשריים:‏ 

כאשר קיימת הרמוניה.‏ 

וכל עמודה מייצגת את מספר ההרמוניה של 

.'1' '0' או '0' 

במקרה שאין הרמוניה ו-‏ 

'1' 

• 

קיום של הרמוניה מוגדר כאשר כפולה של תדר יסודי רחוקה מתדר בקבוצה 

סטייה מקסימלית.‏ נהוג להשתמש בסטייה של 1% מהתדר עצמו.‏ 

חישוב המטריצה A נעשה לפי,‏ 

{ F} M i = 1 

עד 

A 

n, 

m 

⎧ 1 , Fi 

− m⋅option_ 

pitchesn 

< D 

= ⎨ 

⎩0 

, else 

(6.7) 

- 68 -

כאשר option_pithces n הוא תדר יסודי אפשרי הנבדק (n הוא אינדקס התדר הנבדק,‏ 

אחד לכל שורה ב-‏ m A), הוא מספר ההרמוניה,‏ שנע בין 1 ל-‏ 10. 

D הוא גודל הסטייה המקסימלית האפשרית.‏ 

האלגוריתם פועל על כל שורה של המטריצה A בנפרד.‏ כל שורה במטריצה מייצגת תדר 

יסודי אפשרי.‏ מתחילים בהורדת תדרים אופציונליים לא מתאימים ‏(למשל,‏ תדר יסודי 

שאין לו אף הרמוניה),‏ ונשארים עם התדרים להם לפחות 3 הרמוניות,‏ 3 פעמים 

מופיע '1' בשורה,‏ כמו בדוגמה:‏ 

כלומר 

[1 1 0 1 0 0 0 0 0 0] 

או תדרים להם יש 2 הרמוניות רצופות,‏ כמו בדוגמה:‏ 

[1 1 0 0 0 0 0 0 0 0] 

לתדר יסודי אמיתי ישנם מספר הרמוניות וההרמוניות הראשונות קיימות ‏(כלומר,‏ קיימת 

רציפות).‏ 

מבצעים סינון נוסף בהתאם למספר מדדים ‏(קריטריונים):‏ 

מדד‎1‎‏-‏ מספר ההרמוניות הקיימות ‏(מתוך 10 הראשונות).‏ 

מדד‎2‎‏-‏ מציין את רציפות ההרמוניות,‏ תוך השמת דגש על ההרמוניות הנמוכות.‏ 

באיור 6.7 ניתן לראות מספר דוגמאות.‏ 

• 

• 

מספר:‏ 1 2 3 4 5 6 7 8 9 10 

הרמוניה 

[1 1 0 1 0 0 0 0 0 0] 

[1 1 0 0 0 0 0 0 0 0] 

[1 1 1 1 1 1 1 1 1 0] 

[1 0 0 0 0 0 1 1 1 0] 

:1 

דוגמה 

:2 

דוגמה 

:3 

דוגמה 

:4 

דוגמה 

איור 6.7: דוגמאות לתצוגת תדר בסיס במטריצה A. 

בדוגמה ניתן לראות שלוש הרמוניות,‏ כאשר ההרמוניה השלישית לא קיימת.‏ בדוגמה ישנן 

רק שתי הרמוניות רצופות,‏ בדוגמה ניתן לראות תשע הרמוניות רצופות,‏ במצב זה המדדים 

יעניקו ציון גבוה מאוד,‏ כיוון שזהו תדר בסיס אמיתי.‏ בדוגמה ניתן לראות ארבע הרמוניות,‏ 

אבל הן לא רצופות וחסרות הרבה הרמוניות נמוכות,‏ לכן סביר להניח שהמדדים יראו על ציון 

נמוך יחסית.‏ 

,2 

,4 

Figure 6.7: Examples for fundamental frequency representation in matrix A. 

In example 1, there are three harmonics, but the third harmonic does not exist. In example 2, there are 

only two consecutive harmonics. In exapmle 3, there are nine consecutive harmonics, in this situation 

the measures will provide very high grade, because this is a real fundamental frequency. In example 4, 

there are four harmonics, but they are not consecutive and many low harmonics are missing, therefore 

the measures will provide a relative low grade. 

כל התדרים להם מדדים בעלי ציון נמוך מוצאים מקבוצת התדרים האפשריים.‏ 

- 69 - 

,3 

התדרים שנשארו מסומנים ע"י .freq_pitch 

לעיתים,‏ כדאי להוסיף לקבוצת התדרים את התדרים היסודיים ממסגרת קודמת,‏ כיוון 

שבמרבית המקרים התדרים היסודיים נמשכים על פני מספר מסגרות.‏ 

,1

בשלב הבא בודקים כל אחד מתדרי הקבוצה .freq_pitch 

עבור כל תדר F, 

F ∈ 

freq _ 

pitch 

בודקים את מחלקי תדר שלמים 

. F , F , F 

2 3 

הבדיקה מתבצעת שוב על פי מדדים.‏ לעיתים,‏ מחלקי תדר שלמים עדיפים,‏ משיקולי 

דחיסה,‏ על פני התדר F עצמו.‏ בנוסף יתכן כי בגלל מוגבלות רזולוציה התדר היסודי 

‏(ההרמוניה הראשונה),‏ לא נמצא בין רשימת התדרים הכוללת,‏ אבל נמצאה אחת 

הכפולות שלו.‏ 

• 

בשלב האחרון,‏ בוחרים את התדרים היעילים ביותר מבחינת הדחיסה.‏ כאשר עיקרון 

היעילות מבוסס על מספר מירבי של הרמוניות ‏(כלומר,‏ מניעת שידור של תדרים רבים 

ככל האפשר,‏ ע"י שידור תדר אחד מייצג)‏ ועל קיום הרמוניות,‏ כיוון שאי קיום הרמוניה 

מצריך אינדיקציה לכך ‏(שהוא פרמטר נוסף,‏ המקטין את יעילות הקידוד).‏ 

כלומר,‏ ישנם מצבים שנעדיף תדר יסודי המייצג פחות הרמוניות אך הן תהיינה רצופות,‏ 

מאשר תדר יסודי המייצג יותר הרמוניות,‏ אך הן לא רצופות.‏ 

• 

לדוגמה,‏ קבוצת תדרים 

= 1 i ,{ F} M הכוללת 7 תדרים:‏ 

[220 , 440 , 660 , 880 , 1100 , 1320 , 2200] 

השורה המתאימה במטריצה A תראה כך:‏ 

. התדר היסודי הוא 220 הרץ.‏ 

.[1 1 1 1 1 1 0 0 0 1] 

כלומר שש הרמוניות רצופות ועוד הרמוניה עשירית,‏ ביחד 

7 הרמוניות.‏ 

לעיתים יהיה 

עדיף להוריד את ההרמוניה העשירית מהייצוג,‏ אמנם אז יהיה פחות הרמוניות,‏ שש 

במספר,‏ אך הן יהיו רצופות.‏ שיקולים אלו נכנסים למדדים.‏ 

האלגוריתם נותן תוצאות טובות,‏ הוא מוצא את התדרים היסודיים ולפעמים חלוקה שלמה של 

התדרים,‏ או גורם משותף בין מספר תדרים יסודיים.‏ החיסרון באלגוריתם זה הוא התלות הרבה 

במדדים.‏ 

6.5 אלגוריתם למציאת תדר יסודי דומיננטי בשיטת מסרק תדרים 

בסעיף זה מתואר אלגוריתם נוסף למציאת תדר יסודי דומיננטי והוא מתואר בהרחבה ב-‏ [25]. 

האלגוריתם מבוסס על בניית מסרק תדרים וחיפוש התאמה מירבית בינו ובין ספקטרום האות.‏ 

עבור תדר יסודי f, מתכננים את פונקציית המסרק כך שתקבל ערך מקסימלי בתדרים:‏ 

.f, 2f, 3f… 

מגדירים פונקציה U, המגדירה את ההתאמה בין מסרק התדרים לספקטרום בצורה הבאה:‏ 

U ( f ) = 

∞ 

∫ 

0 

c 

f 

( v) 

⋅ 

- 70 - 

X ( v) 

dv 

(6.8)

X(v) 

c(v) 

כאשר f 

הוא תדר הנבדק ‏(אפשרות לתדר יסודי),‏ 

הוא פונקציית המסרק,‏ 

ספקטרום האות ו-‏ v הוא משתנה האינטגרל שמשמעותו תדר.‏ 

הפונקציה היא הכפלת מסרק תדרים בספקטרום האות וחישוב האנרגיה תחת המכפלה.‏ 

התדר 

אשר מביא לערך מירבי של U הוא התדר היסודי הדומיננטי,‏ לפי:‏ 

הוא 

f = F 0 

F0 = arg max{ U ( f )} 

f 

(6.9) 

. 

f ∈[ F min 

, Fmax 

כאשר איזור החיפוש הוא ] 

תהליך המקסימיזציה מראה שאנרגית האות מתרכזת סביב התדר 

F 0 

וההרמוניות שלו.‏ 

המקסימום הגלובלי של U 

לא בהכרח יהיה בתדר הבסיס האמיתי אלא יכול להתקבל בתדר 

שהוא חלוקה שלמה של התדר היסודי.‏ לשם כך יש לבחון גם את ערכי המקסימום המקומיים על 

.6.8 

c F0 (v) 

פני U. 

דוגמה לפונקציית מסרק ניתנת באיור 

1 

... 

0.8F 0 

0.9F 0 

1.1F 0 1.2F 0 

F 0 

1.8F 0 1.9F 0 

2.1F 0 2.2F 0 

2.9F 0 

3.1F 0 3.2F 0 

2F 0 3F 0 

. F 0 

2.8F 0 frequency 

איור 6.8: מסרק תדרים סביב תדר יסודי 

כל שן במסרק בנויה בצורת טרפז.‏ 

Figure 6.8 Frequency comb around F 

0 

. 

Each single period of the comb function is shaped as a trapezoid. 

דוגמה לאות כניסה,‏ ניתן לראות באיור 6.9. אות כניסה הכולל שלושה תדרים יסודיים.‏ 

- 71 -

ו-‏ 1980 הרץ . 

איור 6.9: ספקטרום של אות כניסה . 

האות כולל תשעה סינוסים בתדרים 

‏(כולל שלוש הרמוניות)ו-‏ 

‏(כולל חמש הרמוניות),‏ התדרים היסודיים הם הרץ ‏(כולל שלוש הרמוניות).‏ 

660 

,1565 ,1315 ,1175 ,1045 ,780 ,660 ,520 ,390 : 

520 הרץ 

: 390 הרץ 

Figure 6.9: Input signal spectrum. 

The signal is composed of nine sinusoids at frequencies: 390, 520, 660, 780, 1045, 1175, 1315, 1565 

and 1980 Hz. The fundamental frequencies are: 390Hz (five harmonics), 520Hz (three harmonics) and 

660Hz (three harmonics). 

תפוקת האלגוריתם מוצגת באיור 6.10. 

איור 6.10: תפוקת האלגוריתם.‏ 

הגרף מציג את ערכי U כפונקציה של התדר הנבחר.‏ ניתן לראות בגרף שני שיאים גדולים בתדרים 

לשם מניעת בחירה של מחזור pitch כפול בוחרים בתדר הגבוה,‏ כלומר את 

הרץ.‏ 

133 

66 ו-‏ 133 הרץ.‏ 

Figure 6.10: The comb algorithm output. 

The graph shows the values of U as a function of frequency. There are two strong peaks at 66 and 133 

Hz. To prevent a double pitch period, the highest frequency 133Hz, is chosen. 

התדר היסודי הדומיננטי שנבחר הוא .133Hz 

האמיתיים,‏ 

כמוצג באיור 

תדר זה אינו אחד משלושת התדרים היסודיים 

אבל זהו התדר המשותף של האות,‏ 

כלומר שלושת התדרים 

.6.9 

היסודיים של האות הם כפולה שלמה של .133Hz 

דוגמה נוספת מתוארת באיור 6.11. הדוגמה כוללת תדר יסודי יחיד בלבד.‏ 

- 72 -

440 הרץ.‏ 

איור 6.11: ספקטרום של אות כניסה-‏ דוגמה 

זהו קטע פסנתר,‏ בו מופיע תדר יסודי יחיד,‏ שהוא 

ניתן לראות את ההרמוניות בבירור.‏ 

Figure 6.11: Input signal spectrum – example 2. 

This is a piano segment, which includes only one fundamental frequency at 440Hz. The harmonics can 

be seen clearly. 

תפוקת האלגוריתם מוצגת באיור 6.12. כפי שניתן לראות,‏ האלגוריתם נותן תוצאות נכונות כאשר 

.2 

מדובר באות כניסה עם תדר יסודי יחיד.‏ 

איור 6.12: תפוקת האלגוריתם-‏ דוגמה 

בתוצאת האלגוריתם ניתן לראות שיאים בעלי ערך גבוה ודומה בתדרים 

56 הרץ.‏ כל השיאים הם מחלקים שלמים של 448 הרץ.‏ הבחירה היא לפי התדר הגבוה.‏ 

,89 ,112 ,149 ,225 ,448 

.2 

,64 ,74 

Figure 6.12: The algorithm output – example 2. 

The plot shows peaks with about the same values at 448, 225, 149, 112, 89, 74, 64 and 56 Hz. All the 

peaks are integer divisors of 448 Hz. So, the chosen frequency is the higher one, 448Hz. 

דוגמה נוספת מוצגת באיור 6.13. 

- 73 -

איור 6.13: דוגמה שלישית לביצועי האלגוריתם.‏ 

קטע פסנתר הכולל שלושה תדרים יסודיים:‏ 

התדר היסודי ב-‏ 440 הרץ כולל הרמוניות עם עוצמה נמוכה יחסית.‏ 

הספקטרום של אות הכניסה מוצג באיור העליון ותפוקת האלגוריתם באיור התחתון.‏ האלגוריתם 

נותן שיא גבוה ב-‏ 74 הרץ.‏ תדר זה הוא גורם משותף ‏(מקורב)‏ של שלושת התדרים היסודיים.‏ 

370 ,295 ו-‏ 440 הרץ.‏ 

Figure 6.13: Third example for algorithm performance. 

This is a piano segment, which is composed of three fundamental frequencies at 295, 370 and 440 Hz. 

The fundamental frequency at 440Hz is relatively low. The spectrum of the input signal is presented in 

the uper plot and the algorithm output in the lower plot. The lower plot shows a high peak at 74Hz. 

This frequency is common of all three fundamental frequencies. 

דוגמה רביעית מוצגת באיור 6.14. 

- 74 -

איור 6.14: דוגמה רביעית לביצועי האלגוריתם.‏ 

זהו קטע מוסיקלי מורכב הכולל שלושה תדרים יסודיים:‏ 

הספקטרום של אות הכניסה מוצג באיור העליון ותפוקת האלגוריתם באיור התחתון.‏ האלגוריתם 

מקבל שיא גבוה 98 הרץ.‏ תדר זה הוא גורם משותף של שניים מהתדרי היסודיים,‏ 

300 ו-‏ 390 הרץ.‏ 

330 ,300 ו-‏ 390 הרץ.‏ 

Figure 6.14: Fourth example for algorithm performance. 

This is a complex musical segment, which compose of three fundamental frequencies at300, 330 and 

390 Hz. The spectrum of the input signal is presented on the uper plot and the algorithm output on the 

lower plot. The lower plot shows a high peak at 98Hz. This frequency is common of two of the 

fundamental frequencies, 300 and 390Hz. 

האלגוריתם יעיל מאוד כאשר אות הכניסה כולל רק תדר יסודי 

עבור אותות דיבור ‏(דובר יחיד).‏ 

(pitch) 

יחיד לכן,‏ הוא מאוד יעיל 

כאשר האות מורכב ממספר תדרים יסודיים,‏ כמו באות מוסיקלי,‏ האלגוריתם לא מפיק את התדר 

היסודי הדומיננטי,‏ אלא ברב המיקרים איזשהו גורם משותף לחלק ‏(או לכל)‏ מהתדרים היסודיים.‏ 

המוצא של האלגוריתם הוא הגרף 

U(f) 

ובחירת השיאים הוא תהליך לא פשוט,‏ שכן יש הרבה 

שיאים ולא בהכרח התדר הרצוי הוא בעל השיא הגבוה ביותר.‏ 

תוצאה זו קורית כיוון שהאלגוריתם מושפע מאוד מעוצמת התדרים של אות הכניסה.‏ 

יש עדיפות לתדר יסודי הכולל הרמוניות בעלות עוצמות גבוהות מאשר תדר יסודי הכולל 

הרמוניות עם עוצמות נמוכות יותר,‏ על אף שיתכן שלאחרון יש יותר הרמוניות.‏ 

האלגוריתם יכול להיות מושפע גם מתדרים בדידים שלא שייכים לאף הרמוניה ‏(של תדר יסודי)‏ 

שעוצמתם חזקה.‏ 

6.6 שיטה מוצעת למציאת תדרים יסודיים על פי כיסוי מירבי 

אלגוריתם נוסף למציאת תדרים יסודיים מתואר בסעיף זה.‏ האלגוריתם מבוסס על מציאת 

תדרים הנותנים כיסוי מקסימלי של קבוצת התדרים,‏ שחושבה במודל הסינוסואידלי,‏ ולכן הם לא 

בהכרח התדרים היסודיים אמיתיים.‏ השיקול המכריע הוא גורם הדחיסה,‏ כיוון שיש למצוא תדר 

המייצג מספר רב ככל הניתן של תדרים קיימים ובכך לחסוך את שידורם.‏ 

נתונה קבוצת תדרים 

= 1 i F} M ‏}שחושבה ע"י המודל הסינוסואידלי.‏ 

- 75 -

על מנת שלא לשדר כל תדר ותדר בקבוצה,‏ מחפשים תדר או מספר תדרים מצומצם המייצגים את 

כל או מרבית התדרים בקבוצה.‏ 

רק אותם תדרים מייצגים,‏ הנקראים גם תדרים יסודיים,‏ ישודרו.‏ 

השיטה מבוססת על חיפוש הרמוניות בתחום התדר,‏ כאשר המטרה היא כיסוי מלא של קבוצת 

התדרים 

.{ F} M i = 1 

מחפשים תדר בתחום 

[50, 2000] 

סטיה של עד 1%) מכסות מספר מקסימלי של תדרים בקבוצה 

עוברים על כל אחד מתדרי הקבוצה 

הרץ,‏ שההרמוניות שלו ‏(כפולות שלמות של תדר יסודי,‏ עם 

.{ F} M i = 1 

= 1 i }. {F M עבור כל F מחפשים תדרים ‏(בתחום החיפוש)‏ שאחת 

ההרמוניות שלהן הוא F. תדרים אלו יהיו מחלקי התדר F והם מסומנים ע"י,‏ 

m = 1,2,3,… 

F 

m 

(6.10) 

תדרים אלו מייצגים את התדר F בעזרת ההרמוניה ה-‏ m. 

לכן מסמנים את התדרים 

F 

m 

‏(דוגמה לפונקציית מסרק ניתן לראות באיור 6.16). 

מאחר ומאפשרים סטיה של 

להוות אופציה לתדר יסודי.‏ 

1% 

כאופציה להיות תדר יסודי,‏ בעזרת הערך 1 בפונקציית המסרק 

בייצוג,‏ 

מרשים גם 

לתדרים בסטיה של עד 

מהתדר F 

m 

1% 

כל ‏"שן"‏ 

בפונקציית המסרק תיראה כמלבן סביב התדר , F כאשר אורך המלבן שווה ל 

m 

מהתדר וערכו שווה ל-‏ 1, כמתואר באיור 

±1% 

.6.15 

מספר 


:6.15 

תדר 

1 

F 

m 

איור פונקציית המלבן סביב תדר יסודי אופציונלי.‏ 

התדרים המקבלים ערך אחד הם תדרים אופציונליים לתדר יסודי.‏ 

Figure 6.15: Rectangular function around the optional fundamental frequency. 

The frequencies that get one are the optinal fundamental frequencies. 

- 76 -

באיור 6.15 נראית פונקציית מלבן יחידה סביב מחולק אחד ‏(שערך החלוקה הוא m). באיור 

ניתן לראות את המסרק שנוצר בכל התדרים האופציונלים בכל התחום.‏ 

,6.16 

3 

frequencies represent F=3000 Hz 

2.5 

2 

1.5 

1 

F 

4 

F 

3 

F 

2 

0.5 

0 

-0.5 

0 200 400 600 800 1000 1200 1400 1600 1800 2000 

frequency[Hz] 

:6.16 

איור פונקצית מסרק המראה את התדרים האופציונליים.‏ 

בדוגמה,‏ מחפשים אחר תדר בסיס המייצג את תדר 

מחלקי התדר יופיעו ב-‏ 

.3000 Hz 

1500Hz ‏(חצי),‏ 1000Hz ‏(שליש),‏ 750Hz ‏(רבע)‏ 

וכך הלאה.‏ 

Figure 6.16: Comb function showing the optional frequencies. 

In the example, we look for a fundamental frequency that represents the frequency 3000Hz. 

The frequency divisors appear at 1500Hz (division by 2), 1000Hz (division by 3), 750Hz (division by 

4), and so on. 

בגרף ‏(באיור 

(6.16 

ניתן לראות את התרומה של כל תדר בתחום 

בצורה דומה עוברים על פני כל התדרים בקבוצה 

2000] [50, לייצוג התדר .F 

,{ F} M i = 1 

בכל שלב מסכמים את פונקציות 

המסרק,‏ המושפעות מכל תדר בקבוצה,‏ לקבלת פונקציית המסרק הכוללת.‏ בודקים איזה תדר ‏(או 

קבוצת תדרים)‏ מייצג מספר מקסימלי של הרמוניות ונבחר בו לתדר היסודי ‏(לפי הקריטריון של 

כיסוי מקסימלי).‏ דוגמה לתפוקת האלגוריתם מתוארת באיור 6.17. קבוצת התדרים 

ששה תדרים:‏ 

= 1 i F} M ‏}כוללת 

.3000 ,1200 ,900 ,600 ,300 ,100 

בכל שלב באלגוריתם ‏(מספר השלבים כמספר 

התדרים בקבוצה 

{ } M i 

F = 1 

( מוסיפים אחד לתדר 

100 הרץ,‏ כיוון שהוא מהווה חלוקה שלמה של כל 

תדר בקבוצה 

את 

= 1 i {F M ‏}וביחד מגיעים לערך 6, כפי שניתן לראות באיור.‏ זהו התדר היחידי בו מתקבל 

ערך מקסימלי ‏(כיסוי מירבי)‏ ולכן 100 הרץ הוא התדר היסודי.‏ ניתן לראות שגם בתדר 

‏(ובמספר תדרים נוספים)‏ מתקבל ערך גבוה,‏ אך תדר זה מכסה פחות תדרים 

300 הרץ 

(5 תדרים)‏ 

100 הרץ.‏ 

ולכן נעדיף 

- 77 -

6 

number of represented frequencies in MAX 

5 

4 

3 

2 

1 

0 

0 200 400 600 800 1000 1200 1400 1600 1800 2000 

frequency[Hz] 

איור 6.17: חיפוש תדרים יסודיים לפי כיסוי מירבי.‏ 

בגרף משורטט סיכום כל פונקציות המסרק שנוצרו בעקבות כל תדר בקבוצה F. 

Figure 6.17: Searching fundamental frequencies by maximal cover. 

The graph shows sum of all comb function that are created by each frequency of the set F. 

מאחר שפונקציית המסרק היא בצורת מלבן עם רוחב בגודל של 1% מהתדר.ישנם מספר תדרים 

הנותנים מקסימום,‏ מביניהם נבחר התדר הנותן דיוק מירבי.‏ בדוגמה,‏ המתוארת באיור 

6.17 כל 

התדרים בין 99Hz ל-‏ 101Hz נותנים מקסימום של 6 ‏(מאחר ומאפשרים סטיה של 1%). 

מביניהם יבחר התדר בעל הדיוק המירבי,‏ כלומר הסטיה המינימלית בין ייצוג התדרים ע"י 

כפולות שלמות לבין התדרים האמיתיים,‏ לכן התדר 100Hz יבחר.‏ 

לאחר מציאת תדר יסודי אחד,‏ מרחיקים את התדרים שכוסו ע"י התדר היסודי שנמצא והתהליך 

חוזר על עצמו,‏ למציאת תדרים יסודיים נוספים.‏ התהליך נעצר כאשר מספר התדרים הנותרים 

ללא ייצוג קטן מ-‏‎2‎ או כאשר המספר מקסימלי של תדרים לייצוג שחושב באיטרציה האחרונה 

היה שווה ל-‏ 1. 

האלגוריתם מציג שתי בעיות,‏ הדורשות התייחסות.‏ 

פונקציית המסרק,‏ המתקבלת עבור כל תדר בקבוצה 

= 1 i }, {F M צריכה לקבל ערכים שלא עולים על 

אחד בתחום התדרים [2000 ,50] הרץ.‏ בעיה ראשונה מתרחשת כאשר פונקציית המסרק מקבלת 

ערך 2 עבור תדר F מסויים,‏ כלומר תדרים מסויימים מייצגים 

תדר F אחד.‏ 

בעיה זו קורית כאשר יש איזורים משותפים במלבנים של 

כאשר m גדול מאוד ואז שני חלקי התדר קרובים אחד לשני.‏ 

תופעה זו מתוארת בתמונות 

{ F} M i = 1 

, 

2 מתדרי 

F 

m +1 

F 

, 

m 

6.18 ו-‏ .6.19 

למרות שנבדק רק 

בעיה זו מתרחשת לרב 

- 78 -

2 


1.8 

1.6 

1.4 

1.2 

1 

0.8 

0.6 

0.4 

0.2 

0 

0 200 400 600 800 1000 1200 1400 1600 1800 2000 

frequency[Hz] 

איור 6.18: הצגת בעיה ראשונה בפונקציית המסרק.‏ 

בדוגמה התדר הוא ניתן לראות שבתדרים הנמוכים ‏(קרוב ל-‏ 50 הרץ)‏ הפונקציה מקבלת 

ערך שניים,‏ דבר שהוא לא הגיוני.‏ לא הגיוני שישנו תדר יסודי המייצג שני תדרים,‏ כיוון שמדובר 

בתדר אחד בלבד,‏ 

3000 הרץ.‏ 

3000 הרץ.‏ 

Figure 6.18: Presentation the first problem with the harmonic cover function. 

In the example the frequency considered 3000Hz. It can be seen that the function gets the value two at 

low frequencies (near 50Hz), a situation that is unreasonable. It is not possible that there is a 

fundamental frequncy, which represent two frequencies, where there is only one frequency, 3000Hz. 

2 


1.8 

1.6 

1.4 

1.2 

1 

0.8 

0.6 

0.4 

0.2 

0 

50 55 60 65 70 75 80 85 90 95 100 

frequency[Hz] 

:6.19 

.2 

כאשר 50=m 

3000, Hz באמצעות ההרמוניה ה-‏ 50 

2970) = (59.4*50 וגם באמצעות ההרמוניה ה-‏ 3029.4) 51 = .(59.4*51 

איור פונקציית מסרק מוגדלת.‏ 

ומעלה,‏ מופיעים איזורים משותפים,‏ המסומנים בערך 

למשל,‏ תדר 59.4 Hz מייצג פעמיים את התדר 

Figure 6.19: Zoom-in of the comb function. 

When m=50 and uper, a common areas appears, that gets a value of two. 

For example, the frequency 59.4 Hz, represents twice the frequency 3000 Hz, 

One time by harmonic no.50 (59.4*50 = 2970) and by harmonic no.51 (59.4*51 = 3029.4). 

- 79 -

בעיה זו ניתנת לפיתרון ע"י הגבלת ערך הפונקציה ל-‏ 1, עבור בדיקת כל תדר ב 

בעיה שניה נוצרת כאשר שני תדרים מהקבוצה 

.{ F} M i = 1 

{ F} M i = 1 

שהתדרים קרובים האחד לשני יהיו איזורים משותפים למלבנים שלהם.‏ 

באיזורים המשותפים תתקבל תרומה של 

2 לייצוג.‏ 

קרובים זה לזה ‏(פחות מ-‏ 2%). מאחר 

מצב זה לא הגיוני,‏ כיוון שלא יתכן שתדר מסויים בהרמוניה מסויימת מייצג שני תדרים.‏ דוגמה 

לתופעה זו ניתן לראות באיור 

.6.20 

3 


2.5 

2 

1.5 

1 

0.5 

0 

-0.5 

0 200 400 600 800 1000 1200 

frequency[Hz] 

איור 6.20: הצגת בעיה שניה בפונקציית המסרק.‏ 

הרץ.‏ מאחר שהתדרים קרובים 

בדוגמה,‏ קבוצת התדרים F מורכבת משני תדרים:‏ 

אחד לשני,‏ למלבנים יש איזורים משותפים.‏ למשל,‏ תדר הרץ יכול להיות התדר היסודי 

שההרמוניה הראשונה שלו מייצגת גם את התדר 985 הרץ וגם את התדר 1000 הרץ.‏ מצב כזה לא 

985 ו-‏ 1000 

990 

צריך לקרות.‏ 

Figure 6.20 : Presentation the second problem with the harmonic cover function. 

In the example, the set of frequencies, F, is composed of two frequencies: 985 and 1000Hz. Since the 

frequencies are near, each rectangular has a common area. For instance, the frequency 990 Hz can be 

the fundamental frequency, which its first harmonic represent the frequency 985 Hz and also represent 

1000Hz. This situation must be avoided. 

על מנת למנוע מצב זה,‏ מחפשים בקבוצה 

{ F} M i = 1 

את אותם תדרים קרובים,‏ שיובילו לבעיה.‏ עבור 

התדר הנמוך מביניהם מחשבים את המלבנים כרגיל,‏ בסטיה של 1%, ועבור התדר הגבוה מביניהם 

מקטינים את התחום הנמוך של המלבנים עד לערך התדר הנמוך מוכפל ב-‏ 

תהיה חפיפה בין המלבנים.‏ 

,1.01 

בצורה כזו לא 

האלגוריתם מפיק מספר תדרים יסודיים הנותנים כיסוי מקסימלי.‏ התדרים היסודיים אינם 

אמיתיים,‏ וניתן לראות זאת בהרמוניות הלא רצופות ‏(אי קיום מספר רב של הרמוניות).‏ לפיכך 

ישודר משתנה נוסף,‏ המציין את מיקום ההרמוניות.‏ 

- 80 -


בפרק תוארו מספר שיטות למציאת תדרי בסיס.‏ האלגוריתמים סווגו על פי תחום החיפוש 

זמן/תדר.‏ 

החיפוש בתחום התדר יותר יעיל והוא מבוסס על מציאת תדר שכפולותיו חופפות בצורה מירבית 

עם הספקטרום.‏ השיטות מפיקות את תדרי הבסיס,‏ אבל בפועל התפוקות יכולות להיות גורם 

משותף של חלק מתדרי הבסיס.‏ 

מטרת העבודה היא דחיסה ולכן פחות חשוב למצוא תדרי בסיס אמיתיים.‏ במקומם,‏ ניתן לחפש 

אחר תדרים מייצגים המביאים לכיסוי מירבי של תדרי הטונים לשידור.‏ השיטה המוצעת,‏ 

המתוארת בסעיף 6.6, מבוססת על רעיון זה.‏ 

תוצאות האלגוריתם מסוכמות בטבלה 6.1. 

שם קובץ 

מספר תדרים 

כולל 

בדידים 

1.62 

0.88 

1.14 

0.44 

0.89 

2.13 

0.94 

0.9 

0.59 

2.1 

0.93 

1.18 

1.64 

2.47 

2.17 

1.67 

1.16 

1.34 

2.12 

2.44 

2.05 

2.59 

1.89 

1.37 

0.61 

2.27 

2.16 

0.93 

0.72 

1 

1.22 

1.59 

0.7 

1.78 

2.52 

1.47 

1.94 

0.94 

1.19 

1.76 

Pitch 2 Pitch 1 

2.47 

24.83 

2.04 

48.45 

2.36 

46.34 

1.22 

33.46 

2.43 

28.53 

3.39 

36.63 

0.37 

38.56 

2.14 

55.33 

2.32 

53.66 

3.26 

22 

2.28 

36.59 

2.25 

35.7 

1 

19.63 

3.6 

21.97 

3.71 

57.69 

2.47 

47.65 

1.11 

21.78 

2.77 

57.23 

3.39 

44.89 

3.56 

59.71 

3.13 

56.94 

3.07 

50.86 

2.23 

26.48 

0.34 

17.77 

3.12 

55.11 

3.66 

52.54 

3.78 

56.58 

2.23 

32.13 

2.1 

34.31 

2.31 

30.26 

2.69 

30.04 

2.71 

40.77 

0.19 

26.19 

2.71 

32.8 

4.19 

61.1 

2.46 

36.72 

2.92 

40.48 

2.42 

49.96 

2.9 

48.36 

2.7 

32.93 

28.93 

51.37 

49.83 

35.11 

31.85 

42.15 

39.87 

58.37 

56.57 

27.36 

39.81 

39.12 

22.26 

28.05 

63.56 

51.79 

24.05 

61.34 

50.4 

65.71 

62.12 

56.53 

30.6 

19.48 

59.84 

58.48 

62.52 

35.3 

37.13 

33.56 

33.95 

45.08 

27.07 

37.29 

67.81 

40.65 

45.34 

53.32 

52.62 

37.39 

original 

4eyes 

10four 

banjo 

Bass 

Bethoven 

Clar_d_a 

Drums 

Goodan 

Ibml 

Incur 

Latu 

Logoff 

Mic 

Music1 

Music2 

Music3 

Musci4 

Music5 

Music6 

Music7 

Music8 

Music10 

Music11 

Music12 

Music13 

Music14 

neck 

Not 

Notclose 

relax 

Sax1mon 

Saxsophone 

Signal 

snare 

Step 

Stngmon 

Think 

Tplease 

Track 

- 81 -

1.27 

1.5 

2.79 

2.5 

53.64 

40.4 

57.7 

44.4 

wrong 

ממוצע 

טבלה 6.1: סיכום תפוקות האלגוריתם לכיסוי מלא.‏ 

בטבלה מסוכמות תוצאות האלגוריתם ‏(ממוצעים לכל קובץ)‏ למציאת תדרים יסודיים על פי כיסוי 

מלא.‏ הורצו למעלה מ-‏ 40 קטעי שמע שונים,‏ כאשר שמם מופיע בעמודה הימנית.‏ מספר התדרים 

הכולל בקבוצת התדרים F מופיע בעמודה השניה מימין.‏ מספר התדרים המכוסים באמצעות תדר 

יסודי ראשון מופיע בעמודה האמצעית.‏ מספר התדרים המכוסים ע"י תדר יסודי שני,‏ מוצג 

בעמודה השניה משמאל ומספר הסינוסים הבדידים,‏ שלא מיוצגים ע"י תדר יסודי מופיע בעמודה 

השמאלית.‏ 

Table 6.1: Output summary for full cover algorithm. 

The table summarizes (average numbers for each file) the algorithm output for searching fundamental 

frequencies by max cover. More then 40 audio signals were tested, their name is listed on the right 

column. The total number of frequencies at F appears on the second column. The number of 

frequencies covered by the first pitch is presented on the middle column. The number of frequencies 

covered by the second pitch is presented on the next column. The number of individual sinusoids 

תדר יסודי ראשון תמיד קיים והוא נותן כיסוי מאוד משמעותי,‏ 

התדרים.‏ 

appears on the left column. 

של כ-‏ 90% 

מכלל קבוצת 

לעומתו התדר היסודי השני קיים ב-‏ 75% מהמסגרות והוא מכסה כ-‏ 6% מכלל קבוצת התדרים.‏ 

תדר זה מייצג בממוצע 

2.5 תדרים,‏ 

לפי טבלה 

.6.1 

מספר זה מתייחס גם למצבים בהם אין תדר 

יסודי שני ‏(הממוצע כולל ערך אפס).‏ בהינתן שהתדר היסודי השני קיים,‏ הוא מייצג 

בממוצע.‏ אמנם זהו לא ייצוג רב היקף,‏ אבל בכל זאת מאפשר שיפור בתהליך הדחיסה.‏ 

3.4 תדרים 

ניתן להמשיך בחיפוש אחר תדרים יסודיים נוספים ‏(תדר יסודי שלישי ומעלה),‏ אך היעילות שלהן 

מאוד נמוכה,‏ כיוון שמספר התדרים שהם מייצגים הוא נמוך מאוד ואין כדאיות בשימוש בהם.‏ 

האלגוריתם,‏ אכן מאפשר כיסוי מקסימלי של קבוצת התדרים.‏ כפי שניתן לראות בטבלה,‏ נשארים 

בממוצע רק 1.5 תדרים בדידים,‏ שלא מכוסים ע"י שני תדרים יסודיים.‏ ‏(מניסויים,‏ שנעשו על פני 

כ-‏ 25000 מסגרות,‏ התקבל ערך מקסימלי של 

6 בדידים).‏ 

- 82 -

פרק 7 

מודל לייצוג אמפליטודות הטונים 


על פי המודל הסינוסואידלי,‏ בכל מסגרת של אות שמע מפיקים מספר סופי של סינוסים.‏ מספר 

הסינוסים אינו קבוע והוא משתנה ממסגרת למסגרת.‏ כל סינוס מיוצג באמצעות תדר 

ואמפליטודה ‏(כאשר הפאזה לא משודרת).‏ ייצוג התדרים תואר בפרק 

,6 

ע"י מציאת תדרים 

יסודיים.‏ את קבוצת האמפליטודות,‏ יש למדל ולכמת על מנת להגיע לדחיסה מירבית,‏ עם מינימום 

הפסד שמיעתי.‏ 

מספר שיטות 

[45] [30] 

הוצעו לייצוג מספר משתנה של אמפליטדות ספקטרליות בדידות,‏ החל 

משיטות לא פרמטריות,‏ כגון כימות סקלרי,‏ כימות וקטורי עם מימד משתנה,‏ ושימוש ב DCT על 

מנת לכמת אמפליטודות ספקטרליות.‏ אבל,‏ בקצבים הנמוכים מאוד,‏ שיטות פרמטריות כמו חיזוי 

לינארי (LPC) הן הרבה יותר יעילות.‏ 

השיטה המקובלת כיום 

[15] 

לייצוג אמפליטודות של טונים היא בעזרת מעטפת ספקטרלית.‏ 

מעטפת ספקטרלית עוקבת אחר שינויי אמפליטודה לאורך ציר התדר.‏ לפיכך,‏ דגימת המעטפת 

בנקודת שיא בתדר מסוים תיתן את ערך האמפליטודה ‏(בקירוב)‏ של המרכיב הסינוסואידלי בתדר 

הנתון.‏ 

דוגמה לשימוש של מעטפת ספקטרלית לייצוג אמפליטדות מוצגת באיור 

.7.1 

dB 

30 

20 

10 

0 

-10 

x 

x 

x 

x 

x x 

x 

x 

x 

x 

x 

-20 

-30 

-40 

0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 

frequency [Hz] 

x 

x 

x 

איור 7.1: מעטפת ספקטרלית.‏ 

שיוצרה ע"י 

המעטפת הספקטרלית,‏ ספקטרום האות משורטט בקו מלא.‏ משורטטת בקו מלא מסומן ב-‏ 

מקדמי 20 

,LPC 

."x" 

Figure 7.1: Spectral envelope. 

The signal spectrum is ploted with a full line. The spectral envelope, which was formed by 20 LPC 

coefficients, is plotted with a full line and "x". 

- 83 -

קידוד המעטפת הספקטרלית ‏(מקדמי ה-‏ (LPC הוא מאוד יעיל הן משיקולי דחיסה,‏ שכן אין צורך 

בקידוד מספר רב של אמפליטודות והן משיקולי נוחות,‏ שכן בכל מסגרת משודר מספר קבוע של 

פרמטרים ‏(מקדמי ה-‏ ,(LPC ללא תלות במספר האמפליטדות.‏ תהליך מציאת מקדמי ה-‏ LPC 

מתואר ב-‏ [48]. 

עם זאת,‏ השימוש במעטפת ספקטרלית,‏ הנוצרת בעזרת מקדמי החיזוי הלינארי,‏ מצביע על מספר 

בעיות.‏ הבעיתיות בייצוג המעטפת של ערכים בודדים על פני הספקטרום,‏ מופיעה בהרבה 

שימושים של ייצור וקידוד אותות שמע.‏ 

הבעיה העיקרית היא הדיוק בייצוג האמפליטודות ע"י המעטפת.‏ עקומת המעטפת לא עוברת 

במדוייק דרך הנקודות ‏(תדר,אמפליטודה)‏ שיש לקודדן.‏ לעיתים,‏ הסטייה גדולה מאוד,‏ דבר הפוגע 

באיכות השמע המשוחזר.‏ 

בדוגמה שבאיור 

,7.1 

ניתן לראות,‏ שהמעטפת הספקטרלית סוטה בהרבה בייצוג האמפליטודה של 

הטון החזק השני.‏ המעטפת עוברת הרבה יותר נמוך מהאמפליטודה האמיתית,‏ הנמצאת בשיא 

‏(החזק)‏ השני של ספקטרום האות.‏ 

במצב זה,‏ לא ישמע כלל טון זה,‏ כיוון שנוצרה הנחתה משמעותית בעוצמתו.‏ 

יתכנו מצבים הפוכים,‏ בהם המעטפת תגרום להגברה של טונים חלשים ולכן תיצור עיוות באות 

השמע.‏ 

בפרק מתוארים מספר שיטות לפיתרון הבעיה.‏ השיטות מבוססות על מציאת מעטפת ספקטרלית 

משופרת,‏ המייצגת את האמפליטדות הבדידות בצורה הרבה יותר מדויקת.‏ האלגוריתמים מנסים 

להקטין עד כמה שניתן את הסטיה בין האמפליטדות האמיתיות לבין אלו הנדגמות ע"י המעטפת 

‏(אמפליטודות המודל).‏ שיטה להתאמת המעטפת בתחום הזמן מתוארת בסעיף 

הפועלת בתחום התדר מתוארת בסעיף 

,7.2 

.7.3 

ושיטה נוספת 

7.2 שיטה להתאמת המעטפת בתחום הזמן 

אמפליטודות המודל,‏ המתקבלות מדגימת המעטפת,‏ אינן מדוייקות מספיק.‏ 

מצב אופטימלי הוא שעקומת המעטפת תעבור במדוייק דרך כל האמפליטודות.‏ מצב זה אינו 

אפשרי,‏ לפחות עבור מספר מוגבל של פרמטרים המייצגים את המעטפת ‏(מקדמי 

האלגוריתם מבוסס על ביצוע שינויים במקדמי ה-‏ 

.(LPC 

,LPC 

בצורה כזו שהמעטפת הספקטרלית 

תתאים יותר לדרישות.‏ המעטפת במתכונתה הנוכחי,‏ מושפעת מכל מרכיבי האות,‏ ולא רק 

מהמרכיבים,‏ שאותם מעונינים למדל.‏ 

על פי המודל,‏ המעטפת מייצגת את אמפליטדות של קבוצת התדרים ההרמונים ‏(הנקבעים לפי שני 

תדרי בסיס).‏ גורמים אחרים,‏ כמו סינוסים בדידים,‏ לא בהכרח משודרים בגלל מגבלת סיביות 

ולכן לא משתמשים במעטפת הספקטרלית לייצוג האמפליטודות שלהם.‏ 

שינוי זה עלול לבוא על חשבון מרכיבים אחרים אותם צריך למדל.‏ לפיכך,‏ מבצעים בידוד של 

המרכיבים הרלוונטיים ‏(הרמוניות),‏ כך שהמעטפת תושפע אך ורק מהם,‏ ותהווה המעטפת של 

המרכיבים ההרמוניים.‏ 

- 84 -

לשם כך,‏ מייצרים אות חדש,‏ 

בתחום הזמן לפי:‏ 

הכולל אך ורק את המרכיבים הרלוונטים.‏ 

תהליך היצור הנעשה 

M 

y( 

n) 

= ∑ Ai 

i= 

1 

⋅ cos(2π f n + ϕ ) 

i 

i 

(7.1) 

האות המיוצר,‏ 

,y(n) 

.7.2 

הוא סכום של M הרמוניות ‏(מספר התדרים ששני תדרי בסיס מייצגים),‏ 

כאשר כל הרמוניה מיוצרת בעזרת אמפליטודה,‏ תדר ופאזה.‏ 

על האות המסונתז מחשבים את מקדמי ה-‏ LPC ומייצרים מעטפת ספקטרלית,‏ כמתואר באיור 

20 

spectrum of audio signal 

10 

0 

-1 0 

-2 0 

-3 0 

-4 0 

-5 0 

-6 0 

0 1000 2000 3000 4000 5000 6000 7000 8000 


איור 7.2: ספקטרום של אות מסונתז.‏ 

האות כולל אך ורק את המרכיבים הרלוונטיים ‏(הרמוניות),‏ שהאמפליטודה שלהם נדרשת לייצוג 

בעזרת מעטפת.‏ ספקטרום האות משורטט בקו מלא והוא כולל תדרים,‏ שניתן להבחין בהם 

כשיאים.‏ נקודת החיתוך של מעטפת ה-‏ LPC בתדרים אלו מסומנת בעיגול.‏ 

16 

Figure 7.2: Synthesize signal spectrum. 

The signal composed only of the relevant components (harmonics), which their amplitude is 

represented by the envelope. The signal spectrum is plotted with a solid line, and includes 16 

frequencies, which can be observed as peaks. The crossing point of the LPC envelope with those 

frequencies are marked by a circle. 

הבעיותיות במודל המעטפת נראית בבירור,‏ למרות הוצאת המרכיבים הלא רלוונטיים.‏ ניתן 

לראות שחלק מההרמוניות יוגברו ‏(למשל,‏ התדר השישי,‏ קרוב ל-‏ 

יוחלשו ‏(למשל,‏ התדר השני,‏ ליד .(500Hz 

(2000Hz 

וחלק מהתדרים 

שינויים אלו בעוצמות גורמות לחלק מהמסגרות להישמע בצורה ‏"מעוותת"‏ לאוזן האנושית.‏ 

- 85 -

על מנת לפתור בעיה זו,‏ ננסה לעצב את המעטפת,‏ כך שתעבור קרוב ככל הניתן דרך האמפליטודות 

האמיתיות.‏ 

מספר אפשרויות לשינוי המעטפת הרגילה נבדקו:‏ 

LPC באיטרציות 

• 

• 

• 

בחינת השפעת מספר המקדמים,‏ N, על הביצועים.‏ 

שינוי סקלת התדר לסקלת .Bark 

LPC 7.2.1 באיטרציות 

המעטפת הספקטרלית המחושבת בעזרת מקדמי 

LPC 

גורמת להגברתם או החלשתם של 

סינוסים.‏ תופעה זו מתרחשת כאשר המעטפת עוברת מעל העוצמה האמיתית של טון בתדר 

מסויים או להיפך,‏ כאשר המעטפת עוברת מתחת לעוצמה האמיתית.‏ 

על מנת לתקן את צורת המעטפת,‏ כך שתעבור במדויק יותר דרך העוצמות האמיתיות של הטונים,‏ 

ננסה לשנות בצורה איטרטיבית את המעטפת הספקטרלית.‏ שינוי המעטפת מתבצע ע"י שינוי אות 

הכניסה.‏ השינויים באות הכניסה יהיו עדינים ‏(קטנים)‏ על מנת לקבל שינויים עדינים במעטפת.‏ 

השינויים כוללים הגברה או החלשה של האמפליטודות האמיתיות.‏ בכל איטרציה מחושבת מחדש 

מעטפת ,LPC 

אך כל פעם על אות כניסה שונה.‏ האלגוריתם מתכנס כאשר יש התכנסות בעיוות 

‏(שגיאה בייצוג האמפליטודות המקוריות).‏ 

האלגוריתם מבוצע על פי השלבים הבאים:‏ 

מסמנים את קבוצת האמפליטודות המקוריות ע"י האמפליטודת של האיטרציה 

הראשונה.‏ 

• 

A 

m,1 

= A m 

(7.2) 

כאשר האינדקס הראשון,‏ m מציין את מספר הטון והאינדקס השני מציין 

את מספר האיטרציה.‏ 

(7.3) 

• 

מייצרים אות כניסה ‏(בתחום הזמן)‏ ע"י סכום של סינוסים ‏(תדרים,‏ אמפליטודות 

ופאזה),‏ כאשר הסינוסים הם רק אותם מרכיבים,‏ שעוצמתם אמורה להיות 

מיוצגת ע"י המעטפת.‏ 

M 

 

x( 

n) 

= ∑ Ai 

i= 

1 

⋅ cos(2π f n + ϕ ) 

, iter 

i i 

• האות המיוצר מוכפל בחלון:‏ 

- 86 -

syn( n) 

x( 

n) 

⋅ h ( n) 

ham 

(7.4) 

= • 

מחשבים את מקדמי ה-‏ (N LPC מקדמים),‏ לפי אלגוריתם לוינסון-דרבין.‏ 

• מחשבים את האמפליטודות על פני המעטפת ‏(אמפליטודות המודל):‏ 

A _ lpc 

m 

= 

N 

1− 

∑ 

i= 

1 

1 

a ⋅ z 

i 

−i 

(7.5) 

. z = e 

− j 2πf 

m 

FS 

כאשר 

מנרמלים את העוצמות של המודל ע"י השוואתם לסכום עוצמות הערכים 

האמיתיים:‏ 

• 

A _ lpc 

m 

= 

A _ lpc 

m 

⋅ 

∑ A 

i= 

1 

M 

∑ A _ lpc 

i= 

1 

M 

2 

i 

2 

i 

(7.6) 

D = 

1 

M 

M 

∑ 

i= 

1 

מחשבים את העיוות הממוצע,‏ D ‏(שגיאה ביחידות (dB ע"י:‏ 

20 ⋅ log10 ( real _ Ai ) − 20 ⋅ log10 

( A _ lpc i 

) 

• 

בשלב זה,‏ מסתיימת איטרציה אחת.‏ 

S 

m 

= 

מחשבים מקדמי תיקון factors) (scale 

ע"י:‏ 

Am 

A _ lpc 

m 

(7.7) 

• 

משנים את האמפליטודות האמיתיות בהתאם למקדמי התיקון 

‏(הכפלה בשורש מאפשרת שינויים עדינים יותר).‏ 

• 

A 

= A 

m, 

i+ 1 m, 

i 

⋅ 

S 

m 

(7.8) 

אם העיוות D קטן ‏(אך טרם הגיע להתכנסות)‏ חוזרים לשלב מספר שניים ‏(שלב 

ייצור אות הכניסה).‏ אם העיוות מתכנס האלגוריתם מסתיים.‏ התכנסות מוגדרת 

• 

- 87 -

כאשר העיוות באיטרציה נוכחית קטנה בפחות מ-‏ 0.5% 

באיטרציה קודמת.‏ 

מהעיוות שחושב 

דוגמה לתוצאת האלגוריתם,‏ ניתן לראות באיור 

.7.3 

20 


10 

0 

-10 

-20 

-30 

-40 

-50 

-60 

0 1000 2000 3000 4000 5000 6000 7000 8000 


איור 7.3: תפוקת האלגוריתם לעיצוב המעטפת הספקטרלית באיטרציות.‏ 

בשרטוט ניתן לראות את הדוגמה המופיעה באיור ספקטרום האות משורטט בקו מלא 

ועוצמות המודל מסומנות בעיגול.‏ 

.7.2 

Figure 7.3: Example of shaping the spectral envelope by the iterative algorithm. 

The example is the same as in figure 7.2. The signal spectrum is drawn with a solid line and the model 

amplitudes are marked by a circle. 

ניתן לראות שהפערים בין אמפליטודות המודל ‏(בעיגול)‏ לבין האמפליטודות האמיתיות ‏(שיאים)‏ 

קטנו ביחס להפרשים שנראו באיור 

באיור 

.7.2 

7.2 

אמפליטודת הייצוג של התדר השישי ‏(המעטפת הרגילה-‏ איטרציה אחת,‏ בנקודת 

המעבר מעל התדר השישי),‏ היתה גבוהה מדי,‏ לכן בצורה איטרטיבית,‏ עוצמת התדר הוקטנה 

בסינתזת האות עד אשר מעטפת ה 

LPC 

קטנה בהתאם.‏ התדר השני 

, 

הוצג ‏(ע"י המעטפת)‏ 

בעוצמה נמוכה מדי,‏ לכן בגישה האיטרטיבית,‏ מגדילים את עוצמת התדר בייצור האות עד אשר 

המעטפת בנקודה זו גדולה מספיק.‏ 

תוצאות האלגוריתם מסוכמות בטבלה 

האמיתיות.‏ 

,7.1 

המציגה את השגיאה בין עוצמות המודל לעוצמות 

- 88 - 

שם הקטע 

עיוות לפי LPC 

עיוות לאחר 

איטרציות [dB]

2.13 

2.73 

2.42 

1.54 

2.51 

2.76 

2.63 

2.82 

2.31 

2.84 

2.42 

2.46 

[dB] רגיל 

2.52 

3.4 

3 

4.22 

3.19 

3.86 

2.99 

4.48 

3.72 

3.16 

3.43 

3.45 

10four 

bethoven 

Goodan 

Logoff 

mic 

Music10 

Music12 

Music2 

original 

Sax1mon 

track 

ממוצע 

טבלה 7.1: שגיאת המודל האיטרטיבי ביחס למודל הרגיל.‏ 

במודל נבחנו מספר קטעי שמע,‏ ששמם מופיע בעמודה הימנית.‏ שגיאת המודל הרגיל,‏ הכולל 

מעטפת ספקטרלית בעזרת מקדמי מוצגת בעמודה הימנית.‏ שגיאת המודל האיטרטיבי 

מוצגת בעמודה השמאלית.‏ 

,LPC 

Table 7.1: The iterative model error compared to the regular model. 

The names of the audio signals tested are in the right column. The regular model error in dB is 

presented in the middle column. The iterative model error is presented in the left column. 

ניתן לראות שהשיפור הממוצע בין שני המודלים ‏(המודל הרגיל והמודל האיטרטיבי,‏ הכולל 

5 

איטרציות בממוצע)‏ הוא בגודל של כ-‏ .1dB במספר קטעי שמע השיפור מאוד משמעותי ומגיע עד 

ל .3dB 

ישנם קטעים בהם השיפור קטן יחסית ומגיע לסדר גודל של .0.2dB 

7.2.2 בחינת השפעת מספר המקדמים על הביצועים.‏ 

מקדמי ה-‏ LPC קובעים את צורת המעטפת.‏ במודל HILN ובמודל המוצע משתמשים בעשרים 

.(N=20) 

מקדמים הגיוני לחשוב,‏ שככל שמספר המקדמים יהיה גדול יותר,‏ כך יגדל הדיוק של 

המעטפת.‏ המטרה של של ניסוי זה הוא בחינת ההשפעה של מספר המקדמים על יכולת הייצוג 

‏(שגיאה)‏ של המעטפת ובחירת מספר מקדמים אופטימלי.‏ 

לשם בחירת מספר המקדמים,‏ מבצעים את המודל האיטרטיבי על פני מספר מקדמים משתנה 

10- בתחום 

40. העיוות הסופי של המודל האיטרטיבי נרשם עבור כל ערך של N. דוגמה לעיוותים 

המתקבלים מקטע שמע מוצגת באיור 

.7.4 

- 89 -

4 

e r r o r o f i t e r a t i v e a l g o r i t h m 

3 . 8 

3 . 6 

3 . 4 

3 . 2 

dB 

3 

2 . 8 

2 . 6 

2 . 4 

2 . 2 

2 

1 0 1 5 2 0 2 5 3 0 3 5 4 0 

N - n u m b e r o f c o e ffi c e n t s 

איור 7.4: שגיאת המודל כפונקציה של מספר המקדמים – דוגמה 1. 

השרטוט מציג את עיוות המעטפת ביחידות של כפונקציה של מספר המקדמים,‏ החל מ-‏ 

מקדמים ועד 

10 

,dB 

40 מקדמים.‏ 

Figure 7.4: Model error as a function of the number of coefficients -example 1. 

The plot show the envelope error in dB, as a function of N, stating with 10 coefficients up to 40. 

ניתן לומר,‏ בהכללה,‏ שהפונקציה יורדת עם הגדלה במספר המקדמים.‏ אולם,‏ הפונקציה אינה 

מונוטונית,‏ וישנם מצבם,‏ כמו הקטע הנבדק בדוגמה,‏ בהם הגדלת מספר המקדמים אינה מביאה 

להקטנה השגיאה.‏ 

ניתן לראות מן הגרף,‏ שעבור 

המקדמים ל-‏ 

20 

מקדמים מתקבל עיוות של 

.3.7dB 

17 מקדמים,‏ 

משיקולי דחיסה,‏ שכן הדבר צורך פחות סיביות).‏ 

אם מקטינים את מספר 

העיוות קטן בכ-‏ .1dB ‏(כמובן,‏ שהורדת מספר המקדמים,‏ מאוד נוח 

לבחירת N האופטימלי ישנן מספר גישות:‏ 

• 

בגישה הראשונה מחפשים מינימום גלובלי לפונקצית השגיאה.‏ 

במספר המקדמים הנותן עיוות מינימלי.‏ ברוב המיקרים ה-‏ N הוא באיזור 

דבר שמצריך הרבה סיביות על מנת לייצגם.‏ ‏(אם כימות 20 מקדמים מצריך 

אזי כימות של 40 מקדמים יצריך 48 סיביות נוספות).‏ 

לפי גישה זו בוחרים 

40 מקדמים,‏ 

48 סיביות,‏ 

• 

• 

בגישה השנייה מחפשים מינימום בפונקציית השגיאה,‏ 

אך היא לא בהכרח המינימום 

הגלובלי.‏ גישה זו מתחשבת גם במינימיזציה על מספר המקדמים,‏ כלומר בחירת מינימום 

עיוות ומינימום מקדמים.‏ 

הגישה משלבת גם הורדה בעיוות 

‏(לא 

בהכרח ההורדה 

המקסימלית,‏ לרב קרוב למקסימלי)‏ וגם שימוש במספר לא גדול של מקדמים,‏ על מנת 

לחסוך בסיביות.‏ 

בגישה השלישית,‏ שהיא מאוד חסכונית במספר המקדמים,‏ בוחרים במינימום עיוות בין 

15=N לבין 20=N ‏(או 

הדגמת שלוש השיטות מופיעה באיור 7.5. 

25). כלומר ערכי N גדולים מעל 20 מקדמים כלל לא נבדקים.‏ 

- 90 -

3 

2.5 

2 

dB 

1.5 

1 

0.5 

0 

15 20 25 30 35 40 

N 

איור 7.5: שגיאת המודל כפונקציה של מספר המקדמים ‏–דוגמה 2. 

השרטוט מציג את עיוות המעטפת ביחידות של כפונקציה של מספר המקדמים,‏ החל מ-‏ 

מקדמים ועד 

15 

,dB 


Figure 7.5: Model error as a function of the number of coefficients -example 2. 

The plot show the envelope error in dB, as a function of N, starting with 15 coefficients up to 40. 

בשרטוט ניתן לראות,‏ שעל פי הגישה הראשונה,‏ מינימום העיוות מתקבל ב 

40 עבור .N=40 

מקדמים מתקבלת שגיאה מינימלית.‏ גישה זו גורמת,‏ לעיתים,‏ לבזבוז משאבים,‏ כיוון שהתועלת 

בשידור 40 מקדמים אינה משמעותית,‏ כפי שניתן לראות בגרף.‏ 

על פי הגישה השנייה,‏ מחפשים מינימום אופטימלי המושפע הן ממספר המקדמים והן מערך 

העיוות על פי:‏ 

f = D( 

N) 

+ 

1 

20 

⋅ N 

(7.9) 

מינימום הפונקציה f מתקבל ב 22=N. הגדלת N ‏(למשל 35=N או 40=N) אמנם תיתן עיוות קטן 

יותר,‏ 

אבל לא בצורה משמעותית,‏ 

שכדאי עבורה לשלם את מחיר מספר המקדמים.‏ 

גישה זו 

טוענת,‏ שכדאי לרדת במספר המקדמים תמורת עלייה קלה בעיוות,‏ כלומר מפסידים מעט בעיוות 

‏(אבל לא בצורה משמעותית)‏ 

לרדת עד ל-‏ 

מקדמים 22 

ומרוויחים בצורה משמעותית במספר המקדמים.‏ 

‏(כמעט חצי מ-‏ 

40 

‏"לספוג"‏ את עליית העיוות,‏ כיוון שהיא לא גדולה.‏ 

על פי הגישה השלישית,‏ 

מקדמים,‏ 

מחפשים מינימום בתחום שבין 

שזה רווח גדול לדחיסה),‏ 

N=20 לכן ,15-20 

ניתן בדוגמה,‏ 

אבל מוכנים 

ייבחר כמספר 

המקדמים הנותן מינימום עיוות.‏ היתרון בשיטה זו הוא המחיר הנמוך ‏(מספר מקדמים לשידור)‏ 

וגם לא מקובעים על N יחיד ‏(אך התחום לא רחב).‏ 

יישום שיטות אלו מצריך פרמטר נוסף לשידור,‏ המציין את מספר המקדמים בכל מסגרת.‏ 

- 91 -

7.2, בטבלה 

ניתן לראות את תוצאות האלגוריתם האיטרטיבי לחישוב מעטפת ספקטרלית בשילוב 

מספר משתנה של מקדמים ‏(הגישה הראשונה והשניה).‏ 

N 

עיוות לפי מודל איטרטיבי 

[dB] 

N=20 

שם הקטע 

עיוות לפי 

מודל רגיל 

[dB] 

גישה שניה 

גישה 

ראשונה 

גישה 

שניה 

גישה 

ראשונה 

38.6 

38.5 

38.7 

36.9 

37.8 

38.5 

39 

38.6 

38.5 

38 

38.3 

20.5 

23.9 

19.4 

22.1 

23.1 

24.3 

19.9 

20.8 

22.6 

22.2 

21.8 

1.12 

1 

1.5 

0.26 

0.79 

0.93 

1.56 

1.61 

1.38 

1.06 

1.12 

1.79 

1.91 

2.27 

0.87 

1.66 

1.78 

2.42 

2.48 

2.17 

1.88 

1.92 

2.13 

2.73 

2.42 

1.54 

2.51 

2.76 

2.63 

2.82 

2.84 

2.42 

2.48 

2.52 

3.4 

3 

4.22 

3.19 

3.86 

2.99 

4.48 

3.16 

3.43 

3.42 

10four 

bethoven 

Goodan 

Logoff 

mic 

Music10 

Music12 

Music2 

Sax1mon 

track 

ממוצע 

,20 

טבלה 7.2: תוצאות המודל האיטרטיבי בשילוב מספר מקדמים אופטימלי.‏ 

הטבלה מציגה את שגיאת המודל על פני מספר קטעי שמע,‏ ששמם מופיע בעמודה הימנית.‏ עיוות 

המודל הרגיל,‏ ללא איטרציות,‏ מופיע בעמודה השניה מימין.‏ עיוות המודל האיטרטיבי עבור מספר 

מקדמים קבוע של עבור מספר מקדמים לא קבוע,‏ הנבחר לפי גישה שניה ועבור מספר לא קבוע 

של מקדמים,‏ הנבחר על פי גישה ראשונה מוצג בשלושת העמודות בהמשך.‏ מספר המקדמים 

הממוצע האופטימלי,‏ הנבחר ע"י כל אחד מהשיטות מופיע בשתי העמודות השמאליות.‏ 

Table 7.2: The iterative model combined with the optimal coefficients number. 

The table shows the model error for several audio signals, which their names is on the right 

column. The regular model error, is presented on the second colomn (from the right). The 

itertaive model error for a constant number of coefficients (20), for a variable number of 

coefficients, by approach one, and for a variable number of coefficients, by approach two, is 

presented on the next three columns. The average optimize number of coefficients, which is 

chosen by each approach's present in the two left columns. 

מתוצאות הטבלה ניתן לראות שהיכולת לבחור את מספר המקדמים האופטימלי,‏ נותנת שיפור 

בייצוג העוצמות,‏ כלומר ירידה בעיוות.‏ לפי הגישה הראשונה ניתן לרדת בממוצע השגיאה בסדר 

גודל של ,1.3dB אבל במחיר של מספר מקדמים ממוצע קרוב מאוד ל-‏ 


השניה,‏ יש ירידה ממוצעת של 0.6dB בשגיאת המודל,‏ ובמחיר נמוך יחסית של כ-‏ 

בממוצע.‏ 

לפי הגישה 

22 מקדמים 

יישום הגישות,‏ בהן מספר המקדמים אינו קבוע,‏ הוא מסובך,‏ לא רק בגלל הצורך להוסיף פרמטר 

נוסף המציין את מספר המקדמים,‏ אלא בעיקר בגלל המספר המילונים הרב שצריך לתכנן ולשמור 

בזיכרון.‏ עבור כל N אפשרי בין 15 ל-‏ 40, צריך לתכנן מספר מילונים,‏ תהליך שהוא די מורכב.‏ 

7.2.3 שינוי סקלת התדר לסקלת .Bark 

- 92 -

המודל האיטרטיבי ותהליך החיפוש אחר N אופטימלי גורמים לירידה משמעותית בעיוות,‏ כלומר 

עוצמות המודל מקבלות ערכים יותר קרובים למציאות.‏ אולם,‏ שגיאת המודל ‏(העיוות)‏ אינה 

מתאפסת וככל הנראה לא ניתן להגיע למצב אידיאלי זה ‏(שגיאה מאופסת),‏ בו המעטפת 

הספקטרלית תעבור במדויק דרך כל האמפליטודות האמיתיות.‏ 

למרות השיפור באיכות השמע,‏ יש מספר קטן של אותות שמע בהם עדיין נשמעים עיוותים קטנים.‏ 

עיוותים אלו נובעים,‏ בעיקר,‏ מהבדלים בין אמפליטודות המודל לאמפליטודות אמיתיות בתדרים 

הנמוכים,‏ בהן האוזן האנושית רגישה הרבה יותר.‏ לכן שימוש בסקלת תדר לא לינארית,‏ הנותנת 

יתרון לתדרים הנמוכים,‏ עדיפה על פני שימוש בסקלת תדר לינארית.‏ 

לשם כך,‏ משנים את סקלת התדר 

[29] 

לראות את פונקציית התמרת התדר באיור 

לפי סקלת 

,Bark 

.7.6 

המיושמת במודל הפסיכואקוסטי.‏ ניתן 

9000 

8000 

7000 

new freq scale [Hz] 

6000 

5000 

4000 

3000 

2000 

1000 

0 

0 1000 2000 3000 4000 5000 6000 7000 8000 

freq [Hz] 

איור 7.6: התמרת תחום התדר על פי סקלת .Bark 

פונקציית ההתמרה משורטטת בקו מלא.‏ על הפונקציה מוצגות שתי דוגמאות,‏ אחת עבור תחום 

התדר הנמוך והשניה עבור תחום התדר הגבוהה.‏ בתחום התדר הנמוך,‏ משורטטים בקו מקווקו 

שני תדרים קרובים אחד לשני ‏(בהפרש של הפונקצית ממירה לתדרים יותר מרוחקים 

‏(בהפרש של הרץ).‏ בתחום התדר הגבוה,‏ משורטטים שני תדרים עם הפרש של הרץ 

ביניהם.‏ הפונקציה ממירה לתדרים יותר קרובים ‏(הפרש של 

1000 

400 הרץ).‏ 

300 הרץ).‏ 

1000 

Figure 7.6: Conversion of the frequency band according to the Bark scale. 

The conversion function is drawn by a solid line. Two examples are presented over the function, first 

for the low frequency band and second for the high frequency band. At the low frequency band, two 

close frequencies (with a difference of 300Hz) are drawn by a dashed line. The function convert them 

to more spaced frequencies (a difference of 1000Hz). At the high frequency band, two frequencies with 

a difference of 1000Hz, are drawn. The function converts them to closer frequencies (with a difference 

of 400Hz). 

ניתן לראות מן הגרף שתדרים נמוכים 

‏"מתכווצים"‏ ‏(המרווחים ביניהם קטנים).‏ 

‏"נמתחים"‏ ‏(המרווחים ביניהם גדלים)‏ 

ותדרים גבוהים 

- 93 -

באיור 7.7 

ניתן לראות דוגמה לאות המורכב ממספר סינוסים ואת ההשפעה של שינוי סקלת 

400Hz 

התדר על המרחקים בין התדרים.‏ כיוון שהתדרים 300Hz 

ו-‏ 

קרובים מאוד,‏ המעטפת 

הספקטרלית לא תוכל לייצג את העוצמות של שניהם בצורה מדוייקת,‏ במיוחד כאשר ישנם הבדלי 

.(400Hz 

עוצמות ‏(בתדר 300Hz 

העוצמה גדולה בהרבה מהעוצמה בתדר 

סקלת התדר,‏ המרווח ביניהם גדל,‏ כמתואר בשרטוט.‏ התדרים 

לכן,‏ כתוצאה משינוי 

400 הרץ הפכו ל-‏ 1098 

ו-‏ 

300 ו-‏ 

1447 הרץ ‏(בהתאמה).‏ 

מאחר והמרווח בין התדרים גדל ניתן לייצג את עוצמתם בצורה מדוייקת יותר.‏ 

לעומתם,‏ התדרים הגבוהים:‏ 5000 ו-‏ 5500 הרץ התקרבו אחד לשני ולכן הייצוג שלהם יתקלקל 

מעט.‏ 

50 

40 

30 

20 

dB 

10 

0 

-10 

-20 

-30 

0 1000 2000 3000 4000 5000 6000 7000 8000 

freq [Hz] 

50 

40 

30 

20 

10 

dB 

0 

-10 

-20 

-30 

-40 

0 1000 2000 3000 4000 5000 6000 7000 8000 

freq [Hz] 

איור 7.7: תיאור פעולת מתיחת תחום התדר.‏ 

5500 הרץ.‏ הספקטרום של 

בדוגמה,‏ אות המורכב מסכום התדרים:‏ 

אות זה נתון בשרטוט העליון.‏ ביצוע המרת סקלת התדר לפי ,Bark משנה את סקלת התדר,‏ כמוצג 

בשרטוט התחתון.‏ בקו מקווקו מסומנים זוג אחד של תדרים 300 ו-‏ 400 הרץ.‏ בפעולת שינוי סקלת 

התדר,‏ התדרים מתרחקים זה מזה.‏ כמו כן,‏ מסומן זוג נוסף של תדרים 5000 ו-‏ 5500 הרץ.‏ פעולת 

שינוי סקלת התדר גורמת לקירוב התדרים.‏ 

,5000 ,3000 ,1000 ,400 ,300 

Figure 7.7: Frequency-band warping. 

In the example, a signal composed of the frequencies: 300, 400, 1000, 3000, 5000, 5500 Hz.. The 

spectrum is plotted above. The Frequency band warping according to Bark scale, changes the 

frequency scale, as it appears in the lower plot. In dashed line, two frequencies are marked, 300 and 

400Hz. In the warping operation, the frequencies get further each other. Other two frequencies, 5000 

and 5500Hz, are marked. In the warping operation they get closer. 

שינוי סקלת התדר גורמת להקטנת העיוות בתחום התדר הנמוך,‏ 

במחיר של הגדלת העיוות 

בתחום התדר הגבוה.‏ תופעה זו רצויה,‏ כיוון שהאוזן האנושית הרבה יותר רגישה לתחום התדר 

הנמוך.‏ 

- 94 -

יש לציין שאין שום שינוי בתדרים המקוריים,‏ השינוי בסקלת התדר,‏ 

המעטפת הספקטרלית המיועדת למציאת אמפליטודות.‏ 

הוא אך ורק עבור חישוב 

7.3 שיטה להתאמת המעטפת בתחום התדר 

בסעיף הקודם תוארה שיטה להתאמת המעטפת לאות,‏ המיוצר בתחום הזמן.‏ ספקטרום האות 

נראה כשיאים בודדים בתדרי הסינוסים,‏ כאשר בין תדרי הסינוסים לא היתה אנרגיה.‏ המעטפת 

הספקטרלית מותאמת לייצוג הספקטרום כולו ולא ע"י שיאים בודדים.‏ לפיכך,‏ יש צורך בייצור 

אנרגיה מתאימה בין תדרי הסינוסים.‏ כאשר כל הספקטרום יכיל אנרגיה,‏ המעטפת תהיה הרבה 

יותר מדוייקת.‏ השיטה מבוססת על יצור האות בתחום התדר 

מטרתנו היא שהמעטפת תעבור כמה שיותר מדויק דרך 

.[30] [29] 

L 

תדרים,‏ שאותם מעונינים לייצג.‏ אין 

עניין בייצוג של כל התדרים ולכן מסנתזים ספקטרום חדש בעזרת אינטרפולציה,‏ על בסיס 

התדרים ‏"המעניינים".‏ 

גודל תא התדר בספקטרום החדש הוא ,20Hz וברוחב סרט של 8kHz יהיו 400 תאי תדר.‏ 

L התדרים מסומנים ע"י{‏ { 

L 

. 

בעלי אמפליטודות } ,..., m { m 

1 , 2 

m L 

W W ,..., 

1 , 2 

W L 

הספקטרום האמיתי מסומן ב-‏ 

log בצורה הבאה:‏ 

,S 

והאינטרפולציה המסומנת ב-‏ 

מ Q 

חושבת לינארית בתחום ה-‏ 

⎛ w 

j 

− W 

k ⎞ 

log Q ( w ) log ( ) 

⎜ 

⎟ 

j 

= S W 

k 

+ 

⋅ (log S ( W 

k 

) − log S ( W 

k + 1) 

⎝ W 

k + 1 

− W 

k ⎠ 

(7.10) 

כאשר w j הוא אחד מ-‏ 400 תאי תדר ‏(כל תחום התדר בקפיצות של .(20Hz 

W k +1 

W k ל-‏ 

והוא נמצא בין 

(2 תדרים סמוכים מתוך L התדרים).‏ 

במקרה קצה,כאשר w j קטן מהתדר הראשון או גדול מהתדר האחרון,‏ מבצעים אקסטרפולציה.‏ 

כלומר,‏ המשך בין שני התדרים הראשונים או האחרונים.‏ 

השרטוט באיור 7.8, מראה את תוצאת האינטרפולציה.‏ 

- 95 -

0.12 

Q – 

Q - interpulated interpolated spectrum 

spectrum 

0.1 

0.08 

0.06 

0.04 

0.02 

0 

0 1000 2000 3000 4000 5000 6000 7000 8000 

frequency[Hz] 

ייצור ספקטרום בעזרת אינטרפולציה.‏ 

איור תדרים.‏ מיקום התדרים ועוצמתם מסומנים ע"י עיגולים.‏ 

בדוגמה,‏ קטע אות כניסה,‏ הכולל ‏(מסומנים בעיגולים)‏ ומסנתזים את שאר תאי התדר ע"י 

תחילה קיימים רק תאי תדר אלו אינטרפולציה.‏ 

Figure 7.8: Synthesized spectrum using interpolation. 

In the example, the input signal is composed of 14 frequencies. The frequencies locations and their 

amplitudes are marked by circles. The synthesize spectrum by interpolation is shown by the solid line. 

14 

:7.8 

חישוב מקדמי ה-‏ ,LPC מתוך הספקטרום מתואר ב-‏ [29]. 

לאחר מציאת מקדמי ה-‏ LPC דו,‏ גמים את מעטפת המודל באמצעות הנוסחה הבאה:‏ 

mˆ 

( w ) = 

i 

p 

1 + ∑ a 

k = 1 

1 

k 

⋅ e 

− jwik 

i=1, 2, ..., L 

(7.11) 

התוצאה תהיה קבוצה של אמפליטודות,‏ בה נשתמש לצורך סינתזת האות.‏ 

בשלב האחרון מנרמלים את האמפליטודות בהתאם לעוצמת האמפליטודות המקוריות,‏ 

ומתקבלות אמפליטודות הייצוג ‏(לפי המודל).‏ 

העיוות מחושב ע"י המרחק בין האמפליטודות המחושבות לבין האמפליטודות המקוריות:‏ 

L 

1 

D = ⋅∑[20 

⋅log( 

m ) 20 log( ˆ 

i 

− ⋅ mi 

)] 

L 

i= 

1 

(7.12) 

אמפליטודות המודל לא היו מספיק מדוייקות,‏ כיוון שהמעטפת הספקטרלית לא עברה מספיק 

קרוב דרך העוצמות האמיתיות.‏ 

- 96 -

מספר רעיונות לשינוי צורת המעטפת נבדקו:‏ 

• 

• 

• 

מציאת מעטפת LPC בצורה איטרטיבית.‏ 

צמצום התחום הדינאמי של העוצמות המקוריות.‏ 

שינוי סקלת התדר לסקלת .Bark 

7.3.1 מודל איטרטיבי 

המודל האיטרטיבי,‏ זהה בתפיסתו לזה שהוצג בסעיף 

.7.2 

הרעיון מאחורי המודל,‏ הוא ביצוע 

תיקונים מלאכותיים באות הכניסה בתחום התדר ‏(בסינתוז הספקטרום)‏ על מנת לשנות את צורת 

המעטפת,‏ כך שתעבור יותר קרוב לעוצמות האמיתיות.‏ 

התהליך האיטרטיבי זהה בתחילתו לתהליך הרגיל,‏ הכולל:‏ 

• 

יצירת ספקטרום בעזרת 

L תדרים,‏ 

הסינוסים ושאר תאי התדר מחושבים ע"י אינטרפולציה.‏ 

כאשר כל אחד מ-‏ L תאי התדר מקבל את 

עוצמות 

• 

• 

• 

מציאת מקדמי ה-‏ LPC ויצירת מעטפת ספקטרלית.‏ 

דגימת המעטפת למציאת אמפליטודות המודל.‏ 

חישוב העיוות,‏ על פי משוואה 

.7.12 

לאחר השלבים הרגילים מחושבים 

:scale factors 

S 

i 

= 

real _ mi 

mˆ 

i, 

iter 

(7.13) 

כאשר 

ו-‏ 

iter ,(i=1 ... L) 

mˆ 

מסמן את אמפליטודת המודל.‏ 

מסמן את מספר האיטרציה,‏ real_m הוא העוצמה האמיתית 

גורמי הכפלה אלו מציינים את ההבדל בין האמפליטודה המקורית ובין אמפליטודה המחושבת 

במודל.‏ 

לאחר מכן מכפילים את האמפליטודות המחושבות בגורמי ההכפלה:‏ 

m ˆ 

i iter 

Si 

mˆ 

, + 1 

= ⋅ 

i, 

iter 

(7.14) 

(0.5% – 

בשינוי זה מבוצע תיקון מלאכותי של האמפליטודות.‏ 

כעת חוזרים על כל התהליך מתחילתו עד התכנסות העיוות.‏ 

- 97 - 

העיוות D, 

מחושב ואם יש התכנסות ‏(העיוות קטן בפחות מ 

מפסיק,‏ ואם העיוות לא מתכנס,‏ ממשיכים לאיטרציה הבאה.‏ 

7.3.2 צמצום התחום הדינמי 

אז התהליך האיטרטיבי

המעטפת מתקשה מאוד בייצוג עוצמות גבוהות מאוד,‏ כאשר הן משולבות ביחד עם עוצמות 

נמוכות מאוד.‏ למעטפת קשה מאוד לעקוב אחר שינויים גדולים בעוצמות,‏ כיוון שתפקידה הוא 

להחליק את הספקטרום.‏ אחד הפתרונות לבעיה זו היא צמצום התחום הדינמי של העוצמות,‏ 

כלומר החלשת העוצמות החזקות והגברת העוצמות החלשות.‏ 

צמצום התחום הדינמי של האמפליטודות משפר את היכולת של המעטפת לייצג את העוצמות 

ולכן גם שגיאת המודל קטנה.‏ 

צמצום התחום הדינמי מבוצע ע"י ביצוע שורש שלישי לכל העוצמות 

:[29] 

m 

3 

i 

⇒ m i 

(7.15) 

לאחר חישוב העוצמות החדשות,‏ מייצרים ספקטרום ע"י אינטרפולציה סביב 

העוצמות החדשות.‏ 

עוצמות המודל מחושבות ע"י דגימת המעטפת הספקטרלית ב-‏ L נקודות תדר.‏ 

L 

תאי תדר עם 

העוצמות מועלות ‏(בחזרה)‏ בחזקת שלוש,‏ על מנת להגיע לערכי האמפליטודות המקוריות,‏ לפני 

הצמצום בתחום הדינמי.‏ 

7.3.3 מתיחת סקלת התדר 

היכולת לנצל את יתרונות וחסרונות מערכת השמיעה האנושית,‏ עוזרת רבות בכל שלבי הקידוד 

של אותות שמע.‏ גם במודל ייצוג אמפליטודות,‏ משתמשים במודל הפסיכואקוסטי.‏ מאחר והאוזן 

האנושית רגישה יותר לתדרים נמוכים מאשר לתדרים גבוהים,‏ יותר חשוב לדייק בעוצמות של 

התדרים הנמוכים על חשבון העוצמות של התדרים הגבוהים [30]. תהליך זה תואר בסעיף 

מתיחת סקלת התדר נעשה לפי:‏ 

.7.2.3 

new _ 

freq 

freq = [13⋅arctan(0.00076 

⋅ freq) 

+ 3.5⋅arctan( 

) ] 

7500 

2 ⋅ 

8000 

21.2753 

(7.16) 

זוהי נוסחת ההמרה לסקלת 

הרץ,‏ כיוון שתדר 

גרף ההמרה מתואר איור 

.Bark 

8000 הרץ מומר ל-‏ .Bark 21.27 

.7.6 

הנוסחה מוכפלת ב-‏‎8000/21.2723‎ על מנת להישאר ביחידות 

- 98 - 

קבוצת L התדרים{‏ ,..., W { W 

1 , 2 

W L 

מקבוצת התדרים בונים את הספקטרום 

מקדמי ה-‏ .LPC 

תוצאות האלגוריתם מסוכמות בטבלה 7.3. 

מומרת לקבוצת תדרים חדשה{‏ { 

. 

F F ,..., 

1 , 2 

F L 

,Q 

בדרך הרגילה,‏ 

ניתן לראות בטבלה הבאה סיכום תוצאות של הרצות על פני 

מספר מודלים.‏ 

ומחשבים מעטפת מודל באמצעות 

50 

קטעי מוסיקה ודיבור על פני

המודל,‏ המתואר בסעיף 

,7.3 

לייצוג אמפליטודות לפי יצירת אות בתחום התדר,‏ מביא לתוצאות 

טובות יותר,‏ כבר ללא איטרציות,‏ מאשר המודל המתואר בסעיף 

בתחום הזמן,‏ כולל איטרציות.‏ 

השיפור במודל,‏ הנובע מהוספת איטרציות,‏ הוא בממוצע כ-‏ 

,7.2 

.0.2dB 

המבוסס על ייצור אות 

צמצום התחום הדינאמי 

מוריד 0.2dB נוספים בעיוות המודל.‏ השיפור המשמעותי העשה ע"י פעולת מתיחת התדר ומביא 

לירידה של כ-‏ 0.4dB בעיוות.‏ 

הטבלה מציגה גם את אחוז הצלחה של תהליך האיטרציות,‏ שהוא אחוז המסגרת בהם יש כדאיות 

להשתמש באיטרציות,‏ כלומר יש שיפור בעיוות ‏(לא בכל מסגרת התהליך האיטרטיבי יתן שיפור 

בעיוות,‏ במצב זה לא מתבצעת אף איטרציה).‏ 

ניתן לראות שבממוצע 70% מהמקרים המודל האיטרטיבי גורם להקטנת העיוות.‏ 

מספר האיטרציות הוא הממוצע על הקטעים בהם יש איטרציות ‏(לא כולל קטעים בהן לא 

מבוצעות איטרציות או באיטרציה אחת).‏ ניתן לראות שבממוצע שש איטרציות מספיקות על מנת 

להגיע להתכנסות העיוות ‏(כאשר התכנסות מוגדרת בשינוי העיוות בפחות מ-‏ 

האחרון).‏ 

מערכו 0.5% 

מודל 

ייצוג על ידי מעטפת LPC 

ייצוג לפי סינתזת האות בתחום זמן 

באיטרציות 

ימוש באוטוקורלציה בתדר על 

ספקטרום שעבר אינטרפולציה 

יצוע צמצום התחום הדינאמי 

עם(+)/ללא 

איטרציות 

עיוות 

אחוז 

הצלחה 

מספר 

איטרציות 

5.5 

5.4 

7.3 

7.9 

54.5% 

80.6% 

60.6% 

70.9% 

[dB] 

3.19 

2.47 

+ 

– 

- רגיל 

2.43 

ש 2.27 

+ 

2.26 

ב 2.21 

+ 

1.96 

1.77 

+ 

ה 

1.82 Bark 

1.58 

+ 

ה 

מרת סקלת תדר לסקלת Bark 

מרה לסקלת 

התחום הדינמי 

וביצוע צמצום 

טבלה 7.3: תוצאות המודל לייצוג אמפליטודות.‏ 

הטבלה מסכמת את תפוקות שישה מודלים,‏ הרשומים בעמודה הימנית.‏ חלק מהמודלים כוללים 

איטרציות.‏ בעמודה השניה מימין מסומן האם המודל משתמש באיטרציות.‏ עיוות המודל ביחידות 

של dB מוצג בעמודה האמצעית.‏ אחוז ההצלחה של המודל האיטרטיבי,‏ כלומר הסיכוי להקטנת 

העיוות באמצעות איטרציות,‏ מוצג בעמודה הבאה ומספר האיטרציות בממוצע מוצג בעמודה 

השמאלית.‏ 

Table 7.3: Amplitude representation model results. 

The table summarizes the ouputs of six models that are listed on the right column. Some of the models 

includes iterations. In the second (from right) column there is a mark whether the model is using 

iterations. The model distortion in dB is presented on the middle column. The model's success (in 

percents), which means the probabilty of decreasing the distortaion by the iterations, is presented on the 

next column, and the average number of iterations is present on the left column. 


- 99 -

מעטפת ספקטרלית היא כלי חשוב ביכולת הקידוד של עוצמות הטונים של אות שמע.‏ בפרק 

מתוארים שני מודלים לחישוב המעטפת הספקטרלית.‏ מודל המייצר את אות השמע בתחום הזמן 

ומודל שני המייצר את האות בתחום התדר.‏ 

הבעיתיות בשימוש במעטפת ספקטרלית לייצוג עוצמות מתוארת בפרק זה.‏ 

המעטפת אינה מסוגלת לייצג במדוייק את העוצמות,‏ לעיתים יש הגברה או החלשה של טונים,‏ 

דבר המשפיע על איכות השמע.‏ 

בפרק נבחנו מספר גישות להתמודדות עם הבעיה הזו.‏ המודל האיטרטיבי שנבחן הראה שיפור 

משמעותי של כ-‏ 

1dB 

במודל הראשון ‏(ייצור אות בתחום הזמן),‏ אך לא הראה כדאיות במודל 

השני ‏(ייצור אות בתחום התדר)‏ בו השיפור הוא רק ב-‏ .0.2dB 

נבדקה השפעת מספר המקדמים ‏(מקדמי ה-‏ (LPC על העיוות.‏ הבדיקה הראתה ששימוש במספר 

משתנה של מקדמים עבור כל מסגרת כניסה יניב שיפורים בביצועים,‏ אולם שינוי זה מצריך 

הרכבת מילונים רבים ‏(לכימות וקטורי של הפרמטרים).‏ 

נבדקה השפעת צמצום התחום הדינאמי של האמפליטודות על העיוות.‏ הבדיקה גילתה שיש 

כדאיות בשימוש בפעולה זו,‏ אמנם הקטנת העיוות לא היתה גדולה,‏ 0.2dB בממוצע,‏ אך פעולה זו 

משפרת את היכולת של המעטפת לייצג את העוצמות.‏ 

השיפור המשמעותי ביותר לשמיעה,‏ היה השימוש במתיחת סקלת התדר,‏ תוך ניצול המודל 

הפסיכואקוסטי,‏ השיפור כלל הקטנת העיוות בכ-‏ 0.5dB בממוצע.‏ 

- 100 -

פרק 8 

קידוד וכימות 


השלב האחרון במקודד הפרמטרי הוא קידוד וכימות כל הפרמטרים וסידורם ברצף סיביות 

המשודרות.‏ בבלוק זה אוספים את כל הפרמטרים של המרכיבים הטונליים ‏(המחולקים לשתי 

קבוצות-‏ הרמוניות וסינוסים בדידים)‏ ושל מרכיב הרעש.‏ 

כל הפרמטרים מסוכמים,‏ לפי המודל,‏ בטבלה 8.1. 

מודל 

model 


בדידים 

רעש 

מספר סיביות 

Num of Bits 

2 

7 

10 

6 

48 

1 

2-160 

3 

10 

1 

2-56 

1 

48 

6 

5 

4 

תיאור 

Description 

מספר תדרים יסודיים 



עוצמת מעטפת 

שם 

Parameter name 

Num_pitches 

Num_Harm1 

Harm_Freq1 

Gain 

Lpc_Coeff 

Code_Type1 

Harm_Place1 

Num_Harm2 

Harm_Freq2 

Code_Type2 

Harm_Place2 

Second_Envelope_Flag 

Lpc_Coeff2 

Gain2 

Fix_Freq 

Num_Line 

Prev_Line_Cont_Flag 

1 


צורת קידוד 

מיקום הרמוניות 



צורת קידוד 

מיקום הרמוניות 

קיום מעטפת שניה 

2 


2 

0-15 

10 

6 

6 

4 

1 

6 

24 

עוצמת מעטפת 

תיקון תדר 

מספר בדידים 

דגל המציין רציפות 

ממסגרת קודמת 

תדר 

אמפליטודה 

הפרש תדר 

הפרש אמפ'‏ 

דגל קיום רעש 

עוצמה 

Line_Freq 

Line_Ampl 

Line_Delta_Freq 

Line_Delta_Ampl 

Noise_Flag 

Noise_Norm 

Noise_Para 


טבלה 8.1: סיכום פרמטרים לשידור במקודד המוצע.‏ 

בטבלה מסודרים הפרמטרים לפי מודל ‏(הרמוניות,‏ בדידים או רעש).‏ כל פרמטר מוצג לפי שמו,‏ 

תיאור קצר ומספר הסיביות שצריך להקצות לו.‏ יש מספר פרמטרים שמספר הסיביות הנדרש 

עבורן אינו קבוע ולכן הוא מסומן ע"י משתנה.‏ 

Table 8.1: Summary of all the parameters for transmission in the proposed encoder. 

The parameters that appear in the table are ordered by model type (harmonic, individual sinusoids or 

noise). Each parameter appears by its name, short description and the number of bits. There are few 

parameters that need a variable number of bits, therefore it is marked by a variable. 

- 101 -

הפרמטרים בטבלה מפורטים הסעיפים הבאים.‏ 

8.2 שידור הרמוניות 

להלן פירוט כל הפרמטרים הנדרשים לייצוג הרמוניות לפי סדר שידורם:‏ 

מספר תדרים יסודיים,‏ ,Num_pitches משודר בעזרת שתי סיביות.‏ 

'00' כאשר 

מציין שאין תדרים יסודיים,‏ '01' מייצג תדר יסודי אחד ו-‏ 

תדרים יסודיים.‏ 

מספר ההרמוניות של תדר הבסיס הראשון,‏ Num_Harm1 משודרת ע"י 

ניתן לשדר עד 128 הרמוניות.‏ 

תדר יסודי,‏ ,Harm_Freq1 מכומת לוגריתמית בין 

'10' 


2000Hz ל-‏ 50Hz 

אמפליטודות ההרמוניות יחושבו מתוך מעטפת ספקטרלית מיוצגת ע"י 

המכומתים ע"י 

מיקום ההרמוניות,‏ 

ביותר ל-‏ 

ע"י 

מייצג שני 


לפיכך 

20 מקדמי ,LPC 


ועוצמה,‏ ,Gain המכומתת ע"י 6 סיביות בסקלה לוגריתמית.‏ 

,Harm_Place1 

מכומת ע"י 

X 


סיביות ‏(יכול להגיע במקרה הגרוע 

כאשר התדר היסודי הוא 50Hz וישנה הרמוניה הממוקמת בתדר 

.(8000Hz צורת הקידוד של מיקום ההרמוניות,‏ Code_Type1 ‏(יכולה להיות אחת משתי 

שיטות אפשריות:‏ קידוד רגיל או 

מתוארת בהרחבה בהמשך הפרק בסעיף 

,(Huffman 

.8.5 

משודרת ע"י סיבית אחת.‏ צורת הקידוד 

אם משודר תדר יסודי שני,‏ מספר ההרמוניות שלו,‏ Num_Harm2 משודר ע"י 

לפיכך ניתן לשדר עד 

התדר היסודי השני 


9 הרמוניות 

‏(מכיוון שהמינימום הוא 

.(2 

,Harm_Freq2 , 

סיביות,‏ הכימות זהה לתדר יסודי הראשון.‏ 

מיקום ההרמוניות,‏ 

מכומת לוגריתמית בין 

2000Hz ל-‏ 50Hz 

10 ע"י 

,Harm_Place2 

מכומת ע"י 

Y 

סיביות.‏ צורת הקידוד של מיקום 

ההרמוניות,‏ Code_Type2 ‏(רגיל או קידוד הפרשים),‏ משודרת ע"י סיבית אחת.‏ 

אם נשארו סיביות עודפות,‏ משדרים מעטפת ספקטרלית שניה.‏ קידוד האמפליטודות 

באמצעות שתי מעטפות ספקטרליות מצויין ע"י הדגל .Second_Envelope_Flag 

כל שאר הסיביות העודפות,‏ מנוצלות לתיקוני תדר,‏ 

מתוקנים לפי סדר עוצמתם לאחר כימות.‏ 

,Fix_Freq 

5 ע"י 

סיביות.‏ התדרים 

• 

• 

• 

• 

• 

• 

• 

• 

• 

• 

8.3 שידור בדידים 

להלן מפורטים כל הפרמטרים הנדרשים לייצוג סינוסים בדידים לפי סדר שידורם:‏ 

- 102 -

משדרים את מספר הבדידים,‏ 

,Num_Line 

4 ע"י 

בדידים ‏(משאירים ייצוג עבור המצב בו אין אף בדיד).‏ 

משדרים את דגלי הרציפות,‏ 

הבדידים במסגרת קודמת.‏ 

סיביות,‏ כלומר מאפשרים עד 

15 

N ע"י ,Prev_Line_Cont_Flag 

סיביות,‏ בהתאם למספר 

'0' משמעו שהתדר לא נמשך למסגרת נוכחית,‏ ו-‏ '1' משמעו שהתדר מתמשך 

גם למסגרת נוכחית.‏ 

התדרים המתמשכים משודרים תחילה,‏ ע"י הפרש התדר,‏ ,Line_Delta_Freq 

ושינוי האמפליטודה,‏ Line_Delta_Ampl ‏(בסקלה לוגריתמית ע"י 

תדרים חדשים משודרים ע"י תדר,‏ 

(6 סיביות)‏ 

4 סיביות).‏ 

Line_Freq 

ואמפליטודה,‏ Line_Ample ‏(בסקלה לוגריתמית,‏ 

‏(בסקלה לוגריתמית,‏ 

10 

6 סיביות).‏ 

סיביות)‏ 

• 

• 

• 

• 

8.4 שידור רעש 

משודר דגל המציין את קיום הרעש,‏ ,Noise_Flag באמצעות סיבית אחת.‏ 

'0' משמעו אי קיום מרכיב רעש ו-‏ '1' מציין את קיומו של הרעש.‏ 

מודל הרעש נתון ע"י מעטפת ספקטרלית,‏ המיוצגת ע"י 

10 מקדמי ,Noise_Para ,LPC 

המכומתים באמצעות 24 סיביות ועוצמה,‏ ,Noise_Norm המכומתת באמצעות 

בסקלה לוגריתמית.‏ 

6 סיביות 

• 

• 

8.5 צורת הקידוד של ההרמוניות 

במודל ההרמוניות,‏ משדרים תדר יסודי (pitch) אחד לפחות ומעטפת ספקטרלית המתאימה לכל 

התדרים היסודיים ‏(במידה ויש יותר מאחד).‏ 

האמפליטודות של כל ההרמוניות מחושבות ע"י דגימת המעטפת הספקטרלית בכפולות של התדר 

היסודי.‏ 

המידע שחסר הוא אילו מההרמוניות אכן קיימות.‏ לכן,‏ משודרת סדרה ארוכה של סיביות,‏ 

המתארת את מיקום ההרמוניות,‏ .Harm_Place ‏(איור 

שיטה אפשרית לקידוד 

מספר 

.(8.1 

,Harm_Place 

,12 ,10 ,9 ,8 ,5 

הגבוהה ביותר יכולה להגיע למספר 

מציינת את מספרי ההרמוניות עצמן ‏(למשל,‏ הרמוניה 

22 וכך הלאה).‏ ציון כל הרמוניה דורש שמונה סיביות ‏(כיוון שההרמוניה 

.(160 

מספר ממוצע של הרמוניות הוא בסביבות 

נדרשות בממוצע 320 סיביות רק על מנת לציין את מיקום ההרמוניות 

.40 

.(40*8 = 320) 

לכן 

מאחר ששיטה זו מאוד בזבזנית,‏ מקובל לקודד את ההפרשים בין ההרמוניות.‏ בהנחה שההפרשים 

הם בעלי ערכים נמוכים יותר ממספר ההרמוניה עצמה,‏ ניתן לייצג כל הפרש בעזרת שש סיביות,‏ 

ולכן קידוד המיקום צורך 

240 סיביות .(40*6=240) 

- 103 -

בשל אורכה הגדול של הסדרה משתמשים באחת משתי שיטות קידוד שונות,‏ המתוארות בסעיפים 

הבאים.‏ השיטה שתיבחר היא זו הצורכת פחות סיביות.‏ 

20 


10 

0 

-10 

-20 

dB 

-30 

-40 

-50 

-60 

-70 

0 1000 2000 3000 4000 5000 6000 7000 8000 


איור 8.1: הדגמת הצורך בקוד המציין את מיקום ההרמוניות.‏ 

באיור משורטט בקו מלא ספקטרום של אות שמע.‏ המעטפת הספקטרלית מסומנת ע"י קו מלא 

‏(מסומנים עליו גם םי-‏ בדוגמה נמצא תדר יסודי יחיד של הרץ,‏ המייצג סינוסים 

‏(הרמוניות)‏ המסומנות בעיגול,‏ כאשר ההרמוניה האחרונה ‏(מופיעה בעיגול הימני ביותר)‏ מספרה 

הכפולות של התדר היסודי שאינן קיימות מסומנים ע"י על המעטפת.‏ ניתן לראות 

שההרמוניה הראשונה היא ההרמוניה מספר 

22 

52.1 

x 

Figure 8.1: The need of harmonics location code. 

A spectrum of an audio signal is drawn by a solid line. The spectral envelope is drawn by a solid line 

(and is also marked with 'x'). In the example, there is one pitch at 52.1 Hz, which represent 22 

harmonics, which are marked by circles. The last harmonic (the right most circle) is the 148-th 

harmonic. The pitch multiples, that do not exist are marked by a x on the envelope. It can be seen that 

the first harmonic is a multiple of 5 of the fundamental frequency. 

.5 

.( 

'x' 

.148 

8.5.1 שיטת קידוד 1 

- 104 -

עבור כל כפולה של התדר היסודי משודרת סיבית אחת ‏(כל סיבית בקוד מייצגת הרמוניה אחת).‏ 

'0' משמעו שאין הרמוניה בכפולה זו של התדר היסודי,‏ ו-‏ '1' משמעו שקיימת הרמוניה.‏ 

לפיכך מספר הסיביות שווה למספר ההרמוניה האחרונה ‏(מספר הכפולה בתדר היסודי).‏ סדרה זו 

יכולה להיות גדולה מאוד עד למקסימום של 

האפשרי הוא 

160 

50Hz 

סיביות,‏ כיוון שהתדר היסודי הנמוך ביותר 

ותדר מקסימלי בקבוצת התדרים יכול להגיע עד ל-‏ 

8000Hz 

.(50*160=8000) 

דוגמה לסדרת סיביות המקודדת לפי שיטה זו ניתן לראות באיור 

.8.2 

[00000000000000000000000000011001111010100101101101… 

00010100001100100101010101] 

איור 8.2: סדרת סיביות מקודדת בשיטה – 1 עבור תדר יסודי ראשון.‏ 

‏(הסיפרה מופיעה 24 פעמים בסדרה).‏ ניתן לראות 

בדוגמה,‏ התדר היסודי מייצג 

רצף ארוך של אפסים בתחילת הסדרה,‏ המראה שבכפולות הנמוכות של התדר היסודי לא היו 

הרמוניות.‏ ההרמוניה הראשונה מופיעה בכפולה ה-‏ 28 של התדר היסודי,‏ הבאה אחריו ב-‏ 

הלאה.‏ ההרמוניה האחרונה ‏(הסיבית האחרונה)‏ ממוקמת במקום ה-‏ ההרמוניה האחרונה 

קובעת את אורך הסידרה.‏ 

29 וכך 

.76 

24 הרמוניות '1' 

Figure 8.2: Bit stream coded by type 1 – for the first fundamental frequency. 

In the example, the fundamental frequency represents 24 harmonics (the digit '1' appears 24 times in the stream). 

There is a long sequence of zeros at the start of the stream, which show that there are no harmonics at low 

multiples. The first harmonic is in the 28-th multiple of the fundamental frequency, the next is in the 29, and so on. 

The last harmonic (the last bit) is located in the 76-th place. The last harmonic determines the stream length. 

שיטת קידוד 1 יעילה כאשר ההרמוניות רציפות,‏ או כמעט רציפות ‏(מספר האפסים בין שני 

'1' קטן 

מאוד).‏ במצב זה ההרמוניה האחרונה תהיה כפולה של מספר נמוך ומספר זה קובע את גודל 

הסדרה.‏ אולם,‏ במצבים בהם מספרי ההרמוניות מאוד לא רציפים ‏(מספר אפסים גדול בין שני 

למשל 

אחרת.‏ 

,'1' 

27 אפסים,‏ 

בדוגמה באיור 

,(8.2 

נוצרת סדרת קוד ארוכה,‏ וכדאי להשתמש בשיטת קידוד 

8.5.2 שיטת קידוד 2 

שיטה נוספת,‏ מבוססת על ההפרשים בין ההרמוניות.‏ ההפרשים בין ההרמוניות הן למעשה מספר האפסים 

הקיימים בין כל זוג של '1'. 

ניתן לקודד את ההפרשים ישירות,‏ 

להשתמש בקוד .Huffman 


ניתן לראות היסטוגרמה של ההפרשים.‏ 

שההפרש גדל ההסתברות למצב זה קטן.‏ 

אך מאחר ויש הסתברויות שונות לערכי ההפרשים שונים כדאי 

ניתן לראות שמרבית ההפרשים הם נמוכים,‏ 

וככל 

- 105 -

3 x 10 5 harm onic spaces 

2.5 

2 

1.5 

1 

0.5 

0 

0 10 20 30 40 50 60 70 80 90 100 

איור 8.3: היסטוגרמה של הפרשים בין הרמוניות.‏ 

ההיסטוגרמה נעשתה על פני כ-‏ 50 קטעי שמע,‏ ובסך הכל 

של 1 הוא ההפרש הנפוץ ביותר,‏ אחריו בסטטיסטיקה מופיע הפרש של 

רציפות.‏ 

ניתן לראות שהפרש 

שמשמעותו הרמוניות 

1,000,000 הפרשים.‏ 

,0 

Figure8.3: Harmonic differences histogram. 

The histogram was obtain for 50 input signals and a total of 1,000,000 differences. It can be seen that 

the difference of 1 is the most common, the next one is the difference of 0, which means a consecutive 

harmonics. 

מאחר ומתקבלות הסתברויות שונות עבור ערכי הפרשים שונים,‏ לא כדאי לקודד את ההפרשים 

ישירות,‏ אלא באמצעות קוד אנטרופיה כמו קוד .Huffman 

קוד זה מנצל את הפילוג הלא אחיד 

של כל הפרש ומבצע דחיסת מידע.‏ קוד Haffman פועל על פי העיקרון המייצר מילת קוד קצרה 

עבור מידע שכיח מאוד 

ההפרשים הגדולים.‏ 

‏(במקרה זה הפרשים הנמוכים)‏ 

הקוד מתאר שמונה כניסות אפשריות,‏ הפרש 0 עד הפרש 

על חשבון מילת קוד ארוכה עבור 

(7 6 כניסות)‏ והכניסה השמינית מתארת 

הפרש 7 ומעלה.‏ תפוקות הקוד מסוכמות בטבלה 8.2 

הסתברות 

אות 

input 

0 

1 

2 

3 

4 

5 

6 

>6 

Probability 

0.223 

0.338 

0.18 

0.098 

0.051 

0.036 

0.019 

0.055 

קוד 

code 

01 

00 

10 

1100 

1110 

11110 

11111 

1101 

טבלה ‎8.2‎‏:סיכום תפוקות קוד .Huffman 

בטבלה מופיעות שמונה הכניסות בעמודה השמאלית.‏ בעמודה האמצעית מופיע ההסתברות לכל 

כניסה,‏ ובעמודה הימנית מופיע הקוד עצמו.‏ ניתן לראות ששלושת הכניסות הראשונות,‏ המציינות 

את ההפרשים 2 מקבלות אורך קוד נמוך ‏(שתי סיביות).‏ מאחר והן מאוד נפוצות השימוש 

באורך קוד קצר מייעל מאוד את תהליך הדחיסה ומקצר את אורך הקוד הכולל 

1 ,0 ו-‏ 

. 

Table 8.2 Huffman code summary. 

The table shows eight inputs on the left column. The middle coumn shows the probability of each 

input, and the right column shows the code itself. It can be seen that the three first inputs, which are the 

differences 0, 1 and 2 gets the shortest code length (two bits). Since they are very common the use of 

short code lengths optimize the compression process and shorten the global code length. 

- 106 -

הכניסה השמינית ‏(הפרש 

0.055, משודר הקוד 

7 ומעלה)‏ 

.'1101' 

מייצגת מספר רב של הפרשים.‏ במצב זה,‏ שהסתברותו היא 

לאחר הקוד יש צורך לשדר קוד נוסף המציין את ההפרש המדוייק.‏ 

הקוד הוא באורך 6 סיביות המתאר את ההפרש האמיתי.‏ 6 סיביות מאפשרות 64 אפשרויות,‏ החל 

מהפרש 7 ועד הפרש 

.70 

חישוב אורך ‏(מספר סיביות)‏ ממוצע לכל כניסה נתון ע"י:‏ 

L = 2 ⋅ (0.223 + 0.338 + 0.18) + 4 ⋅ (0.098 + 0.051 + 0.055) + 

+ 5 ⋅ (0.036 + 0.019) + 6 ⋅ 0.055 = 2.9 

(5.14) 

לפיכך אורך הקוד הכולל יהיה בממוצע 2.9 כפול מספר ההרמוניות.‏ 

למשל,‏ הדוגמה המתוארת באיור 8.1 ‏(על פי שיטה 1), תתואר לפי השיטה השניה בצורה באה:‏ 

[27, 0, 2, 0, 0, 0, 1, 1, 2, 1, 0, 1, 0, 1, 3, 1, 4, 0, 2, 2, 1, 1, 1, 1 ] 

24 

הרמוניות סה"כ,‏ 

21 

הפרשים צריכים קידוד של שתי סיביות ‏(הפרשים של 

הפרשים צריכים קידוד של ארבע סיביות ‏(הפרשים של 

סיביות ‏(הפרש 

בצורה ישירה).‏ 

.(2 או ,0,1 

4 או (3 

והפרש אחד צריך קידוד של 

שני 

10 

7 

ומעלה המצריך 

4 

סיביות קוד 

Haffman 

6 ועוד 

סיביות קוד לייצוג ההפרש 

לפיכך,‏ מספר הסיביות לקידוד הסדרה ‏(בשיטה השניה)‏ מחושב לפי,‏ 

21 ⋅ 2 + 2 ⋅ 4 + 1⋅10 

= 60 

(5.15) 

אורך הקוד צורך 

60 סיביות ‏(לעומת 76, 

לפי שיטה 

.(1 

במרבית המקרים שיטה זו עדיפה על השיטה הראשונה,‏ אך לא תמיד,‏ לכן נשתמש בשתי השיטות.‏ 

גם עבור התדר היסודי (pitch) השני מפעילים שתי שיטות קידוד,‏ כאשר הראשונה זהה ‏(כמו עבור 

התדר היסודי הראשון).‏ 

דוגמה לכך ניתן לראות באיור 

.8.4 

[00001000000100000100000001] 

.26 

איור 8.4: סדרת סיביות מקודדת בשיטה – 1 עבור תדר יסודי השני.‏ 

בדוגמה ישנם ארבעה הרמוניות.‏ כאשר ההרמוניה האחרונה ממוקמת במקום ה-‏ 

הסדרה 

אורך 


Figure 8.4: Bit stream coded by type 1 – for the second fundamental frequency. 

In the example there are four harmonics. The last hamonic is placed at 26 position. The coded stream 

length is 26 bits. 

- 107 -

אם נבחן את הדוגמה 

, 

המתוארת באיור 

,8.4 

ההפרשים,‏ נראה כי ארבעת ההרמוניות ממוקמות במקום ה-‏ 

ההפרשים תהיה:‏ 

מנקודת המבט של השיטה השניה המקודדת את 

18 ,12 ,5 

26. ו-‏ 

.[4,6,5,7] 

לכן סידרת 

במקרה של תדר יסודי שני,‏ השוני בין הסתברויות ההפרשים אינו כה גדול כמו במקרה של תדר 

יסודי ראשון,‏ לכן לא נשתמש בקידוד .Haffman 

כל הפרש מיוצג ע"י 4 סיביות,‏ המייצגות 16 אפשרויות:‏ הפרשים בין 

המייצגת הפרש גדול מ-‏ 

ההפרש המדויק).‏ 

0 עד 

14 ועוד אופציה ‏(ה-‏ 

(16 

.14 

בדוגמה,‏ סדרת ההפרשים היא 

במצב שההפרש הוא 

15 

ומעלה משודרות עוד 

3 

, [4,6,5,7] 

סיביות ‏(לקידוד 

לפיכך ישנם ארבעת הפרשים,‏ כל הפרש מכומת ע"י 

סיביות,‏ סה"כ 16 סיביות נדרשות לקידוד הסידרה ‏(במקום 26, לפי שיטה 

4 

.(1 

8.5.3 שיטות קידוד נוספות 

גישה אפשרית אחרת לקידוד של הסדרה ‏(המציינת מיקום הרמוניות),‏ היא בעזרת 

.Run Length Code 

השיטה מאוד שימושית כאשר בקוד בינארי יש רצפים ארוכים של אפסים 

ורצפים ארוכים של אחדים.‏ 

הקידוד מבוצע ע"י שידור אורכי רצפים של אפסים 

(...000...) 

ושל אחדים 

Huffman 

.(...111...) 

שידור אורכי רצפים של אפסים,‏ או למעשה הפרשים בין הרמוניות,‏ ושימוש בקוד 

‏(כמתואר בסעיף הקודם-‏ שיטת קידוד 2) נמצאו יעילים.‏ 

נותר לבדוק האם שידור אורכי רצפים של '1'- ים משפר את יעילות הקידוד.‏ 

בדיקת סטטיסטית של רצפי 

הבאה:‏ 

-'1' 

ים,‏ הנוצרים כתוצאה מתדר יסודי ראשון,‏ מסוכמת בטבלה 


אורך רצף 

1 

2 

3 

4 

5 

6 

7 

>7 

0.7824 

0.1633 

0.0383 

0.0091 

0.0032 

0.0013 

0.0008 

0.0016 

טבלה ‎8.3‎‏:תוצאות היסטוגרמה של אורכי רצפים של 

'1'- ים.‏ 

Table 8.3:Ones sequence histogram Outputs. 

- 108 -

ניתן לראות,‏ שבמרבית המקרים ‏(כ-‏ 80%), ההרמוניות לא מופיעות ברצף ‏(רצף באורך 

.(1 

המשלים ל-‏ 100% מורכב ברובו ממקרים בהם אורך הרצף הוא שניים.‏ שאר המקרים הם בעלי 

הסתברות נמוכה.‏ 

מאחר שאין כמעט רצפים,‏ ‏(או קיומם של רצפים ארוכים הוא זניח),‏ אין כדאיות בשימוש בקידוד 

אורכי הרצפים של '1' םי-‏ 

, שזהו למעשה,‏ .run length code 

תופעה זו בולטת עוד יותר ברצפים הנובעים מתדר יסודי שני,‏ כפי שניתן לראות בטבלה הבאה:‏ 


אורך רצף 

1 

2 

3 

4 

5 

0.8506 

0.1354 

0.0129 

0.0011 

0.00003 

טבלה 8.4: תוצאות היסטוגרמה של אורכי רצפים.‏ 

Table 8.4: Ones sequence histogram outputs. 

ניתן לראות שמצב בוא אין רצפים ‏(אורך אחד)‏ קורה בהסתברות של 85%, ומצב בו יש רצף קטן,‏ 

באורך שניים מתרחש בהסתברות של 13.5%, שאר המצבים זניחים.‏ 

8.6 כימות וקטורי של מקדמי ה-‏LPC 

כל טון ‏(סינוס)‏ מיוצג במקודד ע"י תדר ואמפליטודה.‏ 

בקידוד הרמוניות משדרים תדר אחד או שניים מייצגים ‏(תדרים יסודיים)‏ ומעטפת ספקטרלית.‏ 

דגימת המעטפת בתדר המסוים נותנת את האמפליטודה שלו.‏ 

המעטפת מיוצרת באמצעות מקדמי ה-‏ (20 LPC מקדמים).‏ 

גם עבור מודל הרעש משתמשים במקדמי 

10) LPC 

מקדמים)‏ המייצגים את המעטפת 

הספקטרלית.‏ בכמות הסיביות הנתונה לשידור (48 סיביות עבור 20 מקדמים ו-‏ 24 סיביות עבור 

10 

מקדמים)‏ לא ניתן לכמת בצורה יעילה את מקדמי ה-‏LPC‏,‏ כיוון שיש להם תחום דינמי רחב,‏ דבר 

הדורש מספר סיביות רב לכל מקדם.‏ כמו כן,‏ כימות של פרמטרי ה-‏LPC ישירות אינו מבטיח 

יציבות של המסנן ההופכי.‏ אלו למעשה הסיבות העיקריות שבגללן לא מכמתים את פרמטרי ה-‏ 

LPC ישירות.‏ 

לפיכך,‏ מקדמי ה-‏ 

עולה ‏(פרמטר ה-‏ 

LPC 

מומרים למקדמי 

,LSF 

LSF 

להם תחום דינמי מצומצם ובעלי סדר וקטורי 

הראשון הוא הקטן ביותר והפרמטר האחרון הוא הגדול ביותר),‏ הניתן 

לניצול בכימות וקטורי.‏ תהליך ההמרה של מקדמי ה-‏ LPC לפרמטרי LSF מתואר בנספח ב'.‏ 

לפיכך,‏ הוקטור לכימות הוא 

20 ‏(או (10 

פרמטרי ה-‏LSF‏.‏ פרמטרים אלו יכומתו באמצעות 

48 ‏(או 

(24 

סיביות בלבד.‏ אם הכימות היה מתבצע עבור כל פרמטר בנפרד,‏ היו בידינו רק 

סיביות 2.4 

- 109 -

לייצוג כל פרמטר,‏ כלומר כחמש אפשרויות בלבד לכל פרמטר,‏ דבר שהיה מוביל לתוצאות גרועות 

מאוד.‏ לכן,‏ תוך ניצול קשרים מבניים בין הפרמטרים,‏ הכימות מתבצע בצורה וקטורית.‏ 

וקטור הוא קבוצה של אלמנטים.‏ כימות וקטורי היא כימות של כל האלמנטים בוקטור כקבוצה 

ולא של ערכים בודדים.‏ כל וקטור מכומת ‏(או ממופה)‏ לאחד מסט של וקטורים קבועים,‏ הנקרא 

מילון-‏ 

.codebook 

המילון הוא קבוע וידוע גם למקלט וגם למשדר,‏ לכן השידור של הוקטור 

הנבחר מתבצע ע"י שידור האינדקס שלו במילון.‏ תהליך בניית המילון מתואר בנספח ד'.‏ 

כל וקטור,‏ שעובר כימות,‏ ממופה לאחד מוקטורי המילון ורק האינדקס של הוקטור המייצג 

במילון משודר.‏ 

הכימות מתבצע לאחר פיצול הוקטור לארבעה תת-‏ וקטורים [27]. פיצול הוקטור לקבוצות קטנות 

יותר גורם להורדת הסיבוכיות בבניית המילון ובמציאת וקטור מתאים במילון.‏ כמו כן,‏ תהליך 

הפיצול דורש פחות זיכרון לאיחסון.‏ 

תת-הוקטור הראשון מכיל את ארבעת פרמטרי ה-‏LSF הראשונים ‏,השני מכיל את ארבעת 

פרמטרי ה-‏LSF הבאים,‏ השלישי מכיל את ששת פרמטרי ה-‏LSF הבאים ותת הוקטור הרביעי 

מכיל את ששת פרמטרי ה-‏LSF האחרונים.‏ כל וקטור מכומת באמצעות 


4096 כלומר 

אפשרויות.‏ תחילה מכמתים את ארבעת פרמטרי ה-‏LSF הראשונים,‏ לאחר מכן מכמתים את 

ארבעת הפרמטרים הבאים,‏ תוך הקפדה שהפרמטר החמישי ‏(הפרמטר הראשון בוקטור השני)‏ 

יהיה גדול מהפרמטר הרביעי.‏ 

לאחר מכן מכמתים את הוקטור השלישי והרביעי,‏ שוב,‏ תוך הקפדה על רציפות הפרמטרים.‏ 

8.7 סדר עדיפויות 

כל מסגרת מוגבלת בכמות הסיביות המייצגות את כל פרמטריה,‏ בהתאם לקצב הסיביות הדרוש,‏ 

16000 או 

12000 סיביות בשניה.‏ 

מרבית המסגרות,‏ מאפשרות קידוד כל הפרמטרים,‏ ולעיתם אף נותרות סיביות עודפות.‏ אולם,‏ 

יתכנו מצבים בהם,‏ לא כל הפרמטרים ישודרו,‏ בגלל מחסור בסיביות.‏ 

במצבים אלו יש צורך בסדר עדיפויות,‏ בו מתוכנן מי מהפרמטרים משודר ומי לא.‏ 

להלן העדיפויות:‏ 

הרמוניות – pitch ראשון 

רעש ‏–אם קיים.‏ 

הרמוניות – pitch שני.‏ 

בדידים – לפי סדר חשיבות ‏(מודל הפסיכואקוסטי).‏ 

מעטפת ספקטרלית שניה.‏ 

תיקוני תדר.‏ 

• 

• 

• 

• 

• 

• 

- 110 -

פרק 9 

תוצאות סימולציה 


מבחני שמע רשמיים (MOS) מבוצעים ע"י השמעת אותות שמע שונים למספר רב של מאזינים.‏ כל 

מאזין מעניק ציון לכל אות בין ציון 1 ‏(איכות גרועה ביותר)‏ לציון 5 ‏(איכות מעולה).‏ 

כיום,‏ ניתן לבצע מבחני איכות על ידי תוכנות המבצעות הערכה סובייקטיבית של אותות שמע,‏ 

כמו תוכנת [46]. EAQUAL 

התוכנה מקבלת כקלט שני אותות שמע,‏ אות שמע מקורי ואות שמע מקודד.‏ התוכנה מבצעת 

השוואה בין האותות בעזרת ניתוחים שונים ומעניקה ציונים לירידת האיכות של האות הנבחן 

בהשוואה לאות הייחוס.‏ הציון המעניין ביותר של התוכנה נקרא 

Objective Difference Grade 

,(ODG) 

והסקלה שלו נעה בין 0, המציין שאין ירידה באיכות ולא ניתן להבחין בהבדל כלל ועד 

- 

,4 

המציין ירידה גדולה ביותר באיכות,‏ הגורמת להפרעה צורמת.‏ 

במסגרת העבודה בוצעו מספר בדיקות,‏ באמצעות 

,EAQUAL 

על מנת לבחון את השפעת 

המקודדים השונים על איכות השמע.‏ המקודדים שנבדקו הם מקודד HILN והמקודד הפרמטרי 

המוצע.‏ 

9.2 תוצאות 

התוצאות מתבססות על הציון שמפיקה תוכנת הבדיקה .EAQUAL תוכנה זו,‏ מפיקה ציונים 

בתחום 

.[-4,0] 

על מנת להבין את משמעות הציון,‏ נבדקה התוכנה במצבי SNR שונים.‏ 

התוכנה משווה בין שני קבצים,‏ קובץ שמע מקורי וקובץ שמע מקורי בתוספת רעש לבן עם SNR 

משתנה,‏ החל מ-‏ 0dB ועד 60dB ‏(בקפיצות של .(5dB בכל הרצה נרשם הציון המתקבל.‏ 

בדיקה זו נעשתה על מספר רב של אותות שמע והערכים הממוצעים מסוכמים בטבלה 

באיור 9.1 ניתן לראות את תוצאות הבדיקה בצורה גרפית.‏ 

.9.1 

ODG 

SNR [dB] 

- 111 -

-3.91 

-3.84 

-3.75 

-3.55 

-3.11 

-2.49 

-1.81 

-1.15 

-0.58 

-0.23 

-0.09 

-0.04 

0 

0 

5 

10 

15 

20 

25 

30 

35 

40 

45 

50 

55 

60 

טבלה 9.1: בדיקת הציון שמפיקה התוכנה Eaqual 

Table 9.1: Examine the grade output by the software Eaqual 

0 

EAQUAL test 

-0.5 

-1 

-1.5 

-2 

-2.5 

-3 

-3.5 

-4 

0 10 20 30 40 50 60 

SNR [dB] 

איור 9.1: ציון ODG ביחס ל-‏ .SNR 

Figure 9.1: ODG grade over SNR. 

על מנת לבחון את ביצועי המקודד המוצע בעבודה זו ביחס למקודד HILN במספר קצבים וביחס 

למקודד ,TWIN-VQ בוצעה השוואת ציונים.‏ הבדיקה נעשתה על פני 10 אותות שמע ‏(באורך של 

למעלה מ-‏ 10 שניות כל אות)‏ מסוגים שונים,‏ הכוללים אות דיבור,‏ אות דיבור משולב עם מוסיקה,‏ 

אות מוסיקלי פשוט,‏ כמו פסנתר,‏ אותות מוסיקלי מורכבים,‏ כמו מוסיקה קלסית ורוק.‏ 

ההרצות של HILN בוצעו עם המקודד הסטנדרטי ע"י .Dr. Purnhagen 

תוצאות הבדיקה מופיעות בטבלה 9.2 ומוצגות גרפית באיור 9.2. 

- 112 -

מקודד 

קצב 

ציון 

Grade 

-3.28 

-3.43 

-3.36 

-3.02 

-2.78 

-2.88 

(kbps) 

Bit Rate 

16 

12 

16 

‎12‎‏-קצב משתנה 

- 

16 

Coder 

HILN 

HILN 

TWIN-VQ 

Proposed 

Proposed 

model 

Proposed 

טבלה 9.2: תוצאות בדיקה השוואתית בין המקודדים.‏ 

Table 9.2: Comparison test results of the coders. 

-2.7 

Test results 

-2.8 

-2.9 

-3 

ODG 

-3.1 

-3.2 

-3.3 

-3.4 

-3.5 

0 1 2 3 4 5 6 

HILN16 

HILN12 

TWIN-VQ16 

9.2: ציון ODG למקודדים.‏ 

Proposed12 

Variable bit 

rate 

איור 

Figure 9.2: ODG grade of the coders. 

proposed16 

Proposed 

model 

ניתן לראות מהתוצאות שציון האיכות עבור המקודד המוצע בקצב 16kbps משתפר ב-‏ 0.4 

‏(בסקלת (ODG לעומת מקודד HILN באותו הקצב.‏ השיפור בציון שקול לשיפור של כ-‏ 6dB ‏(לפי 

איור 9.1). 

9.3 זמני הרצה 

זמני ההרצה ‏(באחוזים מהזמן הכולל)‏ מסוכמים בטבלה 9.3. הזמנים נמדדו לפי .matlab 

- 113 -

פעולה 

אחוז זמן 

[%] 

Time percentage 

0.5 

4.2 

17 

15 

4.2 

34 

15 

0.7 

0.8 

8.6 

operation 

מציאת תדרים 

מציאת אמפליטודות-‏ 1 

תדרים סמוכים 

מודל פסיכואקוסטי 

מציאת אמפליטודות-‏ 2 

Pitch 

שני מעטפות ספקטרליות 

רציפות פאזה 

ניתוח רעש 

קוונטיזציה 

טבלה 9.3: בדיקת זמני הרצה.‏ 

Table 9.3: Checking running times. 

זמן עיבוד כולל ‏(בתוכנה (matlab של מסגרת אחת הוא כ-‏ 0.5 שניה.‏ 

הערכת זמן ההרצה של מקודד HILN הוא כ-‏ 0.2 שניה.‏ כלומר,‏ זמן ההרצה של המקודד המוצע 

גדול בערך פי 2.5 מזמן ההרצה של המקודד .HILN 

- 114 -

פרק 10 

סיכום והצעות להמשך מחקר 


עבודה זו התמקדה בקידוד אותות שמע בקצבים נמוכים של 16,000 סיביות בשניה ומטה.‏ בשלב 

הראשון של העבודה,‏ מומש מקודד פרמטרי HILN ‏(מקודד ומפענח)‏ על פי סקר ספרות שבוצע.‏ 

מקודד 

HILN 

מפריד את אות הכניסה למספר מרכיבים ‏(הרמוניות,‏ סינוסים בדידים ורעש),‏ 

כאשר כל מרכיב מיוצג ע"י פרמטרים.‏ קבוצת כל הפרמטרים מקודדים ליצירת רצף סיביות 

הנשלח אל המפענח.‏ המפענח מבצע פעולה הפכית לתהליך הקידוד,‏ על מנת לפענח את כל 

הפרמטרים.‏ בעזרת הפרמטרים משחזרים את מרכיבי אות השמע.‏ 

בשלב השני של העבודה נבחנו גישות שונות לכל בלוק במערכת,‏ על מנת לשפר את המודל ואת 

מיצוי פרמטריו כדי לשפר את איכות אות השמע המשוחזר.‏ 

העבודה התמקדה בשיפורם של:‏ 

המודל הסינוסואידלי,‏ 

- 115 - 

ייצוג תדרים ואמפליטודות במודל 

ההרמוני וקידוד הפרמטרים.‏ המודל הסינוסואידלי מתבסס על יצוג אות כניסה ע"י סכום סופי 

של סינוסים המאופיינים בעזרת הפרמטרים:‏ 

אמפליטודה,‏ 

הסינוסואידלי מבצעים מיצוי של המרכיבים הטונליים באות הכניסה.‏ 

תדר ופאזה.‏ 

במסגרת המודל 

המודל מתקשה במיצוי מרכיבים בעלי תדרים סמוכים,‏ דבר הנובע ממגבלת רזולוציית התדר של 

קטע האות הנבדק.‏ לפיכך,‏ המודל הקיים לא מייצג את כלל המרכיבים הטונליים באות השמע.‏ 

בעבודת המחקר הועלו מספר רעיונות לשיפור המודל.‏ 

המאפשרת הפרדת מרכיבים צמודים בתחום התדר.‏ 

עפ"י אחד הרעיונות,‏ 

הוצגה טכניקה 

הטכניקה מבוססת על פיתרון משוואת 

השגיאה ‏(בין אות הכניסה המקורי ובין סכום סופי של סינוסים)‏ בשיטת המרובעים המצומצמים 

Squares) ,(Least כאשר סדרת התדרים אינה ידועה.‏ 

פיתרון המשוואה נותן ביטוי,‏ התלוי אך ורק בסדרת תדרים ‏(ללא תלות באמפליטדות ופאזות).‏ 

ע"י הצבת סדרת תדרים בביטוי,‏ מחפשים את זוג התדרים,‏ המביא את ערך הביטוי למקסימום.‏ 

שימוש בשיטה זו הביא לגילוי סינוסים צמודים בתחום תדר,‏ שנראו כסינוס יחיד בתהליך החיפוש 

הרגיל.‏ 

רק לאחר מיצוי כל המרכיבים הטונליים נעזרים במודל הפסיכואקוסטי בכדי לסנן את 

סינוסים,‏ 

הסינוסים.‏ 

שלא ישמעו לאוזן האנושית.‏ 

בתהליך זה ניתן לצמצם בממוצע כ-‏ 

40% 

אותם 

בכמות 

לאחר מיצוי כל המרכיבים הטונליים ומציאת הפרמטרים ‏(תדר,‏ פאזה ואמפליטודה),‏ נדרש לייצג 

פרמטרים אלו בצורה יעילה.‏ לשם כך משתמשים במודל ההרמוני.‏ המודל ההרמוני של HILN 

כולל ייצוג של תדר יסודי 

(pitch) 

יחיד,‏ דבר שהוא מתאים מאוד עבור אותות דיבור,‏ אבל אינו 

מתאים למגוון רחב אחר של אותות השמע,‏ המכילים מספר תדרים יסודיים.‏ שימוש בתדר יסודי 

יחיד מאפשר ייצוג של מספר מועט של סינוסים,‏ ולכן נשאר מספר רב של סינוסים בדידים לא

מיוצגים.‏ הפרמטרים של כל סינוס בדיד ‏(אמפליטודה ותדר)‏ דורשים מספר רב של סיביות,‏ ומאחר 

שקיימת מגבלה על כמות הסיביות,‏ לא כל הסינוסים מקודדים ‏(מידע רב לא משודר).‏ 

במהלך העבודה נבחנו מספר גישות למציאת תדרים יסודיים.‏ אחת הגישות יושמה במקודד 

המוצע.‏ הטכניקה מבוססת על מציאת תדרים יסודיים,‏ לא בהכרח אמיתיים,‏ אשר נותנים כיסוי 

מירבי של תדרי הסינוסים,‏ דבר משמעותי משיקולי דחיסה.‏ הטכניקה פועלת באיטרציות,‏ כאשר 

בכל איטרציה מחושב תדר יסודי אחד ‏(הדומיננטי).‏ משיקולי דחיסה ויעילות קידוד,‏ מספיקים 

שני תדרים יסודיים על מנת להגיע לכיסוי מירבי.‏ שני תדרים יסודיים נותנים כיסוי ממוצע של כ-‏ 

96% מקבוצת התדרים.‏ 

מאחר שהתדרים היסודיים אינם אמיתיים,‏ מספרי ההרמוניות אינם עוקבים.‏ במצב זה,‏ הרבה 

כפולות של כל תדר יסודי אינן קיימות כלל.‏ לפיכך,‏ קיים צורך לקודד את מיקום ההרמוניות.‏ קטע 

קוד זה הוא גדול במיוחד,‏ שכן נדרש לציין לא מעט מידע.‏ 

במסגרת העבודה,‏ נבחנו מספר גישות לקידוד מידע זה בצורה יעילה.‏ במודל המוצע משתמשים 

בשתי גישות יעילות.‏ גישה אחת מתארת קיום של כל כפולה של תדר הבסיס בעזרת סיבית אחת.‏ 

גישה שניה מתארת את ההפרש בין כל הרמוניה ע"י שימוש בקוד 

.Huffman 

השיטה המיושמת 

בכל מסגרת היא היעילה מבין שתי השיטות.‏ קטע קוד זה,‏ המסמן את מיקום ההרמוניות,‏ צורך 

בממוצע כ-‏ 100 סיביות.‏ 

‏"המחיר"‏ שצריך לשלם ‏(כ-‏ 

100 סיביות)‏ 

בתמורה למציאת תדרי בסיס המביאים לכיסוי מירבי,‏ 

משתלם בסופו של דבר,‏ כיוון שמספר הסינוסים הבדידים ‏(שלא מכוסה ע"י שני תדרי בסיס)‏ הוא 

קטן מאוד.‏ 

בעבודה,‏ מוצגים מספר גישות לייצוג האמפליטודות של ההרמוניות בצורה יעילה ע"י מעטפת 

ספקטרלית,‏ המורכבת ממקדמי .LPC הגישות כוללות מודל איטרטיבי לחישוב מקדמי ה-‏ ,LPC 

המביאים את המעטפת לייצוג יותר מדוייק של האמפליטודות,‏ בדיקת השפעת מספר המקדמים 

על המעטפת,‏ צמצום התחום הדינמי של האמפליטדות ‏,ביצוע מתיחת תחום התדר על פי המודל 

השמיעה האנושית ושימוש בשתי מעטפות ספקטרליות.‏ 

בדיקת המקודד הפרמטרי המשופר בעזרת תוכנת 

הראתה שיפור באיכות השמע בהשוואה למקודד 

נקודות).‏ 

,EAQUAL 

0.4 של ,HILN 

שמפיקה מדד לאיכות השמע,‏ 

נקודות ‏(בסולם של 

-4 עד 0 

10.2 הצעות להמשך מחקר 

בעבודה זו התמקדנו בהפרדת זוג תדרים סמוכים,‏ שנתגלו כתדר יחיד במודל הרגיל.‏ ניתן 

להרחיב את המודל למצבים בהם ישנם יותר משני סינוסים סמוכים זה לזה בתדר.‏ 

האלגוריתם למציאת שני תדרים סמוכים הוא מורכב למימוש והרחבתו למציאת שלושה 

תדרים ויותר רק תגביר את הסיבוכיות.‏ הצעה להמשך היא לנסות להוריד את סיבוכיות 

האלגוריתם ולהשתמש בו ככלי למציאת מספר רב של תדרים סמוכים.‏ 

.1 

בעיה שנוצרה בהפעלת הטככניקה להפרדת תדרים סמוכים,‏ היא לדעת לזהות באילו 

מהמקרים נדרשת הפעלת האלגוריתם,‏ כלומר מתי מסתתרים מאחורי שיא יחיד 

.2 

- 116 -

בספקטרום סינוסים נוספים.‏ ישנם מקרים בהם תדר הסינוס משתנה במהלך מסגרת 

הזמן.‏ סינוס זה נמרח על פני מספר תאי תדר בתמונת הספקטרום ולכן שארית האנרגיה 

גדולה.‏ במצב זה האלגוריתם פועל למציאת שני סינוסים.‏ הצעה להמשך מחקר היא 

לנסות לאתר מצבים אלו,‏ בעזרת עקיבה בין מסגרות.‏ 

ניתן לשדר פרמטרים של סינוסים בדידים לא ע"י מספר קבוע של סיביות 

סיביות (10 

לפרמטר התדר ושש סיביות לפרמטר האמפליטודה).‏ ניצול המודל הפסיכואקוסטי 

מאפשר לבדוק את חשיבותו של כל סינוס.‏ לפי חשיבות זו,‏ ניתן לדרג כל סינוס ולווסת 

את מספר הסיביות בהתאם.‏ הבעיה היא שצריך להוסיף מידע צד,‏ המגדיר את מספר 

הסיביות לכל פרמטר.‏ 

.3 

ניתוח מעמיק יותר של האות שנשאר לאחר הוצאת כל המרכיבים הטונליים.‏ במקודד 

HILN ובמקודד הפרמטרי המשופר ממדלים את אות השארית בעזרת מודל רעש.‏ 

ניתן לקודד את המרכיבים הספקטרליים בעלי העוצמה החזקה ביותר באות השארית.‏ 

.4 

- 117 -

נספח א'‏ 

מציאת אמפליטודות בעזרת Least Squares 

פונקציית השגיאה נתונה ע"י:‏ 

E = 

M 

⎛ 

∑ 

⎛ 

( ) cos(2 ) 

⎞ 

( ) 

⎞ 

⎜⎜ 

x n − ∑ ai 

⋅ πfin 

+ φi 

⎟ ⋅ w n ⎟ 

⎝⎝ 

⎠ ⎠ 

N samp 

n= 0 i= 

1 

2 

(A-1) 

כאשר N samp הוא מספר הדגימות במסגרת (512). M הוא מספר המרכיבים הסינוסואידליים.‏ 

.i 

i. הוא תדר הסינוס ה-‏ f i הוא אות הכניסה,‏ x(n) 

i. הוא אמפליטודת הסינוס ה-‏ a i 

w(n) הוא פונקציית החלון.‏ 

φ i הוא פאזת הסינוס ה-‏ 

ניתן לרשום את ביטוי השגיאה בתחום התדר:‏ 

E = 

N samp 

2 

−1 

M 

∑ X ( k) 

− ∑A 

⋅W 

( k − 

k= 0 

i= 

1 

i 

f i 

) 

2 

(A-2) 

כאשר X(k) הוא ספקטרום אות הכניסה ‏(התמרת ,(DFT 

בתדר 

A i הוא האמפליטודה הקומפלקסית ה-‏ 

) i W(k-f הוא ספקטרום של החלון מוזז 

.i 

.f i 

ביטוי השגיאה בצורה וקטורית:‏ 

E = 

X 

− Q ⋅ 

2 

A 

(A-3) 

כאשר X הוא ספקטרום הכניסה:‏ 

X 

⎡ 

⎢ 

⎢ 

= ⎢ 

⎢ 

⎢X 

( 

⎣ 

X (0) ⎤ 

X (1) 

⎥ 

⎥ 

⎥ 

⎥ 

−1) 

⎥ 

2 ⎦ 

N samp 

(A-4) 

A הוא וקטור העוצמות:‏ 

- 118 -

ה Q 

⎡ A 

⎢ 

⎢ 

A 

A = 

⎢ 

⎢ 

⎣ 

1 

2 

A M 

⎤ 

⎥ 

⎥ 

⎥ 

⎥ 

⎦ 

(A-5) 

יא מטריצה,‏ המורכבת מסדרה של חלונות W i בתחום התדר המוזזות בתדר f. i 

⎡⎡ 

⎤⎡ 

⎢ 

Q = 

⎢ ⎥⎢ 

⎢⎢ 

W1 

⎥⎢ 

W 

⎢ 

⎣ 

⎢⎣ 

⎥⎦ 

⎢⎣ 

2 

⎤⎡ 

⎤⎡ 

⎥⎢ 

⎥⎢ 

⎥⎢ 

 

⎥⎢ 

W 

⎥⎦ 

⎢⎣ 

⎥⎦ 

⎢⎣ 

M 

⎡ W1 

(0) 

⎤⎤ 

⎢ 

⎢ 

W1 

(1) 

⎥⎥ 

⎥⎥ 

= ⎢ 

⎥⎦ 

⎥ ⎢ N 

⎦ 

samp 

⎢W1 

( −1) 

⎣ 2 

… 

… 

 

… W 

M 

WM 

(0) ⎤ 

W 

⎥ 

M 

(1) 

⎥ 

⎥ 

N 

samp 

⎥ 

( −1) 

⎥ 

2 ⎦ 

(A-6) 

כמתואר באיור 1-B. f, i בעל 512 מקדמים מוזז בתדר Hamming של חלון DFT הוא התמרת W i 

300 

Hi 

250 

200 

amplitude 

150 

100 

50 

0 

0 500 1000 1500 

frequency[Hz] 

Figure A-1: The spectrum of a shifted Hamming window. 

In the example, the window is shifted by 625Hz. 

איור 1-A: ספקטרום של חלון המינג מוזז.‏ 

בדוגמה,‏ החלון מוזז ב-‏ . 625Hz 

המטרה היא למזער את ביטוי השגיאה:‏ 

min X − Q ⋅ A 

2 

(A-7) 

מציאת המינימום של פונקציית השגיאה נעשה ע"י ביצוע גזירה לפי A, 

- 119 -

dE 

d A 

= 0 

(A-8) 

פיתוח ביטוי השגיאה:‏ 

E = 

X − Q ⋅ A 

2 

= 

T 

( X − Q ⋅ A) ( X − Q ⋅ A) 

(A-9) 

פעולת הגזירה נותנת:‏ 

dE 

d A 

T 

T 

T 

[ − Q ⋅ ( X − Q ⋅ A) 

] − ( X − Q ⋅ A) ⋅ = 0 

= Q 

(A-10) 

המשך הביטוי:‏ 

T 

T 

( X − Q ⋅ A) ⋅Q 

− ( X − Q ⋅ A) ⋅ = 0 

= − 

Q 

(A-11) 

ולכן,‏ 

T 

( X − Q ⋅ A) ⋅Q 

0 

− 2 ⋅ 

= 

(A-12) 

X 

T 

⋅ Q = 

A 

T 

⋅ Q 

T 

⋅ Q 

(A-13) 

A 

T 

T 

T 

= X ⋅ Q ⋅ ( Q ⋅ Q) 

−1 

(A-14) 

⇒ 

A = ( Q 

T 

⋅ Q) 

−1 

⋅ Q 

T 

⋅ X 

(A-15) 

A 

וקטור A, 

המתקבל הוא בעל ערכים קומפלקסיים,‏ 

ערך מוחלט של 

נותן את האמפליטודה 

והזווית של A נותנת את הפאזה.‏ 

- 120 -

נספח ב'‏ 

המרה [48] LPCLSF 

,IIR 

,c i 

סדרת פרמטרי ה-‏LPC‏,‏ 

מסומנת ע"י 

מהווים את מקדמי מסנן 

המייצג את המעטפת 

הספקטרלית של אות השמע.‏ 

פולינום המסנן ההופכי נתון ע"י:‏ 

−1 

−2 

−3 

A( 

Z ) = 1 − c Z − c Z − c Z − … − c S 

Z 

1 

2 

3 

− S 

(B-1) 

כאשר S מציין את מספר המקדמים.‏ 

מייצרים 2 פולינומים חדשים:‏ 

− S + 1) 

P( 

Z ) = A( 

Z ) + Z ⋅ A( 

Z 

( −1 

) 

(B-2) 

− S + 1) 

Q( 

Z ) = A( 

Z ) − Z ⋅ A( 

Z 

( −1 

) 

מהצבת A(Z) מקבלים:‏ 

P ( Z ) = 1 − ( c 

1 

− ( c 

+ c 

2 

S 

+ c 

) ⋅ Z 

S −1 

−1 

) ⋅ Z 

− ( c 

2 

−( 

S −1) 

+ c 

− ( c 

S −1 

1 

) ⋅ Z 

+ c 

S 

−2 

) ⋅ Z 

− ( c 

−S 

3 

+ c 

+ Z 

S −2 

−( 

S + 1) 

) ⋅ Z 

−3 

− … 

(B-3) 

Q ( Z ) = 1 + ( c 

S 

+ ( c 

2 

− c ) ⋅ Z 

1 

− c 

S −1 

−1 

) ⋅ Z 

+ ( c 

−( 

S −1) 

S −1 

− c 

+ ( c 

1 

2 

) ⋅ Z 

− c 

S 

−2 

) ⋅ Z 

+ ( c 

−S 

S −2 

− Z 

− c 

3 

−( 

S + 1) 

) ⋅ Z 

−3 

+ … 

(B-4) 

,1 

לפולינום ,P(Z) 

1+S שורשים על מעגל היחידה.‏ שורש אחד שווה ל-‏ 

ועוד S שורשים מרוכבים 

(2/S זוגות של שורשים צמודים).‏ מבין S השורשים בוחרים ב-‏ 2/S שורשים בעלי איבר מדומה 

S 

,-1 

חיובי ‏(נמצאים בחצי העליון של מעגל היחידה).‏ 

בצורה דומה,‏ לפולינום ,Q(Z) 1+S 

שורשים מרוכבים.‏ מבין 

שורשים על מעגל היחידה.‏ שורש אחד שווה ל-‏ 

השורשים בוחרים ב-‏ 

ועוד 

2/S שורשים הנמצאים בחצי העליון של מעגל 

S 

היחידה.‏ 

. 0 < φ i 

מחשבים את הזוויות של כל שורש < π 

מבצעים התמרת הזוויות לתדרים ע"י:‏ 

f 

i 

φ 

= i 

2 π 

⋅ 

fs 

(B-5) 

- 121 -

כאשר fs הוא קצב הדגימה והוא שקול ל-‏ 16000. 

מסדרים את S התדרים לפי סדר עולה לקבלת פרמטרי ה-‏ .LSF 

- 122 -

נספח ג'‏ 

המרה [48] LSF LPC 

מחלקים את הוקטור (S תדרי ,(LSF 

סדרה א'‏ תכיל את כל התדרים במיקום האי-‏ זוגי:‏ 

לשתי סדרות בצורה הבאה:‏ 

set 

{ Lsf , Lsf , Lsf ,… 

Lsf } 

1 = 1 3 5 

, 

S − 1 

(C-1) 

סדרה ב'‏ תכיל את כל התדרים במיקום זוגי:‏ 

{ Lsf , Lsf , Lsf , Lsf } 

set = 

, 

2 

2 4 6 

… 

S 

(C-2) 

התמרת התדרים לזוויות מתבצעת ע"י:‏ 

Lsf 

φ = i 

i 

⋅ 2π fs 

(C-3) 

ונקבל את סדרות הפאזות:‏ 

set 

{ φ , φ , φ ,… 

φ } 

1 = 1 3 5 

, 

S − 1 

(C-4) 

{ φ , φ , φ , , } 

set 2 = 

2 4 6 

… φ S 

(C-5) 

לכל סדרה מייצרים 1+S מספרים קומפלקסיים על מעגל היחידה,‏ ל-‏ 2/S מספרים קומפלקסיים 

נתונה הזווית,‏ 2/S נוספים הם הצמודים הקומפלקסים שלהם ומספר נוסף הוא 1- או 1 בהתאמה 

לכל קבוצה.‏ בדרך זו מקבלים 1+S 

שורשים של שני פולינומים:‏ 

מספרים קומפלקסים על מעגל היחידה,‏ מספרים אלו הם 

poly 

poly 

jφ 

{ } 

1 − jφ 

1 jφ 

3 − jφ 

1, , , , 

3 jφ 

, 

5 − jφ 

, 

5 jφS 

− 

, 

1 , − jφ 

e e e e e e … e e 

1 

S − 

1 = 

jφ2 − jφ2 

jφ4 

− jφ4 

jφ6 

− jφ 

jφ 

{ } 

S − jφ 

−1, 

e , e , e , e , e , e …, 

e e 

S 

2 

6 

= , 

(C-6) 

(C-7) 

מחשבים את שני הפולינומים P(Z) ו-‏ .Q(Z) 

- 123 -

מקדמי ה-‏ LPC הם מקדמיו של ,A(Z) המורכב משני הפולינומים.‏ 

חישוב 

:A(Z) 

A( 

Z ) = 

P( 

Z ) + Q( 

Z ) 

2 

(C-8) 

מקבלים את מקדמי A(Z) ע"י סיכום המקדמים משני הפולינומים וחלוקה ב-‏ 2. 

מקדמי 

,A(Z) 

‏(החל מהמקדם השני ועד המקדם האחרון)‏ הם מקדמי ה-‏ LPC עם סימן שלילי.‏ 

- 124 -

נספח ד'‏ 

בניית המילון 

המילון הוא מעין מדגם מייצג של מאגר שלם של וקטורים.‏ ככל שהמאגר יהיה גדול יותר כך 

יתקבלו תוצאות טובות יותר,‏ המייצגות תחום רחב יותר.‏ וקטור מייצג נקרא מילה.‏ מאחר וכמות 

המילים מוגבלת יש צורך למצות את המאגר בצורה הטובה ביותר על מנת שהייצוג יהיה יעיל.‏ 

מספר הוקטורים במדגם הוא כ-‏ 300,000 וקטורים.‏ 

המילון נבנה על פי אלגוריתם LBG המתואר בהרחבה ב-‏ [28]. 

האלגוריתם פועל במספר שלבים.‏ 

השלב הראשוני מאותחל ע"י מילה אחת מייצגת עבור כלל 

וקטורי המדגם.‏ המילה המייצגת היא הממוצע של כל מדגם הוקטורים,‏ כמתואר ע"י:‏ 

w 

1 

= 

1 

L 

L 

∑ X i 

i= 

1 

(D-1) 

כאשר w מתאר מילת ייצוג,‏ L הוא גודל המדגם ‏(כ-‏ 

300,000 וקטורים)‏ 

ו-‏ 

X i מסמן את הוקטור 

i במדגם.‏ ה-‏ 

במעבר משלב לשלב מוכפלים מספר המילים ‏(רמות הייצוג)‏ המרכיבות את המילון,‏ ע"י פיצול כל 

רמת ייצוג לשתי רמות ייצוג לפי:‏ 

w 2 i− 

1 

= wi 

ε 

+ ε 

(D-2) 

w 2i 

= w i 

− 

כלומר , בשלב השני ישנם 2 רמות ייצוג,‏ בשלב השלישי 4 רמות,‏ וכך הלאה.‏ 

השלב האחרון הוא השלב בו מספר המילים המייצגות שווה לגודל המילון,‏ כפי שתוכנן.‏ בכל שלב 

יש מספר איטרציות,‏ המביאות את המילים לייצוג האופטימלי של כל וקטורי המדגם,‏ מהבחינה 

של מינימום שגיאה ריבועית ‏(מרחק).‏ בכל איטרציה,‏ המילים ‏(רמות הייצוג)‏ מקבצות סביבם את 

הוקטורים הקרובים ביותר אליהם מבחינת שגיאה ריבועית,‏ המתואר,‏ 

R = 

( − ) 2 

w i 

X k 

(D-3) 

הרכבת הקבוצות ‏(בתוך מאגר הוקטורים)‏ מתרחשת לאחר חישוב המרחקים של כל וקטור במאגר 

מכל רמות הייצוג.‏ לאחר הרכבת הקבוצות ניתן לחשב רמות ייצוג חדשות שהן הממוצע של כל 

קבוצה.‏ 

ניתן לחשב את העיוות 

‏(השגיאה)‏ 

של המילון החדש שנוצר ע"י מיצוע של השגיאות 

הריבועיות בין כל וקטור במאגר הוקטורים לבין מילת הייצוג שלו ‏(הקרובה אליו).‏ 

- 125 -

שלב זה מגיע לסיומו ברגע שהשגיאה מתכנסת ורמות הייצוג(מילים)‏ 

האופטימליות.‏ 

מתייצבות על הרמות 

השגיאה הריבועית בייצוגו של וקטור מן המאגר כוקטור מסוים ‏(מילה במילון)‏ היא המרחק 

האוקלידי בין שני הוקטורים,‏ כלומר מפרידים כל רכיב ‏(מימד)‏ לחוד,‏ מחשבים את ההפרש בין 

רכיבי הוקטור לכל מימד,‏ מעלים בריבוע ומסכמים אותם,‏ כמתואר במשוואה:‏ 

e = ( x 

w 

2 

2 

2 

2 

1 

− w1 

) + ( x2 

− w2 

) + ( x3 

− w3 

) + ( x4 

− 

4 

) 

(D-4) 

כאשר 

X k 

= [ x1, 

x2, 

x3, 

x4] 

הוא וקטור במדגם ‏(לדוגמה,‏ במימד 

W i הוא 

= [ w1 , w2 

, w3 

, w4 

] ,(4 

מילה במילון.‏ 

זוהי שגיאה ריבועית רגילה,‏ הנותנת עדיפות שווה לכל מימד.‏ שגיאה ריבועית משוקללת נותנת 

משקל שונה לכל מימד 

.[27] 

משמעותיים,‏ כמתואר במשוואה:‏ 

במדידה זו נותנים עדיפות למרכיבי הוקטור היותר חשובים או 

e = a 

2 

2 

2 

2 

1 

⋅ ( x1 

− w1 

) + a2 

⋅ ( x2 

− w2 

) + a3 

⋅ ( x3 

− w3 

) + a4 

⋅ ( x4 

− w4 

) 

(D-5) 

כאשר 

A = [ a1, 

a2, 

a3, 

a4 

] 

הם מקדמי השקלול והם מנורמלים כך שסכומם שווה לאחד.‏ רכיבי 

הוקטור הם תדרים,‏ לכן המשקל של כל רכיב יהיה לפי עוצמת הספקטרום באותו תדר.‏ 

מדידה זו נותנת יותר חשיבות ‏(מישקול)‏ לפרמטרי 

גבוהה יותר מאשר פרמטרי 

LSF 

LSF 

הקשורים לתדרים בעלי אמפליטודה 

הקשורים לתדרים בעלי אמפליטודה נמוכה.‏ פרמטרי ה-‏ 

LSF 

הקשורים לעמקי הספקטרום מקבלים הכי פחות חשיבות.‏ 

שיקלול נוסף המתבצע הוא הקטנת החשיבות של הפרמטרים האחרונים בוקטור.‏ האוזן האנושית 

לא מבחינה בהבדלים בתדירויות גבוהות,‏ כפי שהיא מבחינה בתדירויות נמוכות.‏ כדי לנצל זאת 

נותנים יותר משקל לפרמטרי 

LSF 

טובות בהרבה מאלה המתקבלות ללא שימוש בשיקלול.‏ 

נמוכים.‏ בעזרת המדידה עם השיקלול מתקבלות תוצאות 

- 126 -

רשימת מקורות 

[1] ISO/IEC 11172-3 international standard, "Information Technology – Coding 

of moving pictures and associated audio for digital storage media up to about 

1.5Mbit/s", 1993. 

[2] Karlheinz Brandenburg, "MP3 and AAC Explained", AES 17 th International 

Conference on High Quality Audio Coding, Fraunhofer Institute for Integrated 

Circuits FhS-IISA, Erlangen, Germany, 1999. 

[3] Karlheinz Brandenburg, "Low Bitrate Audio Coding- State of the Art, 

Challenges and Future Directions", Proceeding of ICSLP2000. 

[4] Shlien, S., "Guide to MPEG-1 Audio Standard", IEEE Transactions on 

Broadcasting, Vol. 40, No. 4, pp. 206-218, December 1994. 

[5] K. R. Rao, J. J. Hwang, "Techniques and Standards for Image, Video, and 

Audio Coding", chapter 10, pp. 242-272, 1996. 

[6] Karlheinz Brandenburg, Oliver Kunz, Akihiko Sugiyama, "MPEG-4 natural 

audio coding", Signal Processing: Image Communiction, 15 (2000), 

pp. 423-444. 

[7] Tetsuya Takahashi, Takashi Morita, "Card Size Portable Audio Player Using 

High Quality Audio Coding Technology TWIN VQ", Cyber Space 

Laboratories, Japan, 2000, pp. 907-913. 

[8] Jurgen Herre, Bernhard Grill, "Overview of MPEG-4 Audio and its 

Applications in Mobile Communications", Audio Department, Erlangen, 

Germany, AES 17 th International Conference on High Quality Audio Coding, 

1999. 

[9] N. Iwakami, T. Moriya and S. Miki, "High quality audio coding at less than 64 

kbit/s by using transform-domain weighted interleave vector quantization 

(TwinVQ)", Proc. ICASSP-95, May 1995, pp. 3095-3098. 

[10] Heiko Purnhagen, "An Overview of MPEG-4 Audio Version 2", AES 17th 

International Conference on High-Quality Audio Coding, Florence, Italy, 

September 1999. 

[11] Bernd Edler, Heiko Purnhagen, "Concepts for Hybrid Audio Coding Schemes 

Based on Parametric Techniques", Preprint 4808, 105th AES Convention, San 

Francisco, September 1998. 

[12] Heng-Ming Tai, Shudei Jiang, "MPEG-4 Parametric Audio Coding and its 

Implementation", Department of Electrical Engineering, University of Tulsa, 

pp. 762-766, 1999. 

[13] Bernd Edler, Heiko Purnhagen, "Parametric Audio Coding", 5th International 

Conference on Signal Processing (ICSLP 2000), Beijing, August 2000. 

- 127 -

[14] Heiko Purnhagen, "Advances in Parametric Audio Coding", University of 

Hannover, Germany, Proc, 1999 IEEE Workshop on Application of Signal 

Processing to Audio and Acoustic. 

[15] Heiko Purnhagen, Nikolaus Meine, "HILN – The MPEG-4 Parametric Audio 

Coding Tools", University of Hannover, Germany, ISCAS 2000, IEEE 

International Symposium on Circuits and Systems, pp. 201-204, May 2000. 

[16] Heiko Purnhagen, Bernd Edler, Charalampos Ferekidis, "Object-Based 

Analysis/Synthesis Audio Coder for Very Low Bit Rates", University of 

Hannover, Germany, AES 104 th convention, preprint 4747, May 1998. 

[17] ISO/JTC 1/SC 29/WG11 International standard, "Information Technology – 

Very Low Bitrate Audio-Visual Coding", October 1996. 

[18] Heiko Purnhagen, Nikolaus Meine, Bernd Edler, "Speeding up HILN – 

MPEG-4 Parametric Audio Encoding with Reduced Comlexity", University of 

Hannover, Germany, AES 109 th convention, September 1999, 

http://www.tnt.uni-hannover.de/org/whois/wissmit/purnhage/publications.html 

[19] Chris A. Lanciani, "Auditory Perception and the MPEG Audio Standard", 

thesis, Gorgia Institute of Technology, August 1995. 

[20] Andreas Spanias, "Perceptual Coding of Audio", Proceedings of the IEEE, 

Vol. 88, No. 4, April 2000, pp. 451-467. 

[21] Shinfeld Yehuda, "The Encyclopedia of Human Body – Ear and Hearing", 

pp. 8-21, 1986. 

[22] Matti Karjalainen and Tero Tolnen, "Multi-Pitch and Periodicity Analysis 

Model for Sound Separation and Auditory Scene Analysis", Helsinki 

University of Technology, Finland, 1999. 

[23] Tero Tolnen, Matti Karjalainen, "A Computationally Efficient Multipitch 

Analysis Model", IEEE transactions on speech and audio processing, Vol. 8, 

No. 6, pp. 708-716, November 2000. 

[24] Anssi P. Klapuri, "Multipitch Estimation and Sound Separation By The 

Spectral Smoothness principle", Tampere University of Technology, Finland, 

2001. 

[25] Dan Chazan, Meir Tzur, Ron Hoory, Gilad Cohen, "Efficient Periodicity 

Extraction Based on Sine Wave Representation and its Application to Pitch 

Determination of Speech Signals", IBM Research, Israel, 2001. 

[26] Tuomas Virtanen, Anssi Klapuri, "Separation of Harmonic Sounds Using 

Multipitch Analysis and Iterative Parameter Estimation", Signal Processing 

Laboratory, Tampere University of Technology, Finland, October 2001. 

[27] K.K. Paliwal, B.S. Atal, " Efficient Vector Quantization of Lpc Parameters at 

24 Bits/Frame", IEEE Tans. On Speech snd Audio Processing, Vol. 1, No. 1, 

- 128 -

Jan 1993, pp. 661-664. 

[28] Yoseph Linde, Andreas Buzo, Robert M. Gray, "An Algorithm for Vector 

Quantizer Ddesign"IEEE, Transactions on commusnications, Vol. 28, No.1, 

January 1980, pp. 84-95. 

[29] Kondoz, Multi-band excitation speech coder, chapter 8, pp.239-272, 1996. 

[30] Pushkar Patwardhan, Preeti Rao, “Frequency warped all-pole modeling of 

vower spectral dependence on voice and vowel quality”, Proceedings of 

Workshop on Spoken Language Processing, January 2003. 

[31] Diemo Schwarz, Xavier Rodet, "Spectral Envelope Estimation and 

Representation for Sound Analysis-Synthesis", Proceedings of the 

International Computer Music Conference, 1999. 

[32] Tenkasi Ramabadran, Aaron Smith, Mark Jasiuk, "An Itertaive Interpolative 

Transform Method for Modeling Harmonic Magnitudes", IEEE Workshop 

Proceedings, pp. 38-40, October 2002. 

[33] T. F. Quatieri, Speech Signal Processing, chapter 8, "Speech Coding", 2000. 

[34] R. J. McAulay, T. F. Quatieri, "Sinusoidal Coding", Chapter 4, Speech 

Systems Technology Group, MIT Lincoln Laboratory, pp. 121-173, 1995. 

[35] Jurgen Herre, Heiko Purnhagen, "General Audio Coding", the book "MPEG- 

4", chapter 11, pp. 487-544, 1999. 

[36] Matthew A. Watson, Peter Buettner, "Design and Implementation of AAC 

Decoders", Dolby Laboratories, pp 408-409, 2000. 

[37] Taeko Miwa, Yoshiaki Tadokoro, "Musical Pitch Estimation and 

Discrimination of Musical Instruments using Comb Filters for Transcription", 

Toyohashi University of Technology, Japan, pp. 105-108, 1999. 

[38] Anssi Klapuri, "Pitch Estimation Using Multiple Independent Time-Frequency 

Windows", Proc. IEEE Workshop on Applications of Signal Processing to 

Audio and Acoustics, October 1999, pp. 115-118. 

[39] Frank Baumgarte, "A Physiological Ear Model for Specific Loudness and 

Masking", Proceedings of the 1997 IEEE Workshop on Applications of Signal 

Processing to Audio and Acoustics, October 1997. 

[40] James A. Moorer, "Signal Processing Aspects of Computer Music- A Survey", 

Department of Music, Stanford University, California, February 1977. 

[41] Heiko Purnhagen, Nikolaus Meine, Bernd Edler "Sinusoidal Coding Using 

Loudness Based Componenet Selection", Proc. ICASSP2002, May 2002, 

pp. 1817-1820. 

[42] Hossien Najafzadeh-Azghandi, Peter Kabal, "Perceptual Coding Of 

Narrowband Audio Signals At 8 Kbit/s", Proc. IEEE Workshop on Speech 

- 129 -

Coding for Telecom, pp. 109-110, September 1997. 

[43] Ted Painter, , "Perceptual Segmentation and Component Selection in Compact 

Sinusoidal Representation of Audio", Ph.D. thesis (advisor: Andreas Spanias), 

2000. 

[44] Ye Wang, Leonid Yaroslavsky, Miika Vilermo, "Some Peculiar Properties of 

the MDCT", Proceedings of ICSP2000, pp. 61-64. 

[45] Das A. and Gersho A,, "Variable dimension spectral coding of speech at 2400 

bps and below with phonetic classification", Proc. IEEE Int. Conf. Acoust., 

Speech, Signal Processing, pp. 492-495, April 1995. 

[46] Link for EAQUAL software, "http://www.mp3-tech.org/programmer/ 

misc. html". 

[47] Rodet, Xavier, "Musical Sound Signal Analysis/Synthesis: Sinusoidal+Residal 

and Elementary Waveform Models". IEEE Time-Frequency and Time-Scale 

Workshop 1997, Coventry, Grande Bertagne. 

[48] D.P. Kemp, J.S. Collura, T.E. Tremain, "LPC parameter quantization at 600, 

800 and 1200 bits per second", Proceedings of the Tactical Communications 

Conference, 1992, pp. 71-75. 

- 130 -

×©××¤××¨ ×××× ×¤×¨×××¨× ××§×××× ×××ª××ª ×©××¢ ××§×¦××× × ××××× - SIPL - ×××× ×××

Create successful ePaper yourself

Delete template?

Save as template?

×©××¤××¨ ×××× ×¤×¨×××¨× ××§×××× ×××ª××ª ×©××¢ ××§×¦××× × ××××× - SIPL - ×××× ×××