พฤษภาคม 23, 2024, 05:29:22 PM *
ยินดีต้อนรับคุณ, บุคคลทั่วไป กรุณา เข้าสู่ระบบ หรือ ลงทะเบียน

เข้าสู่ระบบด้วยชื่อผู้ใช้ รหัสผ่าน และระยะเวลาในเซสชั่น
ข่าว: AVC เปิดเฟสและโซเชี่ยลใหม่ เพื่อนๆช่วยกดไลค์ติดตามด้วย
เวบเข้าสู่ปีที่ 15 แล้ว ท่านสามารถช่วยเหลือเวบได้โดยสมัคร VIP (ตลอดชีพ) อ่านคอมเมนท์จากผู้ใช้งานจริง ที่นี่
 
   หน้าแรก   ช่วยเหลือ เข้าสู่ระบบ สมัครสมาชิก  
0 สมาชิก และ 1 บุคคลทั่วไป กำลังดูหัวข้อนี้ « หน้าที่แล้ว ต่อไป »
หน้า: 1 ... 7 8 [9] 10 11 ... 13 พิมพ์
ผู้เขียน หัวข้อ: ใครอยากลองทำ Sub Title แบบแปลเองไหมครับ !! มา มาลองกัน  (อ่าน 21190 ครั้ง)
Takuya_Kimura
AV Highness Honour
คณะปฏิสนธิแห่งชาติ
***
ออฟไลน์ ออฟไลน์

กระทู้: 758



« ตอบ #80 เมื่อ: พฤศจิกายน 11, 2023, 01:15:08 AM »

ลืมบอกข้อดีของ pyTranscriber คือสามารถแปลงได้หลายๆเรื่องต่อๆกัน
ถ้านอน 4 ทุ่มเปิดทิ้งไว้ ตื่นมา 6 โมงเช้า ได้มาประมาณ 14-15 เรื่อง Grin
Cool

« แก้ไขครั้งสุดท้าย: พฤศจิกายน 11, 2023, 02:03:59 AM โดย Takuya_Kimura » บันทึกการเข้า

EmoCoNisT
AV DedicataR+ (VIP)
ปลิงควาย
*
ออฟไลน์ ออฟไลน์

กระทู้: 22


« ตอบ #81 เมื่อ: พฤศจิกายน 13, 2023, 10:01:07 AM »



ผมก็ทำคล้ายๆวิธีของท่าน ทำไว้ดูเกือบ2ปีละ แต่การดึงไฟล์ซับ .srt ออกมาจากไฟล์เสียง ผมใช้โปรแกรม pyTranscriber

1. ใช้โปรแกรม Format Factory แปลงไฟล์หนังให้ออกมาเป็นรูปแบบ .mp3 (ใช้เวลา5-8นาที)

2. เมื่อได้ไฟล์เสียงมาแล้วก็จับโยนลงใน pyTranscriber จะไวกว่าเพราะไฟล์เสียงมีขนาดเล็กกว่าไฟล์หนัง (ขั้นตอนนี้ใช้เวลาประมาณ 15-30นาที) แล้วแต่ความยาวของหนัง

3. พอได้ไฟล์ .srt มาแล้ว ก็มาแปลเป็นไทย SubTitle Edit ตามขั้นตอนที่ท่านกล่าวมา

วืธีนี้น่าจะไวกว่า ลองๆเทียบดูกันครับ


 



การดึงไฟล์เสียงออกจาก video ผมแนะนำลองใช้ ffmpeg ครับ

https://www.ffmpeg.org/

ลองศึกษาดูตามลิงค์นี้ วิธีการคร่าว ๆ ก็ดาวโหลด module มาติดตั้งให้เรียบร้อย แล้วเปิดใช้โดยการใช้ command line ครับ พวก cmd หรือ terminal ก็ได้ (จอดำ ๆ ไว้ใส่โค้ด)

พอเปิดมาแล้วก็พิมพ์ cd ตามด้วยที่อยู่ไฟล์วิดีโอ เช่น cd D:\SW-922

แล้วใส่โค้ดตามนี้ครับ เปลี่ยนแค่ชื่อไฟล์

ffmpeg -i SW-922.mp4 -vn -acodec copy SW-922.mp3

จะได้ไฟล์ mp3 มาแบบเร็วมาก ๆ ปกติหนังประมาณ 3-4 ชม. ใช้เวลาดึงไฟล์ไม่เกิน 5 วินาทีครับ

วิธีทำอาจจะดูยากนิดหน่อย แต่ถ้าคล่องแล้วจะแปปเดียว ไม่ต้องมานั่งรอหลายนาทีกับ format factory ครับ
บันทึกการเข้า
อบเชยเฉยๆ
AV Publisher
ผู้บัญชาการเอวีสูงสุด
***
ออฟไลน์ ออฟไลน์

กระทู้: 3779


อบเชยเด็กนครปฐม


« ตอบ #82 เมื่อ: พฤศจิกายน 13, 2023, 03:31:04 PM »

https://www.avcollectors.com/board/index.php?topic=233870.0

ขอยาดฝากมู้ FFMPEG ใครมีคำสั่งอะไรดีๆ ไปพิมพ์ทิ้งไว้ได้ เดะแก้ขึ้นหน้าแรกให้ มันเป็นโปรแกรมสารพัดสำหรับไฟล์สื่อต่างๆ
บันทึกการเข้า

กลุ่ม Telegram แจก Torrent Decensored
งานแก้เซ็นเอวีญี่ปุ่นจากคนจีนของพรี้ Darknight และ WG101
ราคา 49 บาทต่อเดือน ถ้าสนใจติดต่อ PM มาในบอร์ดได้เลย
อยากให้มาลองก่อนสัก 1 เดือน ชอบไม่ชอบค่อยว่ากัน
kkunurat
AV Dedicator (VIP)
ผู้บัญชาการเอวีสูงสุด
***
ออฟไลน์ ออฟไลน์

กระทู้: 1346



« ตอบ #83 เมื่อ: พฤศจิกายน 13, 2023, 10:01:57 PM »



ผมก็ทำคล้ายๆวิธีของท่าน ทำไว้ดูเกือบ2ปีละ แต่การดึงไฟล์ซับ .srt ออกมาจากไฟล์เสียง ผมใช้โปรแกรม pyTranscriber

1. ใช้โปรแกรม Format Factory แปลงไฟล์หนังให้ออกมาเป็นรูปแบบ .mp3 (ใช้เวลา5-8นาที)

2. เมื่อได้ไฟล์เสียงมาแล้วก็จับโยนลงใน pyTranscriber จะไวกว่าเพราะไฟล์เสียงมีขนาดเล็กกว่าไฟล์หนัง (ขั้นตอนนี้ใช้เวลาประมาณ 15-30นาที) แล้วแต่ความยาวของหนัง

3. พอได้ไฟล์ .srt มาแล้ว ก็มาแปลเป็นไทย SubTitle Edit ตามขั้นตอนที่ท่านกล่าวมา

วืธีนี้น่าจะไวกว่า ลองๆเทียบดูกันครับ


 



การดึงไฟล์เสียงออกจาก video ผมแนะนำลองใช้ ffmpeg ครับ

https://www.ffmpeg.org/

ลองศึกษาดูตามลิงค์นี้ วิธีการคร่าว ๆ ก็ดาวโหลด module มาติดตั้งให้เรียบร้อย แล้วเปิดใช้โดยการใช้ command line ครับ พวก cmd หรือ terminal ก็ได้ (จอดำ ๆ ไว้ใส่โค้ด)

พอเปิดมาแล้วก็พิมพ์ cd ตามด้วยที่อยู่ไฟล์วิดีโอ เช่น cd D:\SW-922

แล้วใส่โค้ดตามนี้ครับ เปลี่ยนแค่ชื่อไฟล์

ffmpeg -i SW-922.mp4 -vn -acodec copy SW-922.mp3

จะได้ไฟล์ mp3 มาแบบเร็วมาก ๆ ปกติหนังประมาณ 3-4 ชม. ใช้เวลาดึงไฟล์ไม่เกิน 5 วินาทีครับ

วิธีทำอาจจะดูยากนิดหน่อย แต่ถ้าคล่องแล้วจะแปปเดียว ไม่ต้องมานั่งรอหลายนาทีกับ format factory ครับ

เพิ่งรู้ว่ามีคำสั่งของ ffmpeg แปลง mp4 เป็น mp3 ได้รวดเร็ว
ขอบคุณมากเลยครับ

ปกติผมใช้แปลง ts เป็น mp4 ตามที่ท่านอบเชยบอก ก็แปลงได้รวดเร็วเหมือนกัน
บันทึกการเข้า


Ameri Ichinose RBD-291 https://avsubthai.me/632
CLUB-044
kkunurat
AV Dedicator (VIP)
ผู้บัญชาการเอวีสูงสุด
***
ออฟไลน์ ออฟไลน์

กระทู้: 1346



« ตอบ #84 เมื่อ: พฤศจิกายน 13, 2023, 10:08:05 PM »

ลืมบอกข้อดีของ pyTranscriber คือสามารถแปลงได้หลายๆเรื่องต่อๆกัน
ถ้านอน 4 ทุ่มเปิดทิ้งไว้ ตื่นมา 6 โมงเช้า ได้มาประมาณ 14-15 เรื่อง Grin
Cool



แปลงเป็นชุดก็มา สุดยอดครับ

ผมอาจจะไม่ได้ทำทีละเยอะเป็น 10 เรื่อง
แต่ก็เป็นข้อดีของโปรแกรมที่ดีมากๆ
บันทึกการเข้า


Ameri Ichinose RBD-291 https://avsubthai.me/632
CLUB-044
อบเชยเฉยๆ
AV Publisher
ผู้บัญชาการเอวีสูงสุด
***
ออฟไลน์ ออฟไลน์

กระทู้: 3779


อบเชยเด็กนครปฐม


« ตอบ #85 เมื่อ: พฤศจิกายน 15, 2023, 07:26:40 AM »

ขอบคุณท่านหมูดำสำหรับกระทู้ดีๆ นอกจากเรื่องแปลซับแล้ว ยังได้คุยต่อยอดถึง Aotosubtitle ด้วย
บันทึกการเข้า

กลุ่ม Telegram แจก Torrent Decensored
งานแก้เซ็นเอวีญี่ปุ่นจากคนจีนของพรี้ Darknight และ WG101
ราคา 49 บาทต่อเดือน ถ้าสนใจติดต่อ PM มาในบอร์ดได้เลย
อยากให้มาลองก่อนสัก 1 เดือน ชอบไม่ชอบค่อยว่ากัน
Corpus S
AV Dedicator (VIP)
ผู้ชำนาญการเอวี
***
ออฟไลน์ ออฟไลน์

กระทู้: 122



« ตอบ #86 เมื่อ: พฤศจิกายน 16, 2023, 12:43:14 PM »

ขอบคุณสำหรับข้อมูลดีๆครับ

หลังจากลองเล่นมาหลายวันพบว่าใช้ดีมากจริงๆเลยขอมาแบ่งปันประสบการณ์ เล่าถึงปัญหาที่เจอและวิธีแก้ไขเผื่อจะเป็นประโยชน์กับท่านอื่นๆครับ

การเลือกEngineแนะนำว่าควรเลือกรันด้วยgpuจะเร็วกว่าcpuมาก(เครื่องผมเร็วขึ้นประมาณ4-6เท่า) โดยแนะนำอยู่2ตัวคือ
1) Purfview's Faster-Whisper รองรับเฉพาะNVDIAเท่านั้น ใครใช้ค่ายเขียวแนะนำให้ใช้ตัวนี้เลยครับ ครบจบในตัว (เหตุผลโปรดอ่านต่อด้านล่าง)
2) Const-me ตัวนี้การ์ดจอAMDสามารถรันได้แต่มีปัญหานิดหน่อย
ส่วนตัวผมใช้GPU AMDเลยใช้ได้แค่ตัวConst-MEส่วนของตัวPurfviewถ้าไม่มีการ์ดจอnvdiaแล้วรันไปมันจะใช้แค่cpuอย่างเดียวครับ ผมทดสอบด้วยไฟล์หนัง TEAM-102 โดยตัดเอาส่วน28นาทีแรกของหนังมาทำซับด้วยSpec [CPU: R5 5800H, GPU: RX 6600M, RAM: 32 GB] พบว่า
-Const-me (GPU) model small ใช้เวลา 55วินาที
-Purftview’s (CPU) model small ใช้เวลา 124 วินาที
-Const-me (GPU) model medium ใช้เวลา 196วินาที
ส่วนตัว Purftview’s (CPU) model medium ไม่ได้รันเพราะขี้เกียจรอครับ 5555 Grin

ต่อมาปัญหาที่เจอในตัวConst-meซึ่งคิดว่าหลายๆท่านน่าจะเจอเหมือนกันคือถ้าหนังมีช่วงเงียบหรือไม่มีคำพูดนานๆ(รวมถึงฉากอย่างว่า)Whisperมันจะมีอาการถอดคำผิดๆออกมาหรือสร้างซับขึ้นมาซ้ำๆ โดยไม่จำเป็นว่าไฟล์หนังต้องนานกว่า1ชั่วโมงเลยครับ ทั้งนี้ถึงจะขยับมาใช้โมเดลขนาดกลางก็ยังไม่หาย (ผมไปหาข้อมูลในgithubหลายๆคนบอกว่าถึงใช้โมเดลlargeก็ยังเจอ)
ตัวอย่าง:


ซึ่งเท่าที่หาข้อมูลมาหลายๆแหล่งพูดตรงกันว่าสาเหตุมาจากตัวแกนของWhisperเองที่จะมีอาการหลอน(AI hallucination)เวลาถอดคำภาษาต่างประเทศแล้วเจอส่วนที่ไม่แน่ใจมันจะมั่วขึ้นมาเลยครับ อย่างไรก็ตามในโมเดลขนาดเล็กเหมือนกันปัญหานี้ในPurfview’s มีน้อยกว่าอย่างเห็นได้ชัด ซึ่งสาเหตุมาจากตัวPurfview’sมีการใช้งานVoice Activity Detector(VAD)ทำการกรองเอาส่วนที่ไม่มีเสียงคนพูดออกไปก่อนแล้วถึงใช้Whisperถอดคำเฉพาะส่วนที่มีเสียงคนพูดเท่านั้น ด้วยเหตุนี้ผมจึงแนะนำตัวPurfviewก่อนสำหรับคนที่มีการ์ดnvdiaครับ

แต่สำหรับคนใช้การ์ดจอAMD(เช่นผมเอง Cry)ต้องเล่นท่ายากนิดหน่อยครับ เหมาะสำหรับคนที่คุ้นเคยกับPython โดยผมได้เขียนสคริปเรียกใช้Silero-VADเพื่อให้มันกรองไฟล์ของเราก่อน1ชั้น โดยVADจะหั่นหนังเราออกเป็นไฟล์เสียงย่อยๆที่มีเฉพาะเสียงคนพูดรวมถึงบันทึกtimestampของแต่ละพาร์ทเพื่อจะได้เอากลับมารวมกันใหม่ได้

วิธีใช้
 1. ขั้นแรกเรียกใช้VADจากไฟล์runVAD.py


ไฟล์หนัง28นาที VADใช้เวลากรองแค่20วินาที ถือว่าไวมาก


จะได้ไฟล์เสียงย่อยออกมาหลายๆไฟล์อยู่ในโฟลเดอร์vad_chunksแบบนี้


 2. โยนไฟล์เสียงทั้งหมดในโฟลเดอร์vad_chunksใส่SubtitleEditได้เลย ใช้โหมดbatchจะได้สั่งทีเดียวถอดทุกไฟล์ต่อกันไปเลยครับและอย่าลืมเลือกengineให้ถูกเพื่อความรวดเร็ว


 3. หลังถอดเสียงทุกไฟล์ครบแล้ว เรียกใช้ไฟล์composeSub.pyเพื่อรวมซับทั้งหมดเป็นไฟล์เดียวเพื่อเอากลับไปแปลต่อในSubtitleEditได้เลยครับ


เปรียบเทียบผลลัพธ์กับแบบเดิม โดยรวมถือว่าดีขึ้นพอสมควร ช่วยให้เอาไปปรับต่อได้ง่ายขึ้นเยอะครับ


ถ้าใครสนใจสามารถโหลดสคริปPythonในนี้ของผมไปลองใช้ได้เลยครับ ข้อเสียหลักๆคือเวลาที่ใช้ถอดคำไฟล์ย่อยทีละไฟล์ดูเหมือนจะนานกว่าถอดไฟล์ใหญ่1ไฟล์ครั้งเดียวครับ กรณีของผมคือจาก~3นาทีกว่าๆเป็น~8นาทีแต่ก็ช่วยเพิ่มคุณภาพซับได้พอสมควรเลยครับ หวังว่าจะเป็นประโยชน์ครับ
« แก้ไขครั้งสุดท้าย: พฤศจิกายน 16, 2023, 12:46:26 PM โดย Corpus S » บันทึกการเข้า

EmoCoNisT
AV DedicataR+ (VIP)
ปลิงควาย
*
ออฟไลน์ ออฟไลน์

กระทู้: 22


« ตอบ #87 เมื่อ: พฤศจิกายน 16, 2023, 04:29:31 PM »

สุดยอดครับ เรื่อง VAD นี่ผมก็ศึกษาอยู่เหมือนกันก่อนจะมาเจอกระทู้นี้ ตอนนั้นผมยังใช้ Ctranslate2 Faster Whisper แล้วเขียน parameter กำกับเองอยู่บังคับให้โมเดลใช้ VAD ผลลัพธ์ออกมาดีกว่าไม่ใช้ VAD มาก ๆ

แต่ตอนนี้ทุกอย่างจบครบง่ายด้วยโปรแกรมที่เจ้าของกระทู้แนะนำแล้วเลือกโมเดล Purfview’s เหมือนเกิดใหม่ ไม่ต้องมานั่งเจนซับซ้ำ ๆ ค่อย ๆ ปรับ parameter พวก beam size หรือ threshold ต่าง ๆ แล้ว เพราะผลลัพธ์ที่ได้มันโอเคมากแล้ว ดูรู้เรื่อง

แต่รบกวนสอบถามนิดนึงครับว่า Purfview’s มันเลือกใช้ GPU อัตโนมัติเลยไหมครับถ้าเราใช้การ์ดจอ RTX (มี CUDA core) เพราะที่ผมใช้ Purfview’s อยู่ตอนนี้ก็เร็วกว่า Const-me มาก ๆ (หนัง 2 ชม. Purfview's ประมาณ 5-10 นาที Const-me 40 นาที++) แต่เช็คจาก Task manager เหมือนของผม Purfview’s ตอนรันดูจะใช้แต่ CPU แหะ GPU แทบไม่กระดิกเลย
บันทึกการเข้า
Corpus S
AV Dedicator (VIP)
ผู้ชำนาญการเอวี
***
ออฟไลน์ ออฟไลน์

กระทู้: 122



« ตอบ #88 เมื่อ: พฤศจิกายน 16, 2023, 05:53:28 PM »

สุดยอดครับ เรื่อง VAD นี่ผมก็ศึกษาอยู่เหมือนกันก่อนจะมาเจอกระทู้นี้ ตอนนั้นผมยังใช้ Ctranslate2 Faster Whisper แล้วเขียน parameter กำกับเองอยู่บังคับให้โมเดลใช้ VAD ผลลัพธ์ออกมาดีกว่าไม่ใช้ VAD มาก ๆ

แต่ตอนนี้ทุกอย่างจบครบง่ายด้วยโปรแกรมที่เจ้าของกระทู้แนะนำแล้วเลือกโมเดล Purfview’s เหมือนเกิดใหม่ ไม่ต้องมานั่งเจนซับซ้ำ ๆ ค่อย ๆ ปรับ parameter พวก beam size หรือ threshold ต่าง ๆ แล้ว เพราะผลลัพธ์ที่ได้มันโอเคมากแล้ว ดูรู้เรื่อง

แต่รบกวนสอบถามนิดนึงครับว่า Purfview’s มันเลือกใช้ GPU อัตโนมัติเลยไหมครับถ้าเราใช้การ์ดจอ RTX (มี CUDA core) เพราะที่ผมใช้ Purfview’s อยู่ตอนนี้ก็เร็วกว่า Const-me มาก ๆ (หนัง 2 ชม. Purfview's ประมาณ 5-10 นาที Const-me 40 นาที++) แต่เช็คจาก Task manager เหมือนของผม Purfview’s ตอนรันดูจะใช้แต่ CPU แหะ GPU แทบไม่กระดิกเลย

ถ้าเทียบcpuต่อcpu ตัวPrufview's Faster Whisperจะเร็วกว่าเพราะใช้Ctranslate2ครับ ผมลองรันคลิปตัวอย่างหนังขนาด2นาทีด้วยโมเดลsmall ตัวWhisper-CPP (cpu)ใช้57วินาที ส่วนPrufview's Faster Whisperใช้แค่30วินาทีเท่านั้นบนคุณภาพที่ดีกว่าเพราะมีVAD

ผมไม่มีการ์ดNVDIAเลยเทสgpuของPrufviewไม่ได้ แต่ในGithubต้นทางเขียนว่าถ้าตรวจเจอการ์ดจอจะใช้ให้เองเลยครับ
"Programs automatically will choose to work on GPU if CUDA is detected."
แนะนำลองเซตพารามิเตอร์(-cc)ตอนรันเพื่อดูว่าโปรแกรมหาCUDA devicesเจอไหมครับ
บันทึกการเข้า

kkunurat
AV Dedicator (VIP)
ผู้บัญชาการเอวีสูงสุด
***
ออฟไลน์ ออฟไลน์

กระทู้: 1346



« ตอบ #89 เมื่อ: พฤศจิกายน 16, 2023, 09:12:22 PM »

ขอบคุณสำหรับข้อมูลดีๆครับ

หลังจากลองเล่นมาหลายวันพบว่าใช้ดีมากจริงๆเลยขอมาแบ่งปันประสบการณ์ เล่าถึงปัญหาที่เจอและวิธีแก้ไขเผื่อจะเป็นประโยชน์กับท่านอื่นๆครับ

การเลือกEngineแนะนำว่าควรเลือกรันด้วยgpuจะเร็วกว่าcpuมาก(เครื่องผมเร็วขึ้นประมาณ4-6เท่า) โดยแนะนำอยู่2ตัวคือ
1) Purfview's Faster-Whisper รองรับเฉพาะNVDIAเท่านั้น ใครใช้ค่ายเขียวแนะนำให้ใช้ตัวนี้เลยครับ ครบจบในตัว (เหตุผลโปรดอ่านต่อด้านล่าง)
2) Const-me ตัวนี้การ์ดจอAMDสามารถรันได้แต่มีปัญหานิดหน่อย
ส่วนตัวผมใช้GPU AMDเลยใช้ได้แค่ตัวConst-MEส่วนของตัวPurfviewถ้าไม่มีการ์ดจอnvdiaแล้วรันไปมันจะใช้แค่cpuอย่างเดียวครับ ผมทดสอบด้วยไฟล์หนัง TEAM-102 โดยตัดเอาส่วน28นาทีแรกของหนังมาทำซับด้วยSpec [CPU: R5 5800H, GPU: RX 6600M, RAM: 32 GB] พบว่า
-Const-me (GPU) model small ใช้เวลา 55วินาที
-Purftview’s (CPU) model small ใช้เวลา 124 วินาที
-Const-me (GPU) model medium ใช้เวลา 196วินาที
ส่วนตัว Purftview’s (CPU) model medium ไม่ได้รันเพราะขี้เกียจรอครับ 5555 Grin

ต่อมาปัญหาที่เจอในตัวConst-meซึ่งคิดว่าหลายๆท่านน่าจะเจอเหมือนกันคือถ้าหนังมีช่วงเงียบหรือไม่มีคำพูดนานๆ(รวมถึงฉากอย่างว่า)Whisperมันจะมีอาการถอดคำผิดๆออกมาหรือสร้างซับขึ้นมาซ้ำๆ โดยไม่จำเป็นว่าไฟล์หนังต้องนานกว่า1ชั่วโมงเลยครับ ทั้งนี้ถึงจะขยับมาใช้โมเดลขนาดกลางก็ยังไม่หาย (ผมไปหาข้อมูลในgithubหลายๆคนบอกว่าถึงใช้โมเดลlargeก็ยังเจอ)
ตัวอย่าง:


ซึ่งเท่าที่หาข้อมูลมาหลายๆแหล่งพูดตรงกันว่าสาเหตุมาจากตัวแกนของWhisperเองที่จะมีอาการหลอน(AI hallucination)เวลาถอดคำภาษาต่างประเทศแล้วเจอส่วนที่ไม่แน่ใจมันจะมั่วขึ้นมาเลยครับ อย่างไรก็ตามในโมเดลขนาดเล็กเหมือนกันปัญหานี้ในPurfview’s มีน้อยกว่าอย่างเห็นได้ชัด ซึ่งสาเหตุมาจากตัวPurfview’sมีการใช้งานVoice Activity Detector(VAD)ทำการกรองเอาส่วนที่ไม่มีเสียงคนพูดออกไปก่อนแล้วถึงใช้Whisperถอดคำเฉพาะส่วนที่มีเสียงคนพูดเท่านั้น ด้วยเหตุนี้ผมจึงแนะนำตัวPurfviewก่อนสำหรับคนที่มีการ์ดnvdiaครับ

แต่สำหรับคนใช้การ์ดจอAMD(เช่นผมเอง Cry)ต้องเล่นท่ายากนิดหน่อยครับ เหมาะสำหรับคนที่คุ้นเคยกับPython โดยผมได้เขียนสคริปเรียกใช้Silero-VADเพื่อให้มันกรองไฟล์ของเราก่อน1ชั้น โดยVADจะหั่นหนังเราออกเป็นไฟล์เสียงย่อยๆที่มีเฉพาะเสียงคนพูดรวมถึงบันทึกtimestampของแต่ละพาร์ทเพื่อจะได้เอากลับมารวมกันใหม่ได้

วิธีใช้
 1. ขั้นแรกเรียกใช้VADจากไฟล์runVAD.py


ไฟล์หนัง28นาที VADใช้เวลากรองแค่20วินาที ถือว่าไวมาก


จะได้ไฟล์เสียงย่อยออกมาหลายๆไฟล์อยู่ในโฟลเดอร์vad_chunksแบบนี้


 2. โยนไฟล์เสียงทั้งหมดในโฟลเดอร์vad_chunksใส่SubtitleEditได้เลย ใช้โหมดbatchจะได้สั่งทีเดียวถอดทุกไฟล์ต่อกันไปเลยครับและอย่าลืมเลือกengineให้ถูกเพื่อความรวดเร็ว


 3. หลังถอดเสียงทุกไฟล์ครบแล้ว เรียกใช้ไฟล์composeSub.pyเพื่อรวมซับทั้งหมดเป็นไฟล์เดียวเพื่อเอากลับไปแปลต่อในSubtitleEditได้เลยครับ


เปรียบเทียบผลลัพธ์กับแบบเดิม โดยรวมถือว่าดีขึ้นพอสมควร ช่วยให้เอาไปปรับต่อได้ง่ายขึ้นเยอะครับ


ถ้าใครสนใจสามารถโหลดสคริปPythonในนี้ของผมไปลองใช้ได้เลยครับ ข้อเสียหลักๆคือเวลาที่ใช้ถอดคำไฟล์ย่อยทีละไฟล์ดูเหมือนจะนานกว่าถอดไฟล์ใหญ่1ไฟล์ครั้งเดียวครับ กรณีของผมคือจาก~3นาทีกว่าๆเป็น~8นาทีแต่ก็ช่วยเพิ่มคุณภาพซับได้พอสมควรเลยครับ หวังว่าจะเป็นประโยชน์ครับ


ท่านเขียนสคริป Voice Activity Detector(VAD) กรองเอาส่วนที่ไม่มีเสียงคนพูดออก น่าสนใจมากครับ
บันทึกการเข้า


Ameri Ichinose RBD-291 https://avsubthai.me/632
CLUB-044
หน้า: 1 ... 7 8 [9] 10 11 ... 13 พิมพ์ 
« หน้าที่แล้ว ต่อไป »
กระโดดไป:  












AV Community Since 2009 : AVCollectors.com - Advertising please contact [email protected]